Home

fulltextsökning

Fulltextsökning är en metod för att återfinna information där sökningen görs mot hela textinnehållet i dokument eller databaser snarare än enbart metadata. Genom att analysera innehållet kan systemet hitta relevanta dokument även när användaren inte känner till exakt ordning eller exakta termer. Vanliga användningsområden är dokumenthantering, webb- och enterprise-sök, digitala bibliotek och e-handel.

Processen består av två steg: indexering och sökning. Vid indexering läses varje dokument, texten bryts ned

Tekniker och plattformar: Avancerade system som Elasticsearch och Apache Solr bygger på Lucene och erbjuder distribuerad

Fördelar och utmaningar: Fulltextsökning möjliggör snabb åtkomst till stora textmängder och mer precisa sökresultat än enkel

i
token,
normaliseras
(t.ex.
till
små
bokstäver),
stop
words
tas
bort,
stemming
eller
lemmatization
kan
användas.
Dessa
tokens
lagras
i
en
inverted
index
som
kopplar
termer
till
dokument
och
ofta
även
positioner.
Vid
sökningen
tolkas
användarens
fråga,
tokeniseras
på
samma
sätt,
och
matchning
görs
enligt
indexet.
Relevansen
bedöms
vanligtvis
med
poängberäkningar
som
BM25
eller
tf-idf,
ibland
med
fras-,
proximitets-
eller
syntaktisk
matchning.
Förbättringar
som
stemming,
synonymer,
böjningsformer
och
felstavningskorrigering
är
vanliga.
realtidssökning,
relevansrankning,
facettering
och
filtrering.
Andra
alternativ
inkluderar
PostgreSQLs
fulltextsökning
eller
olika
proprietära
lösningar
i
molnet.
Multilingualt
stöd,
stopword-listor
och
anpassade
analyzers
används
beroende
på
språk
och
domän.
nyckelordsfångst.
Utmaningar
inkluderar
indexeringslatens,
lagringsbehov,
konfigurationskomplexitet,
hantering
av
säkerhet
och
åtkomstkontroller
samt
att
hantera
stavningsvariationer
och
tvetydigheter.