Home

volledigetekstindexen

Volledigetekstindexen zijn datastructuren die de inhoud van documenten in elektronische systemen efficiënt toegankelijk maken via zoektermen. Ze worden veel gebruikt in search engines, content management systemen en applicaties met volledige tekstzoekopdrachten. In tegenstelling tot traditionele b-trees of primaire sleutels richten volledigetekstindexen zich op woorden en hun locaties binnen documenten, zodat relevante resultaten sneller kunnen worden gevonden.

Het onderliggende principe is meestal een inverted index: voor elk uniek token (woord of symbool) houdt de

Tijdens een zoekopdracht wordt het querywoord berekend, de relevante documenten uit de inverted index opgezocht en

Onderhoud van volledigetekstindexen vergt periodieke herindexering bij grote wijzigingen en kan extra opslag vereisen vanwege term-positie-info.

Volledigetekstindexen verbeteren de bruikbaarheid van zoektoepassingen door snelle en relevante opsporing van documenten op basis van

index
bij
in
welke
documenten
(en
vaak
op
welke
positie
of
frequentie)
dit
token
voorkomt.
Het
indexeren
omvat
meerdere
stappen:
tokenisatie
(ontleding
van
tekst
in
woorden),
normalisatie
(bijv.
hoofdletters,
leestekens),
stopwoordverwijdering
(veelvoorkomende
woorden
worden
soms
weggelaten),
en
vaak
stemming
of
lemmatizering
om
tot
stamvormen
te
komen.
Het
resultaat
is
een
compacte
structuur
die
veel
zoektermen
snel
omzet
in
documenten.
vervolgens
gescoord
en
gerankt.
Veelvoorkomende
rankingmethoden
zijn
TF-IDF
of
BM25,
die
rekening
houden
met
de
frequentie
van
een
term
in
een
document
en
de
algemene
verspreiding
ervan
over
de
verzameling.
Complexere
systemen
ondersteunen
ook
phrase-,
proximity-
en
faceting-zoekopdrachten.
Ze
zijn
doorgaans
beschikbaar
via
databasefunctionaliteit
(bijv.
MySQL
InnoDB
FULLTEXT,
PostgreSQL
tsvector)
of
gespecialiseerde
zoekmachines
(Elasticsearch,
Apache
Solr,
Lucene).
inhoud,
vooral
bij
grote
hoeveelheden
tekstuele
data.