tekstindeks
Et tekstindeks er en datastruktur som gjør det mulig å finne tekster eller forekomster av ord i en samling dokumenter. Den mest kjente typen er et omvendt indeks (inverted index), som kobler hvert ord til dokumenter og posisjoner der ordet forekommer. Tekstindekser er sentrale i fulltekstsøking og tekstbasert informasjonsutvinning.
Hovedkomponentene er en termliste, postingslister for hvert ord og metadata som dokumentidentifikatorer, posisjoner og frekvenser. Mange
Indekseringsprosessen består av tekstforbehandling: normalisering, tokenisering, fjerning av stoppord og stemming eller lemmatisering. Deretter bygges postingslister
Det finnes ulike typer tekstindekser. I tillegg til omvendt indeks finnes suffix- og n-gram-indekser som hjelper
Anvendelser inkluderer søkemotorer, digitale biblioteker og kildekodesøk. Fordeler er raske spørringer og støtte for komplekse spørringer