Documentindexering
Documentindexering er processen med at oprette og vedligeholde et søgbart indeks over et samling af dokumenter for at Muliggøre hurtig og relevant søgning. Indekset består typisk af metadata og en fuldtekstindeksering, hvor ord og begreber omdannes til søgebare tokens og knyttes til dokumenter.
En indeksarbejdsgang indebærer indsamling, forbehandling, tokenisering, normalisering, stopordfjernelse og stemming eller lemmatisering, efterfulgt af opbygning af
Metadata spiller en vigtig rolle og kan følge standarder som Dublin Core, MARC eller schema.org for webpublikationer.
Indeksering kan være fuldtekstbaseret eller kombineret med begrænset metadata. Følgende teknologier anvendes: søgemotorer, bibliotekssystemer, repositories, og
Udfordringer inkluderer flersproget indhold, synonymi og polysemi, opdateringer i dokumenter, og håndtering af store mængder. Privately
Sammenfatning: Dokumentindeksering muliggør hurtig adgang til information ved at konvertere dokumenter til et søgbart form og