tekstindexering
Tekstindexering is het proces waarbij ongestructureerde tekst wordt omgezet in een datastructuur die efficiënt kan worden doorzocht. Het doel is snelle en relevante resultaten bij zoekopdrachten in documenten, webpagina's, bibliotheken en bedrijfsdatabanken.
Het centrale concept is het inverted index: een index die per term bijhoudt in welke documenten hij
Voorbewerking en indexering bestaan uit tokenisatie (het opdelen van tekst in woorden of zinsdelen), normalisatie (conversie
Queryverwerking omvat analyse van de zoekopdracht, het opzoeken in de inverted index en het berekenen van relevantie
Toepassingen omvatten web- en intranetszoekers, digitale bibliotheken, documentmanagementsystemen en e-discovery. Voorbeelden van technologieën die tekstindexering implementeren
Uitdagingen zijn meertaligheid, varianten in spelling en afkortingen, OCR-fouten bij gescande documenten, ruis en privacyoverwegingen. Trends