Textsökning - Infinite Lexicon - Infinite Lexicon

Textsökning

Textsökning är området inom informationssökning som handlar om att hitta relevanta texter eller dokument som svarar på en användares fråga eller kriterier. Den kan vara fulltextbaserad, där hela innehållet indexeras, eller baserad på strukturerade fält. En vanlig kärnteknik är inverted index, som mappar ord till dokument där de förekommer. Inledande processer som tokenisering, normalisering, stopord borttagning och stemming används för att förenkla och effektivisera sökningen. Vid frågebehandling kan användaren ange boolska operatorer, frasfrågor eller jokertecken; modern sökning stöder även fraser och proximitet.

Sökresultatet bedöms och rankas utifrån relevans. Traditionellt används scoringfunktioner som TF-IDF och BM25; mer avancerade metoder

Indexering och sökfrågor kräver ofta särskilda datastrukturer och algoritmer för att hantera stora textkorpora och leverera

Användningsområden omfattar webb- och dokument-sök, företags- och biblioteksapplikationer, kodsökning samt medicinsk och juridisk forskning. Utmaningar inkluderar

Se även: informationssökning, sökmotor.

språkvariation