Vektorutrymmesmodellen
Vektorutrymmesmodellen (VSM) är en modell inom informationshämtning som representerar dokument och användarfrågor som vektorer i ett högdimensionellt rum där varje dimension motsvarar en term ur korpusen. Varje dokument beskrivs av en viktad termförekomstvektor, och varje fråga av en liknande vektor. Platsen i rummet återspeglar vilka termer som förekommer och hur betydelsefulla de är.
Vikterna i modellen baseras vanligtvis på termens frekvens inom dokumentet och hur sällsynt termen är i hela
Likheten mellan dokument och förfrågan mäts vanligen med cosinuslikhet, vilket bedömer vinkeln mellan två vektorer och
Behandlingen inkluderar vanligtvis förbehandling av texten (tokenisering, borttagning av stoppord, stemming eller lemmatisering), uppbyggnad av en
Fördelar: enkelt att implementera, skalbart, och ofta effektivt för generella sökfrågor. Begränsningar: saknar djupare semantik och