Home

vectorspacemodellen

Vectorspacemodellen är en grundläggande modell inom informationssökning och textanalys som representerar dokument och frågor som vektorer i ett högt dimensionellt rum. Varje dimension motsvaras av ett ord i vokabulären, och varje dokument- eller frågevektor tilldelas vikter som speglar hur viktig termen är i dokumentet eller i frågan. Vikterna baseras ofta på tf-idf, där tf är termfrekvensen i dokumentet och idf är inversen frekvensen bland dokument i samlingen. Syftet är att ge hög vikt till sällsynta ord som bär information, medan mycket vanliga ord får mindre vikt. Andra viktmetoder förekommer, till exempel binär viktning eller logaritmerad frekvens.

När en användare anger en fråga byggs en frågevektor. Relevansen mellan dokument och fråga bedöms vanligen

Fördelen med VSM är enkelhet och effektivitet på stora textkorpora samt god kompatibilitet med indexering och

Användningar inkluderar sökmotorer, textklassificering och dokumentselektion. VSM utgör en grundläggande byggsten i informationssökning och har haft

med
kosinuslikhet,
där
inre
produkten
mellan
vektorerna
delas
med
deras
längder.
Dokument
med
störst
likhet
rankas
högst.
andra
informationssökningstekniker.
Begränsningar
inkluderar
brist
på
explicit
semantik,
svårigheter
med
synonymi
och
polysemi
samt
att
kontext
och
ordning
ofta
förbises.
Latent
semantisk
analys
(LSA)
och
andra
dimensioneringsmetoder
används
ibland
för
att
reducera
dimensioner
och
fånga
latenta
strukturer.
stor
påverkan
på
senare
IR-modeller.