vectorspacemodellen

Vectorspacemodellen är en grundläggande modell inom informationssökning och textanalys som representerar dokument och frågor som vektorer i ett högt dimensionellt rum. Varje dimension motsvaras av ett ord i vokabulären, och varje dokument- eller frågevektor tilldelas vikter som speglar hur viktig termen är i dokumentet eller i frågan. Vikterna baseras ofta på tf-idf, där tf är termfrekvensen i dokumentet och idf är inversen frekvensen bland dokument i samlingen. Syftet är att ge hög vikt till sällsynta ord som bär information, medan mycket vanliga ord får mindre vikt. Andra viktmetoder förekommer, till exempel binär viktning eller logaritmerad frekvens.

När en användare anger en fråga byggs en frågevektor. Relevansen mellan dokument och fråga bedöms vanligen

Fördelen med VSM är enkelhet och effektivitet på stora textkorpora samt god kompatibilitet med indexering och

Användningar inkluderar sökmotorer, textklassificering och dokumentselektion. VSM utgör en grundläggande byggsten i informationssökning och har haft

informationssökningstekniker.

dimensioneringsmetoder