Home

vectorruimtemodel

Een vectorruimtemodel, in het Engels vaak aangeduid als vector space model, is een model voor informatieopvraging en tekstanalyse waarin documenten en queries worden voorgesteld als vectoren in een gemeenschappelijke ruimte. Elke dimensie komt overeen met een term uit de woordenschat en de waarde van een component geeft het gewicht van die term weer in het document of de query. Door representatie van documenten en queries als vectoren kunnen er vergelijkingen worden gemaakt op basis van inhoud.

Gewichten worden meestal bepaald met een combinatie van termfrequentie (TF) en inverse documentfrequentie (IDF), oftewel TF-IDF.

Bij een zoekopdracht wordt de queryvector vergeleken met alle documentvectoren en worden documenten gerangschikt op basis

Varianten en beperkingen: Latente Semantische Analyse (LSA) en verwante technieken reduceren de dimensionaliteit en proberen semantische

De
vectoren
worden
vaak
genormaliseerd
tot
eenheidslengte
zodat
de
vergelijking
tussen
vectoren
consistent
blijft.
De
overeenkomst
tussen
een
queryvector
en
documentvectoren
wordt
doorgaans
gemeten
met
cosine
similarity,
oftewel
de
hoek
tussen
de
vectoren.
van
hun
relevantiescore.
Een
inverted
index
versnelt
dit
proces
omdat
hij
snel
documenten
kan
vinden
die
de
gevraagde
termen
bevatten,
waarna
vectorberekeningen
de
uiteindelijke
ranking
bepalen.
relaties
beter
te
vangen.
Het
model
heeft
ook
beperkingen:
het
kan
moeite
hebben
met
synonieme
en
polyseme
woorden,
en
de
representatie
is
vaak
hoog-dimensionaal
en
spars,
wat
verwerking
en
opslag
beïnvloedt.
Meer
recente
benaderingen
met
neurale
netwerken
bieden
betere
semantiek
maar
bouwen
voort
op
of
vervangen
het
basisidee.
Desondanks
blijft
het
vectorruimtemodel
een
veelgebruikte
basismethode
in
informatieopvraging
en
tekstanalyse.