Home

termgewicht

Termgewicht, in informatieverwerving en natuurlijke taalverwerking, is een numerieke waarde die aan een term in een document of in een zoekopdracht wordt toegekend om het belang of de informatiewaarde ervan te weerspiegelen. Het doel is om documenten en queries te representeren als vectoren in een termruimte, zodat berekeningen zoals gelijkenis of afstand mogelijk zijn.

Veelgebruikte gewichtmethoden zijn onder meer term frequency (TF), die het aantal keren telt dat een term in

Toepassingen van termgewicht zijn onder meer het indexeren van documenten, het rangschikken van zoekresultaten via vectorruimtelijke

Zie ook: vectorruimte-model, TF-IDF, cosine similarity.

een
document
voorkomt.
Om
te
voorkomen
dat
veelvoorkomende
termen
doorslaan,
wordt
vaak
logaritmische
schaal
toegepast
(bijv.
1
+
log(tf)).
Een
belangrijke
uitbreiding
is
TF-IDF,
waarbij
TF
wordt
vermenigvuldigd
met
inverse
documentfrequentie
(IDF),
wat
de
specefieke
bijdrage
van
een
term
in
de
hele
verzameling
benadrukt.
Andere
weegschema’s
omvatten
binair
gewicht
(aan/uit),
en
verschillende
normalisaties
om
de
vectorlengte
te
standaardiseren.
Naast
TF-IDF
zijn
er
probabilistische
en
neurale
benaderingen
voor
termgewichten,
maar
TF-IDF
blijft
een
veelgebruikte
basis
in
veel
systemen.
gelijkenis
(zoals
cosine
similarity),
en
taken
als
documentclassificatie
en
clustering.
Praktisch
gezien
zijn
de
prestaties
sterk
afhankelijk
van
de
gekozen
gewichten,
de
pre-processing
(zoals
stopwoordverwijdering
en
stemming)
en
de
kenmerken
van
de
corpus.
Limitaties
omvatten
semantische
variatie,
synoniemen
en
polysemie,
waardoor
gewicht
alleen
een
heuristische
inschatting
blijft
van
belang.