termgewicht

Termgewicht, in informatieverwerving en natuurlijke taalverwerking, is een numerieke waarde die aan een term in een document of in een zoekopdracht wordt toegekend om het belang of de informatiewaarde ervan te weerspiegelen. Het doel is om documenten en queries te representeren als vectoren in een termruimte, zodat berekeningen zoals gelijkenis of afstand mogelijk zijn.

Veelgebruikte gewichtmethoden zijn onder meer term frequency (TF), die het aantal keren telt dat een term in

Toepassingen van termgewicht zijn onder meer het indexeren van documenten, het rangschikken van zoekresultaten via vectorruimtelijke

Zie ook: vectorruimte-model, TF-IDF, cosine similarity.

veelvoorkomende

1

+

vermenigvuldigd

documentfrequentie

standaardiseren.

probabilistische

documentclassificatie

stopwoordverwijdering