TFIDFvektorer
TFIDFvektorer är en vanlig representation av dokument i textanalys och informationsåterfinning. De består av vektorer där varje dimension motsvarar ett ord eller en term i en ordlista, och varje komponent innehåller en TF-IDF-viktning för termens förekomst i dokumentet.
TFIDF står för termfrekvens–omvänd dokumentfrekvens. Termfrekvensen (TF) mäter hur ofta en term förekommer i ett dokument
Genom denna viktning får termer som är specifika för ett dokument större betydelse, medan mycket vanliga ord
Användningar inkluderar informationssökning, dokumentklassificering och klustring. Förbättringar som vanligtvis tillämpas är logaritmisk normalisering av TF, sublinear