TFIDFvektoroinnin
TF-IDF vektoroinnin, lyhenne sanoista Term Frequency-Inverse Document Frequency, on tilastollinen mitta, jota käytetään arvioimaan sanan merkitystä tekstidokumentissa. TF-IDF on yleinen tapa muuntaa tekstiä numeeriseen muotoon, jota voidaan käyttää koneoppimisalgoritmeissa.
Term Frequency (TF) mittaa, kuinka usein tietty sana esiintyy dokumentissa. Mitä useammin sana esiintyy, sitä suurempi
TF-IDF-arvo lasketaan kertomalla sanan TF-arvo sen IDF-arvolla. Tämä antaa suuremman painoarvon sanoille, jotka ovat sekä yleisiä