sanavektoroinnin
Sanavektorointi tarkoittaa tekstin muuntamista numeerisiksi vektoreiksi siten, että sanojen ja lauseiden semanttinen sekä syntaktinen merkitys voidaan kuvata matemaattisesti. Tämä mahdollistaa koneille tehtäviä, kuten sanayhteyksien mittaamisen, tekstin luokittelun sekä informaatiohakua. Hyvin koulutetut vektorit mittaavat sanojen välisiä suhteita siten, että saman merkityksen sanat ovat lähellä toisiaan ja erilaiset sanat erossa.
Perinteisiä menetelmiä ovat bag-of-words ja TF‑IDF, joissa sanoja edustetaan suurikokoisina, harvoin esiintyvinä vektoreina tai niiden painotettuina
Käyttökohteita ovat muun muassa hakujärjestelmien tarkkuuden parantaminen, tekstin luokittelu, käännökset, tiedon louhinta sekä suurten kielimallien sisäisen
Haasteita ovat sanojen moniselitteisyys, vaihtelevat kielet ja kulttuuriset kontekstit, sekä riippuvuus koulutusdatasta aiheuttamien vinoumien ja virheiden