kielentunnistukseen
Kielentunnistus on prosessi, jossa annetusta tekstistä päätellään sen kieli tai kieliryhmä. Tavoitteena on luokitella teksti oikeaan kieleen sekä erottaa sille ominaiset piirteet. Kielentunnistusta käytetään laajasti monikielisessä digitaalisessa sisällössä, tiedonhausta, käännöspalveluissa ja sisällön moderoinnissa.
Perinteisesti kielentunnistus perustui tilastollisiin malleihin ja piirteisiin kuten kirjainten n-grammeihin sekä sanojen esiintymistiheyksiin. N-grammi-mallit voivat olla
Sovelluksia ovat muun muassa hakukoneiden kieliasetukset, automaattinen sisällön luokittelu, sosiaalisen median viestien kielen tunnistus sekä alustojen
Haasteita ovat lyhyet tekstipätkät (esim. tweetit), kielen sekoittuminen (koodinvaihto) ja harvinaisempien kielten rajallinen koulutusdata. Lisäksi erikoismerkit,
Välineinä kielentunnistukseen käytetään sekä avoimen lähdekoodin että kaupallisia ratkaisuja, kuten fastTextin kielentunnistus, Google's cld2/cld3 ja LangID-pohjaiset