Kielentunnistusta
Kielentunnistus on luonnollisen kielen käsittelyn (NLP) tehtävä, jonka tarkoituksena on määrittää annetun tekstin tai puheesta peräisin olevan näytteen kieli. Tunnistusta voidaan soveltaa kirjoitetulle tekstille, puheelle tai monikieliselle sisällölle. Sitä käytetään muun muassa hakukoneiden, käännöspalveluiden sekä sisällön luokittelun automatisoinnissa, jotta esimerkiksi oikea kieliversio tai käännös voidaan valita oikein.
Menetelmät perustuvat perinteisesti tilastollisiin ja merkkijonoihin (n-grammit) sekä sanoihin (word-level features) pohjautuviin malleihin, kuten Bayesin menetelmiin
Haasteisiin kuuluvat myös harvinaisten kielten resurssien niukkuus ja kirjoitusjärjestelmien erot sekä äännettäessä esiintyvä vaihtelu. Tietojärjestelmien käyttöönotossa
Arvioinnissa käytetään yleisesti tarkkuutta, F1-pistettä ja maksimihyötysuhdetta sekä virhetyyppien erittelyä. Tunnettujen benchmark-kokoonpanojen joukossa ovatLangID- ja DSL-tyyppiset