Kielentunnistusta - Infinite Lexicon - Infinite Lexicon

Kielentunnistusta

Kielentunnistus on luonnollisen kielen käsittelyn (NLP) tehtävä, jonka tarkoituksena on määrittää annetun tekstin tai puheesta peräisin olevan näytteen kieli. Tunnistusta voidaan soveltaa kirjoitetulle tekstille, puheelle tai monikieliselle sisällölle. Sitä käytetään muun muassa hakukoneiden, käännöspalveluiden sekä sisällön luokittelun automatisoinnissa, jotta esimerkiksi oikea kieliversio tai käännös voidaan valita oikein.

Menetelmät perustuvat perinteisesti tilastollisiin ja merkkijonoihin (n-grammit) sekä sanoihin (word-level features) pohjautuviin malleihin, kuten Bayesin menetelmiin

Haasteisiin kuuluvat myös harvinaisten kielten resurssien niukkuus ja kirjoitusjärjestelmien erot sekä äännettäessä esiintyvä vaihtelu. Tietojärjestelmien käyttöönotossa

Arvioinnissa käytetään yleisesti tarkkuutta, F1-pistettä ja maksimihyötysuhdetta sekä virhetyyppien erittelyä. Tunnettujen benchmark-kokoonpanojen joukossa ovatLangID- ja DSL-tyyppiset

tukivektori-koneisiin.

kehittyneemmät

transformer-pohjaiset

suorituskykyä,

monikielisissä

Monikielisissä

sisältävissä

kirjoitusvirheet,

samankaltaisten

Kielentunnistus

puheentunnistuksen