Puheentunnistuksen
Puheentunnistus on teknologia, joka muuntaa puhuttua kieltä kirjoitetuksi tekstiksi tai muiksi järjestelmätoiminnoiksi. Se on osa ihmisen ja tietokoneen välistä vuorovaikutusta ja sitä hyödynnetään muun muassa puhekirjoittamisessa, virtuaaliavustajissa sekä esteettömyyden parantamisessa.
Tyypillinen kehityskulku alkaa ääninäytteiden ominaisuuksien, kuten MFCC- tai mel-spektrogrammien, piirteiden poimimisesta. Tämän jälkeen seuravat akustinen malli,
Tekniikoissa hyödynnetään erilaisia rakenteita, kuten HMM, Connectionist Temporal Classification (CTC) sekä huomio– tai transformer-pohjaisia malleja. Esimerkkejä
Sovellukset kattavat sekä reaaliaikaisen että eräajoon tarkoitetun transkription, puheavusteiset järjestelmät, asiakaspalvelut sekä tekstityksen videoille ja medioille.
Arviointi puheentunnistuksessa perustuu yleisesti sanavuheiden määrää mittaava sanavirhetilasto (WER) sekä kirjainten tasolla mitattava CER, sekä järjestelmän