Puheentunnistuksen - Infinite Lexicon - Infinite Lexicon

Puheentunnistuksen

Puheentunnistus on teknologia, joka muuntaa puhuttua kieltä kirjoitetuksi tekstiksi tai muiksi järjestelmätoiminnoiksi. Se on osa ihmisen ja tietokoneen välistä vuorovaikutusta ja sitä hyödynnetään muun muassa puhekirjoittamisessa, virtuaaliavustajissa sekä esteettömyyden parantamisessa.

Tyypillinen kehityskulku alkaa ääninäytteiden ominaisuuksien, kuten MFCC- tai mel-spektrogrammien, piirteiden poimimisesta. Tämän jälkeen seuravat akustinen malli,

Tekniikoissa hyödynnetään erilaisia rakenteita, kuten HMM, Connectionist Temporal Classification (CTC) sekä huomio– tai transformer-pohjaisia malleja. Esimerkkejä

Sovellukset kattavat sekä reaaliaikaisen että eräajoon tarkoitetun transkription, puheavusteiset järjestelmät, asiakaspalvelut sekä tekstityksen videoille ja medioille.

Arviointi puheentunnistuksessa perustuu yleisesti sanavuheiden määrää mittaava sanavirhetilasto (WER) sekä kirjainten tasolla mitattava CER, sekä järjestelmän

puheentunnistuksen

teknologiakehitykseen

end-to-end-neuroverkkoja.

kehityssuuntauksista

Whisper-tyyppiset

ympäristöihin.

Puheentunnistuksen

käyttöönotto

yksityisyydestä,

turvallisuudesta

näkökohdista.

reaaliaikaisuus