TTSjärjestelmät
TTS-järjestelmät ovat tekniikoita, jotka muuntavat kirjoitetun tekstin puheeksi. Ne koostuvat useista vaiheista: tekstin normalisointi (esim. numeroiden ja lyhenteiden lukeminen sanallisesti), kielellinen käsittely, äänteiden muuntaminen kirjoitetusta tekstistä (grapheme-to-phoneme, G2P), prosodian ennustaminen sekä varsinaisen puheen synteesi. Malleja on useita: konkatenaatiivinen TTS käyttää valittuja äänitteiden osia, kun taas parametrisissa ja erityisesti neural-tekniikkaa hyödyntävissä malleissa puhe tuotetaan tilastollisesti tai end-to-end -periaatteella. Viime vuosina end-to-end neural TTS -mallit ovat yleistyneet ja voivat yhdistää akustisen mallin ja vokooderin yhdeksi järjestelmäksi.
Suomen kieli asettaa erityishaasteita: agglutinaatio, pitkät sanat sekä vokaaliharmonia vaikuttavat sekä G2P:n että prosodian mallintamiseen. Kehitystyötä
Käyttökohteita ovat esteettömyys näkövammaisille, oppimisen ja opetuksen tuki, puhebotit ja automatisoidut asiakaspalvelut sekä ajoneuvo- ja mediakokemusten
TTS-tutkimus ja -kehitys tähtäävät entistä naturalistisempaan ääneen, parempaan monikielisyyteen sekä kykyyn oppia pienemmilläkin dataseteillä ja sopeutua