Kõnetuvamist
Kõnetuvastus on tehnoloogia, mis teisendab kõne kirjutatuks tekstiks või digitaalseks sõnaväljenduseks. See ühendab helisalvestuse analüüsi, akustika- ja keelemudelite treenimise ning teksti genereerimise, et võimaldada häälega juhitavaid rakendusi ja automaatset transkriptsiooni.
Süsteemi tööpõhimõte hõlmab tavapäraselt järgmisi osi: audio sisend; eeltöötlus ja tunnuste väljastamine (nt MFCC-d või log-spektrogrammid);
Viimastel aastatel on levinud end-to-end närvivalgustused, kus akustika ja keele modelling ühendatakse üheks mudeliks, sageli kasutades
Rakendused hõlmavad virtuaalseid assistente, automaatset transkriptsiooni ja subtitrimist videotes, ligipääsetavuse parandamist ning meditsiinilise dokumenteerimise ja klienditeeninduse
Hindamine ja väljakutsed: tulemusi mõõdetakse tihti sõnaväljete vea suhtena (Word Error Rate, WER) või täpsuse ja