talegenkendelsessystemer
Talegenkendelsessystemer er software eller hardware, der konverterer talt sprog til skrift. De bruges i stemmestyring, transskription, kundeservice, undertekstning og tilgængelighed.
De behandler lydsignalet ved at udlede funktioner som spektrogrammer eller MFCC'er. En akustisk model lærer sammenhængene
Arkitekturmæssigt findes modulære ASR-systemer med separat akustisk model, sprogmodel og ordbog, samt end-to-end-systemer, der ofte er
Nøglekomponenter inkluderer den akustiske model, sprogmodellen, leksikonet eller ordforrådet, afkodningen og post-processing. Træning kræver store mængder
Anvendelserne spænder fra smartphone-stemmeassistenter og automatiske telefonsvarer til møde- og mødejournaltransskription, tilgængelighed for døve og hørehæmmede
Evalueringsmål omfatter ordfejlrate (WER), karakterfejlrate (CER), realtidsfaktor og robusthed over støj og accenter. Udfordringer inkluderer støj,
Historisk har talegenkendelsessystemer udviklet sig fra tidlige forsøg i midten af det 20. århundrede til nutidens