talegenkendelsessystemer - Infinite Lexicon - Infinite Lexicon

talegenkendelsessystemer

Talegenkendelsessystemer er software eller hardware, der konverterer talt sprog til skrift. De bruges i stemmestyring, transskription, kundeservice, undertekstning og tilgængelighed.

De behandler lydsignalet ved at udlede funktioner som spektrogrammer eller MFCC'er. En akustisk model lærer sammenhængene

Arkitekturmæssigt findes modulære ASR-systemer med separat akustisk model, sprogmodel og ordbog, samt end-to-end-systemer, der ofte er

Nøglekomponenter inkluderer den akustiske model, sprogmodellen, leksikonet eller ordforrådet, afkodningen og post-processing. Træning kræver store mængder

Anvendelserne spænder fra smartphone-stemmeassistenter og automatiske telefonsvarer til møde- og mødejournaltransskription, tilgængelighed for døve og hørehæmmede

Evalueringsmål omfatter ordfejlrate (WER), karakterfejlrate (CER), realtidsfaktor og robusthed over støj og accenter. Udfordringer inkluderer støj,

Historisk har talegenkendelsessystemer udviklet sig fra tidlige forsøg i midten af det 20. århundrede til nutidens

End-to-end-systemer

i

streamingvenlige

i

domain-specifikke

dialektuafhængige.

on-device-løsninger.

læringsmodeller.

flersprogssystemer,

privacy-preserving