talegenkendelse
Talegenkendelse (også kaldet automatisk talegenkendelse, ASR) er en disciplin inden for kunstig intelligens og talebehandling, der har til formål at konvertere talt sprog til skriftlig tekst ved hjælp af computeralgoritmer. Systemerne kan køre i realtid eller på optagede lydfiler og anvendes bredt i talestyring af enheder, automatiske transskriptioner, undertekster i videoindhold og tilgængelighedsprogrammer for døve og hørehæmmede.
Algoritmisk består talegenkendelse typisk af tre lag: forbehandling og støjreduktion, featureekstraktion og akustisk/lingvistisk modellering samt dekoding,
Historisk set blev talegenkendelse i vid udstrækning drevet af skjulte Markov-modeller og statistiske sprogmodeller; i dag
Måleparametre: Den mest udbredte måling er ordfejlrate (WER). Udfordringer inkluderer støj og baggrund, dialektvariationer, hurtige eller
Fremtiden forventes at bringe bedre sprog og dialekt-dækning, mere effektive tilpassede modeller og øget anvendelse i