Home

talegenkendelse

Talegenkendelse (også kaldet automatisk talegenkendelse, ASR) er en disciplin inden for kunstig intelligens og talebehandling, der har til formål at konvertere talt sprog til skriftlig tekst ved hjælp af computeralgoritmer. Systemerne kan køre i realtid eller på optagede lydfiler og anvendes bredt i talestyring af enheder, automatiske transskriptioner, undertekster i videoindhold og tilgængelighedsprogrammer for døve og hørehæmmede.

Algoritmisk består talegenkendelse typisk af tre lag: forbehandling og støjreduktion, featureekstraktion og akustisk/lingvistisk modellering samt dekoding,

Historisk set blev talegenkendelse i vid udstrækning drevet af skjulte Markov-modeller og statistiske sprogmodeller; i dag

Måleparametre: Den mest udbredte måling er ordfejlrate (WER). Udfordringer inkluderer støj og baggrund, dialektvariationer, hurtige eller

Fremtiden forventes at bringe bedre sprog og dialekt-dækning, mere effektive tilpassede modeller og øget anvendelse i

der
finder
den
mest
sandsynlige
tekst.
Modellerne
kan
være
modulære,
hvor
en
akustisk
model
og
en
sprogmodel
arbejder
sammen,
eller
end-to-end
neurale
netværk,
der
direkte
genererer
tekst
fra
lyd.
End-to-end
tilgange
omfatter
transformerbaserede
arkitekturer
og
erfaringer
som
wav2vec
2.0
og
Whisper.
domineres
feltet
af
dybe
neurale
netværk
og
store
datamængder,
hvilket
har
forbedret
og
generaliseret
ydelsen
på
tværs
af
sprog
og
dialekter.
uforudsigelige
taleflader,
realtidskrav
og
behov
for
store,
ofte
personlige
datasæt.
Etiske
og
juridiske
overvejelser
omfatter
privatliv,
dataadgang,
bias
og
overholdelse
af
GDPR
og
andre
databeskyttelsesregler.
tilgængelighed
og
kommunikation
på
tværs
af
platforme.