Home

klankherkenning

Klankherkenning is het proces van het identificeren en classificeren van akoestische signalen als fonemen, klanken of woorden. In de taalkunde verwijst het vaak naar menselijke perceptie en categorisatie van geluiden, terwijl in de informatica onder klankherkenning meestal automatische spraakherkenning wordt verstaan die audio omzet in tekst of transcripties.

In de taalkunde onderzoekt klankherkenning hoe luisteraars klankverschillen waarnemen en hoe fonemische categorieën gevormd worden, inclusief

Bij automatische klankherkenning bestaat een typische verwerkingstrap: geluidsopname, voorbewerking (ruisreductie, normalisatie), kenmerkextractie zoals MFCC’s of spectrogrammen,

Prestaties worden doorgaans uitgedrukt als foneemfoutpercentage (PER) of woordfoutpercentage (WER). Belangrijke benchmarks zijn onder meer TIMIT,

Uitdagingen blijven variatie tussen sprekers en accenten, ruis en achtergrondgeluid, overlappende spraak en snelle spraak. Naarmate

Zie ook: fonetiek, spraakverwerking, spraakherkenning.

effecten
van
context,
co-articulatie
en
variatie
tussen
sprekers
en
dialecten.
Experimenten
meten
perceptuele
confusies
en
grensniveaus
tussen
klanken.
en
vervolgens
een
akoestisch
model
dat
de
signalen
koppelt
aan
fonemen
of
letters,
meestal
met
een
lexicon
en
een
taalmodel
voor
de
uiteindelijke
transcriptie.
Traditioneel
gebruikte
men
GMM-HMM-modellen;
tegenwoordig
domineren
diepe
neurale
netwerken,
met
CTC-
of
attention-gebaseerde
end-to-end
modellen
of
transformerarchitecturen.
LibriSpeech,
en
diverse
spraakdatasets.
Toepassingen
omvatten
spraak-naar-tekstsystemen,
ondertiteling,
digitale
assistenten
en
forensische
spraakanalyse.
modellen
groter
en
data
rijker
worden,
verbeteren
prestaties
in
dagelijkse
situaties.