klankherkenning
Klankherkenning is het proces van het identificeren en classificeren van akoestische signalen als fonemen, klanken of woorden. In de taalkunde verwijst het vaak naar menselijke perceptie en categorisatie van geluiden, terwijl in de informatica onder klankherkenning meestal automatische spraakherkenning wordt verstaan die audio omzet in tekst of transcripties.
In de taalkunde onderzoekt klankherkenning hoe luisteraars klankverschillen waarnemen en hoe fonemische categorieën gevormd worden, inclusief
Bij automatische klankherkenning bestaat een typische verwerkingstrap: geluidsopname, voorbewerking (ruisreductie, normalisatie), kenmerkextractie zoals MFCC’s of spectrogrammen,
Prestaties worden doorgaans uitgedrukt als foneemfoutpercentage (PER) of woordfoutpercentage (WER). Belangrijke benchmarks zijn onder meer TIMIT,
Uitdagingen blijven variatie tussen sprekers en accenten, ruis en achtergrondgeluid, overlappende spraak en snelle spraak. Naarmate