Spracherkennung
Spracherkennung, auch Automatic Speech Recognition (ASR), bezeichnet die Umwandlung gesprochener Sprache in schriftlichen Text. Typischerweise wird ein Audiosignal aufgenommen, in Merkmale wie MFCCs oder Spektrogramme überführt und anschließend mithilfe eines Akustikmodells, eines Sprachmodells und eines Lexikons sowie eines Decoders in Text umgesetzt. Ziel ist es, den Gesprächsteilnehmerinnen und -teilnehmern möglichst fehlerarm verständlichen Text zu liefern.
Historisch lässt sich Spracherkennung von regelbasierten Systemen über statistische Modelle bis hin zu modernen neuronalen Netzen
Anwendungen finden sich in Diktiersoftware, virtuellen Assistenten, automatischer Untertitelung, Telefon-call-Centern und Übersetzungsdiensten. Typische Kennzahlen sind die
Herausforderungen umfassen Robustheit gegenüber Geräuschen, Akzentvariation, Umgang mit seltenen Wörtern sowie Datenschutzaspekte, insbesondere bei Cloud-basierten Systemen.
Datenressourcen spielen eine zentrale Rolle. Große öffentlich verfügbare Datensätze wie Common Voice oder domänenspezifische Korpora unterstützen