Home

Spracherkennung

Spracherkennung, auch Automatic Speech Recognition (ASR), bezeichnet die Umwandlung gesprochener Sprache in schriftlichen Text. Typischerweise wird ein Audiosignal aufgenommen, in Merkmale wie MFCCs oder Spektrogramme überführt und anschließend mithilfe eines Akustikmodells, eines Sprachmodells und eines Lexikons sowie eines Decoders in Text umgesetzt. Ziel ist es, den Gesprächsteilnehmerinnen und -teilnehmern möglichst fehlerarm verständlichen Text zu liefern.

Historisch lässt sich Spracherkennung von regelbasierten Systemen über statistische Modelle bis hin zu modernen neuronalen Netzen

Anwendungen finden sich in Diktiersoftware, virtuellen Assistenten, automatischer Untertitelung, Telefon-call-Centern und Übersetzungsdiensten. Typische Kennzahlen sind die

Herausforderungen umfassen Robustheit gegenüber Geräuschen, Akzentvariation, Umgang mit seltenen Wörtern sowie Datenschutzaspekte, insbesondere bei Cloud-basierten Systemen.

Datenressourcen spielen eine zentrale Rolle. Große öffentlich verfügbare Datensätze wie Common Voice oder domänenspezifische Korpora unterstützen

verfolgen.
Modular
arbeitende
Systeme
trennen
Akustikmodell,
Sprachmodell
und
Lexikon;
moderne
Ansätze
setzen
oft
End-to-End-Modelle
wie
RNN-T,
CTC
oder
Transformer-basierte
Architekturen
ein.
Leistungsfähige
Decoder
verwenden
Suchverfahren
wie
Beam
Search,
um
Wahrscheinlichkeiten
von
Wortfolgen
zu
maximieren.
Wortfehlerquote
(WER)
und,
je
nach
Einsatz,
Latenz-
und
Realzeitfaktoren.
Spracherkennung
muss
oft
mit
Hintergrundrauschen,
verschiedenen
Akzenten,
Dialekten
und
Mehrsprachigkeit
umgehen.
Gleichzeitig
steigt
die
Privatsphäre
durch
On-Device-Verarbeitung
und
verschlüsselte
Übertragung.
das
Training.
Deutsches
Spracherkennungspotenzial
wächst
durch
spezialisierte
Datensätze
und
multilingualen
Modellen;
Fortschritte
zeigen
sich
insbesondere
durch
größere,
vielfältigere
Trainingsdaten
und
verbesserte
End-to-End-Architekturen.