Home

Sprachinput

Sprachinput bezeichnet die Nutzung gesprochener Sprache zur Eingabe von Informationen oder Befehlen in Computersysteme, mobile Endgeräte und andere Anwendungen. Ziel ist es, gesprochene Äußerungen automatisch in Text zu transkribieren oder in Steuerbefehle zu übersetzen. Es umfasst Diktier-, Befehls- und Dialogschnittstellen.

Technisch basiert Sprachinput auf Spracherkennung (ASR). Moderne Systeme kombinieren akustische Modelle, Sprachmodelle und Decoder, oft mit

Anwendungsbereiche reichen vom Sprachdiktat in Textverarbeitung, über Sprachsteuerung von Smartphones, Smart-Home-Geräten und Fahrzeugen, bis zur Transkription

Herausforderungen sind Störgeräusche, Akzente, Mehrsprachigkeit und domänenabhängige Terminologie. Sprachverarbeitung erfordert oft große Datenmengen; Latenz, Datenschutz und

Historisch entwickelte sich Sprachinput von frühen Spracherkennungssystemen der 1950er Jahre, die nur Ziffern erkennen konnten (Bell

neuronalen
Netzen.
Die
Verarbeitung
kann
lokal
auf
dem
Endgerät
oder
in
der
Cloud
erfolgen.
End-to-end-Ansätze
wandeln
Audio
direkt
in
Text,
während
traditionelle
Systeme
separate
Komponenten
nutzen.
von
Meetings
oder
barrierefreien
Anwendungen.
Sprachinput
findet
sich
auch
in
IVR-Systemen
und
Übersetzungsdiensten.
Sicherheit
sind
wichtig,
besonders
bei
Cloud-Lösungen.
Bewertungen
nutzen
Kennzahlen
wie
Wortfehlerquote
(WER).
Labs'
Audrey),
zu
modernen
End-to-end-Systemen
mit
Deep-Learning
in
den
2010er
Jahren.
Web-Standards
wie
die
Web
Speech
API
ermöglichen
Spracherkennung
direkt
in
Browsern;
Datenschutzregelungen
variieren
regional.