Spracheingaben
Spracheingaben bezeichnet die Eingabe von Informationen durch gesprochene Sprache, die von Spracherkennungssystemen erfasst und in Text oder Befehle umgewandelt wird. Sie dient der Interaktion mit Computern, mobilen Geräten, Fahrzeugen und vernetzten Haushaltsgeräten auf natürliche Weise.
Technischer Rahmen: Ein Spracherkennungsprozess wandelt akustische Signale in linguistische Rechenstrukturen. Typische Bestandteile sind Merkmalsextraktion (zum Beispiel
Typen: Diktier- oder Transkriptionsanwendungen, bei denen Sprache in Text umgewandelt wird; Sprachbefehle und Steuerung von Geräten;
Anwendungen: Mobiltelefone, Smart-Home-Geräte, Bordcomputer in Fahrzeugen, barrierearme Anwendungen für Menschen mit eingeschränkter Sicht oder Motorik sowie
Herausforderungen: Umgebungsgeräusche, Akzente und unterschiedliche Sprechstile, Mehrsprachigkeit und Code-Switching, Datenschutz und Datensicherheit, Latenz sowie der Ressourcenbedarf
Leistung und Evaluation: Wichtige Kennzahlen sind der Word Error Rate (WER) und der Real-Time Factor (RTF), die
Datenschutz und Sicherheit: Spracherkennung kann sensible Informationen erfassen. On-device-Verarbeitung erhöht Privatsphäre, Cloud-Verarbeitung bietet oft leistungsfähigere Modelle.