Spracheingaben

Spracheingaben bezeichnet die Eingabe von Informationen durch gesprochene Sprache, die von Spracherkennungssystemen erfasst und in Text oder Befehle umgewandelt wird. Sie dient der Interaktion mit Computern, mobilen Geräten, Fahrzeugen und vernetzten Haushaltsgeräten auf natürliche Weise.

Technischer Rahmen: Ein Spracherkennungsprozess wandelt akustische Signale in linguistische Rechenstrukturen. Typische Bestandteile sind Merkmalsextraktion (zum Beispiel

Typen: Diktier- oder Transkriptionsanwendungen, bei denen Sprache in Text umgewandelt wird; Sprachbefehle und Steuerung von Geräten;

Anwendungen: Mobiltelefone, Smart-Home-Geräte, Bordcomputer in Fahrzeugen, barrierearme Anwendungen für Menschen mit eingeschränkter Sicht oder Motorik sowie

Herausforderungen: Umgebungsgeräusche, Akzente und unterschiedliche Sprechstile, Mehrsprachigkeit und Code-Switching, Datenschutz und Datensicherheit, Latenz sowie der Ressourcenbedarf

Leistung und Evaluation: Wichtige Kennzahlen sind der Word Error Rate (WER) und der Real-Time Factor (RTF), die

Datenschutz und Sicherheit: Spracherkennung kann sensible Informationen erfassen. On-device-Verarbeitung erhöht Privatsphäre, Cloud-Verarbeitung bietet oft leistungsfähigere Modelle.

Wahrscheinlichkeitsmodell

End-to-End-Modelle

Sprachassistenten

Kundendienst-Bots

Automatisierungslösungen

Verarbeitungsgeschwindigkeit

End-to-End-Modellen

Deaktivierbarkeit

Sicherheitsupdates