Sprachausgaben
Sprachausgaben, auch Text-to-Speech (TTS) genannt, bezeichnet die technische Erzeugung von hörbarer Sprache aus geschriebenem Text oder anderen Reizen. Ziel ist es, Inhalte akustisch wiederzugeben, ohne dass eine menschliche Stimme erforderlich ist.
Technologien: Es gibt verschiedene Ansätze. Formantensynthese erzeugt Sprache direkt durch Modelle der Stimmenmechanik; konkatenative Synthesis setzt
Bestandteile: Typische Sprachausgabesysteme umfassen Textnormalisierung (Zahlen, Abkürzungen aussprechen), linguistische Verarbeitung, Prosodievermittlung, Stimmsimulation und die eigentliche Waveform-Synthese.
Anwendungen: Barrierefreiheit für Blinde und Sehbehinderte, Navigation, Call-Center, Smart-Home-Assistenten, E-Books, Anleitungen und Medien.
Qualität und Bewertung: Wichtige Kriterien sind Natürlichkeit, Verständlichkeit, Lautheit, Interpunktion und Latenz. Güte wird oft mit
Standards und Herausforderungen: SSML wird von W3C genutzt. Datenschutz und ethische Fragen betreffen Stimme-Cloneings, Identitätsschutz, Bias