F0Normalisierung
F0Normalisierung bezeichnet in der Sprachverarbeitung das Transformieren der fundamentalen Frequenz F0, um Unterschiede in Stimmlage, Sprechergröße oder Aufnahmebedingungen zu reduzieren und F0-Konturen besser vergleichbar zu machen. F0 ist die niedrigste hörbare Frequenz eines Sprachsignals und wird häufig in Phonetik, Prosodie und Sprachsynthese verwendet. Da die menschliche Wahrnehmung von Pitch logarithmisch erfolgt, erfolgt die Normalisierung oft nach einer Log- oder logaritimischen Transformation der F0-Werte.
Typische Ansätze der Normalisierung umfassen die Z-Transformation des log-F0 pro Sprecher (f0_norm = [log(F0) – mean_logF0] / std_logF0) oder
Anwendungen finden sich vor allem in der Spracherkennung, der Sprachsynthese und in prosodischen Analysen. Die Normalisierung
Herausforderungen umfassen große individuelle Unterschiede in F0-Repertoires, Mehrdeutigkeiten in der Intonation, linguistische Unterschiede zwischen Sprachen sowie