PitchSchätzung

PitchSchätzung, auch F0-Schätzung genannt, ist der Prozess der Bestimmung der Grundfrequenz eines Audiosignals über die Zeit. Die Grundfrequenz F0 entspricht dem niedrigsten Harmonischen des Schalls und wird in vielen Anwendungen als Pitch wahrgenommen. Ziel der PitchSchätzung ist es, eine zeitlich aufgelöste F0-Spur zu erzeugen, die Sprache, Gesang oder Musik charakterisiert.

Methoden lassen sich grob in zeitbereichsbasierte Ansätze (z. B. Autokorrelation, AMDF, YIN und dessen Varianten) und

Herausforderungen ergeben sich bei polyphonem Material, Vibrato, Stimmführung, Formantenstrukturen, Rauschen, Störgeräuschen oder ungesungenen Abschnitten. Oktavenverwechslungen und

Anwendungen finden sich in der Sprachanalyse (Prosodie, Sprechererkennung, Sprachtherapie), in der Musik-Information-Retrieval, der Musikanalyse, dem Stimmtraining

frequenzbereichsbasierte

(Spektrumanalyse

Zeitbereichsmodelle

frequenzbereichsbasierte

Peak-Strukturen

Unvoiced-Entscheidungen

Post-processing-Techniken

Trajektorien-Glättung

Instabilitäten

Kontextinformationen.

Tuning-Systemen.

PitchSchätzung

Voicing-Decision-Error