Home

PitchSchätzung

PitchSchätzung, auch F0-Schätzung genannt, ist der Prozess der Bestimmung der Grundfrequenz eines Audiosignals über die Zeit. Die Grundfrequenz F0 entspricht dem niedrigsten Harmonischen des Schalls und wird in vielen Anwendungen als Pitch wahrgenommen. Ziel der PitchSchätzung ist es, eine zeitlich aufgelöste F0-Spur zu erzeugen, die Sprache, Gesang oder Musik charakterisiert.

Methoden lassen sich grob in zeitbereichsbasierte Ansätze (z. B. Autokorrelation, AMDF, YIN und dessen Varianten) und

Herausforderungen ergeben sich bei polyphonem Material, Vibrato, Stimmführung, Formantenstrukturen, Rauschen, Störgeräuschen oder ungesungenen Abschnitten. Oktavenverwechslungen und

Anwendungen finden sich in der Sprachanalyse (Prosodie, Sprechererkennung, Sprachtherapie), in der Musik-Information-Retrieval, der Musikanalyse, dem Stimmtraining

frequenzbereichsbasierte
Ansätze
(Spektrumanalyse
mit
FFT,
Cepstrum,
Harmonic
Product
Spectrum)
unterteilen.
Zeitbereichsmodelle
suchen
periodische
Strukturen
direkt
im
Signal,
während
frequenzbereichsbasierte
Verfahren
die
Spektren
analysieren,
um
die
Grundfrequenz
aus
Peak-Strukturen
abzuleiten.
In
der
Praxis
werden
oft
Voicing-
bzw.
Unvoiced-Entscheidungen
getroffen,
um
Pausen
und
ungesungene
Segmente
zu
kennzeichnen.
Post-processing-Techniken
wie
Hidden
Markov
Models,
Kalman-Filter
oder
Trajektorien-Glättung
stabilisieren
die
F0-Spur
über
die
Zeit.
Instabilitäten
in
kurzen
Abschnitten
erfordern
robuste
Verfahren
und
ggf.
zusätzliche
Kontextinformationen.
sowie
automatischer
Transkription
und
Tuning-Systemen.
Die
Qualität
der
PitchSchätzung
wird
typischerweise
mit
Metriken
wie
GPE
(Gross
Pitch
Error),
FPE
(Fine
Pitch
Error),
Voicing-Decision-Error
und
dem
Anteil
korrekt
detektierten
F0
gemessen.