Home

MelSpektrogramme

MelSpektrogramme sind zeit‑frequenz-Darstellungen von Audiosignalen, bei denen lineare Frequenzbänder auf die Mel-Skala abgebildet werden. Sie entstehen, indem man zunächst eine kurze Fourier-Transformierte (STFT) berechnet, anschließend ein Mel-Filtersystem mit triangularen Filtern anwendet, um die Energie in eine festgelegte Anzahl von Mel-Bändern zu bündeln. Das Ergebnis ist eine zweidimensionale Matrix mit Zeit und Mel-Bändern, häufig als Betrag oder Leistung und oft in logarithmischer Form (Log-Mel oder dB-Mel) dargestellt.

Typische Parameter sind Abtastrate, Window- bzw. Frame-Länge, Hop-Size, Anzahl der Mel-Bänder und der Frequenzbereich. Der Mel-Filter-Bank

Anwendungsgebiete umfassen Spracherkennung, Sprecheridentifikation, Musik-Informationsbeschaffung und allgemeine Audiorecherche. In der Praxis dienen Mel-Spektrogramme als vielseitige Eingabe-Features

Beziehung zu anderen Merkmalen: MFCCs entstehen durch Anwendung einer diskreten Kosinus-Transformation auf log-Mel-Spektrogramme und reduzieren die

Beschränkungen umfassen Parameterabhängigkeit und Verluste: Die Wahl von Samplingrate, Window-Größe, Mel-Bändern und Frequenzbereich beeinflusst die Darstellung.

deckt
gewöhnlich
einen
festgelegten
Min-
und
Max-Frequenzbereich
ab
(häufig
bis
zur
Nyquist-Frequenz).
Die
log-
oder
dB-Kompression
entspricht
dem
menschlichen
Lautstärkeempfinden
und
macht
Mel-Spektrogramme
zu
gängigen
Eingaben
für
neuronale
Netze.
für
Convolutional-
oder
Recurrent-Netze.
Sie
werden
von
Bibliotheken
wie
librosa,
torchaudio
oder
scipy
bereitgestellt
und
in
vielen
ML-Pipelines
verwendet.
zeitliche
Information
auf
wenige
Koeffizienten.
Mel-Spektrogramme
behalten
dagegen
die
volle
Zeit-Frequenz-Struktur
bei
und
liefern
mehr
Details,
sind
jedoch
größer.
Das
Rückprojektieren
(Invertieren)
eines
Mel-Spektrogramms
ist
nur
annähernd
möglich,
abhängig
von
der
Filterbank.
Dennoch
gehören
Mel-Spektrogramme
zu
den
Standard-Features
in
der
Audiobewertung
und
-verarbeitung.