MelSpektrogramme
MelSpektrogramme sind zeit‑frequenz-Darstellungen von Audiosignalen, bei denen lineare Frequenzbänder auf die Mel-Skala abgebildet werden. Sie entstehen, indem man zunächst eine kurze Fourier-Transformierte (STFT) berechnet, anschließend ein Mel-Filtersystem mit triangularen Filtern anwendet, um die Energie in eine festgelegte Anzahl von Mel-Bändern zu bündeln. Das Ergebnis ist eine zweidimensionale Matrix mit Zeit und Mel-Bändern, häufig als Betrag oder Leistung und oft in logarithmischer Form (Log-Mel oder dB-Mel) dargestellt.
Typische Parameter sind Abtastrate, Window- bzw. Frame-Länge, Hop-Size, Anzahl der Mel-Bänder und der Frequenzbereich. Der Mel-Filter-Bank
Anwendungsgebiete umfassen Spracherkennung, Sprecheridentifikation, Musik-Informationsbeschaffung und allgemeine Audiorecherche. In der Praxis dienen Mel-Spektrogramme als vielseitige Eingabe-Features
Beziehung zu anderen Merkmalen: MFCCs entstehen durch Anwendung einer diskreten Kosinus-Transformation auf log-Mel-Spektrogramme und reduzieren die
Beschränkungen umfassen Parameterabhängigkeit und Verluste: Die Wahl von Samplingrate, Window-Größe, Mel-Bändern und Frequenzbereich beeinflusst die Darstellung.