Diffusionsmodelle
Diffusionsmodelle sind eine Familie generativer Modelle, die darauf abzielen, aus Rauschen schrittweise realistische Daten zu erzeugen. Ausgangspunkt ist ein Vorwärtsprozess, bei dem eine echte Datenverteilung (z. B. Bilder) systematisch mit Rauschen überlagert wird. Im Rückwärtsprozess wird mithilfe eines trainierten Modells das Rauschen in mehreren Schritten reduziert, bis wieder saubere Datenproben entstehen. In der Praxis wird oft ein neuronales Netz trainiert, das in jedem Schritt eine verrauschte Eingabe in eine weniger verrauschte Version überführt. Die Wahl der Noise-Schedule, also wie stark in den Schritten Rauschen eingeführt oder entfernt wird, beeinflusst Qualität und Stabilität der Generierung.
Trainingsziel ist typischerweise, den während des Vorwärtsprozesses eingefügten Noise vorherzusagen oder den ursprünglichen Datenpunkt aus dem
Anwendungen finden sich vor allem in der Bildgenerierung, Text-zu-Bild-Systemen, Videogenerierung, Audio und der Modellierung von 3D-Inhalten.
Bewertung erfolgt typischerweise mit Metriken wie dem Fréchet-Inception-Distance (FID) oder anderen perceptualen Maßen; daneben spielen Datenqualität,