Home

Diffusionsmodelle

Diffusionsmodelle sind eine Familie generativer Modelle, die darauf abzielen, aus Rauschen schrittweise realistische Daten zu erzeugen. Ausgangspunkt ist ein Vorwärtsprozess, bei dem eine echte Datenverteilung (z. B. Bilder) systematisch mit Rauschen überlagert wird. Im Rückwärtsprozess wird mithilfe eines trainierten Modells das Rauschen in mehreren Schritten reduziert, bis wieder saubere Datenproben entstehen. In der Praxis wird oft ein neuronales Netz trainiert, das in jedem Schritt eine verrauschte Eingabe in eine weniger verrauschte Version überführt. Die Wahl der Noise-Schedule, also wie stark in den Schritten Rauschen eingeführt oder entfernt wird, beeinflusst Qualität und Stabilität der Generierung.

Trainingsziel ist typischerweise, den während des Vorwärtsprozesses eingefügten Noise vorherzusagen oder den ursprünglichen Datenpunkt aus dem

Anwendungen finden sich vor allem in der Bildgenerierung, Text-zu-Bild-Systemen, Videogenerierung, Audio und der Modellierung von 3D-Inhalten.

Bewertung erfolgt typischerweise mit Metriken wie dem Fréchet-Inception-Distance (FID) oder anderen perceptualen Maßen; daneben spielen Datenqualität,

verrauschten
Zustand
rekonstruiert
zu
bekommen.
Häufige
Ansätze
behandeln
entweder
die
Rekonstruktion
des
verrauschten
Pixels
oder
das
Vorhersagen
der
zugrundeliegenden
Rauschkomponente.
Von
zentraler
Bedeutung
sind
Varianten
wie
DDPMs,
DDIMs
(schnellere
Abtastung)
und
Score-Based-
bzw.
SDE-Modelle,
die
als
mathematische
Grundlage
Diffusions-
oder
stochastische
Differentialgleichungen
verwenden.
Latente
Diffusionsmodelle
(LDMs)
arbeiten
Daten
in
einem
komprimierten
Latentraum
ab,
wodurch
Rechenaufwand
reduziert
wird.
Diffusionsmodelle
liefern
oft
hohe
Bildqualität,
gute
Vielfalt
und
Stabilität,
benötigen
aber
erhebliche
Rechenressourcen
und
können
langsame
Abtastprozesse
verursachen,
obwohl
Techniken
wie
DDIM-Sampling
oder
latente
Diffusion
eine
Beschleunigung
ermöglichen.
Konditionierung
erfolgt
über
Text-Encoder
oder
andere
Modalitäten
durch
Modulations-
oder
Cross-Attention-Mechanismen,
was
gezielte
Kontrolle
über
Stil,
Inhalt
oder
Klasse
ermöglicht.
Bias
und
Sicherheitsaspekte
eine
Rolle,
da
Modelle
Trainingsdaten
widerspiegeln
können.
Diffusionsmodelle
bleiben
Gegenstand
aktiver
Forschung
zu
Effizienz,
Kontrolle,
Multimodalität
und
vertrauenswürdiger
Nutzung.