Home

Datenaugmentation

Datenaugmentation bezeichnet in der Praxis des maschinellen Lernens den Prozess, durch Transformationen oder Generierung neuer Beispiele aus vorhandenen Daten zusätzliche Trainingsdaten zu schaffen. Ziel ist eine bessere Generalisierung von Modellen, besonders wenn der ursprüngliche Datensatz klein, unausgeglichen oder schwer zu beschaffen ist. Datenaugmentation kommt in überwachten, unüberwachten oder semiüberwachten Lernsettings zum Einsatz.

Typische Verfahren hängen vom Datentyp ab. Bei Bilddaten umfassen sie geometrische Transformationen wie Rotation, Spiegeln, Zuschneiden

Fortgeschrittene Ansätze nutzen modellbasierte Generierung, um plausible synthetische Daten zu erzeugen, die die Verteilung der echten

Anwendungsfelder reichen von Computer Vision und Spracherkennung über Medizin, Zeitreihenanalyse bis hin zu Sensorik. Durch Datenaugmentation

oder
Skalieren
sowie
Farbveränderungen
(Helligkeit,
Kontrast,
Sättigung)
und
das
Hinzufügen
von
Rauschen.
Bei
Textdaten
kommen
Synonymersetzungen,
zufälliges
Einfügen
oder
Entfernen
von
Wörtern,
Back-Translation
oder
Übersetzungen
zum
Einsatz.
Bei
Audiodaten
gehören
Rausch-
und
Tempoänderungen,
Pitch-Shifts
oder
Zeitverschiebungen
dazu.
Bei
tabellarischen
Daten
können
leichte
Zufallsabweichungen,
Resampling
oder
fortgeschrittene
Generierungsmethoden
wie
SMOTE,
GANs,
VAEs
oder
Diffusionsmodelle
verwendet
werden.
Daten
widerspiegeln.
Online-
oder
On-the-fly-Augmentierung
erfolgt
während
des
Lernens,
was
Speicher-
und
Rechenressourcen
spart.
Risiken
sind
unrealistische
Transformationen,
die
das
Modell
zu
falschen
Mustern
führen,
sowie
Datenschutz-
oder
Vertraulichkeitsprobleme,
wenn
sensible
Informationen
wiederhergestellt
werden
könnten.
lassen
sich
Klassenausgleiche
verbessern,
Robustheit
erhöhen
und
der
Bedarf
an
teuren
Datensätzen
verringert
werden.