Home

dataaugmentering

Dataaugmentering is een verzamelnaam voor technieken die de hoeveelheid en variatie van trainingsdata kunstmatig vergroten door bestaande voorbeelden te transformeren of aan te vullen. Het doel is de dataset robuuster te maken voor nieuwe, ongeziene data, zodat modellen beter generaliseren en minder snel overfitten.

Toepassingsgebieden zijn breed. In machine learning wordt dataaugmentering veel toegepast bij beeld- en spraakherkenning, maar ook

Veelgebruikte methoden zijn afhankelijk van het type data. Voor beelddata omvatten ze rota­ties, flips, croppen, schaal-

Implementatie vereist aandacht voor labelintegriteit en realiteitswaarde. Transformaties moeten de betekenis van de input niet veranderen,

bij
natuurlijke
taalverwerking,
time-series
en
medische
beeldvorming.
Door
verschillende
variaties
te
genereren
kan
een
model
beter
omgaan
met
rotaties,
ruis,
belichtingsverschillen
en
andere
realistische
veranderingen
in
de
input.
en
translatie-transformaties,
kleurvariaties
en
ruis
toevoeging.
Voor
tekst
kan
men
synoniemen
gebruiken,
herformuleren
of
back-translation
toepassen.
Voor
tijdreeksen
en
signalen
worden
jitter,
schaalveranderingen,
tijdsverschuivingen
en
window-slicing
toegepast.
Ook
synthetische
data
uit
generatieve
modellen
zoals
GANs
of
diffusie-modellen
en
methoden
als
SMOTE
voor
tabulaire
data
komen
voor.
Online
(tijdens
training)
en
offline
augmentatie
(vooraf
gegenereerde
dataset)
zijn
gebruikelijke
benaderingen.
en
data
leaks
vermijden.
Augmentatie
kan
de
training
robuuster
maken,
maar
misbruik
of
overdreven
variatie
kan
artefacten
introduceren
of
de
distributie
verschuiven
ten
koste
van
prestaties.