Home

dataaugmentatie

Dataaugmentatie, ook wel data-augmentatie genoemd, is een verzameling technieken waarmee uit bestaande trainingsgegevens extra, variëteitvolle voorbeelden worden gegenereerd. Het doel is de diversiteit van de trainingsset te vergroten zonder extra handmatig labelwerk. Door meer variatie in de data aan te bieden, kunnen modellen beter generaliseren naar nieuwe, ongeziene voorbeelden en wordt overfitting verminderd. Dataaugmentatie wordt vooral toegepast in machine learning en deep learning en kan tijdens het trainen of in de data-preprocessing-pijplijn plaatsvinden.

In beeldherkenning en computervisie omvat dataaugmentatie vaak geometrische transformaties zoals spiegeling, rotatie, cropping en schaling, evenals

Het kiezen van geschikte augmentaties vereist zorgvuldige afstemming op de taak en de data, omdat verkeerde

---

fotometrische
aanpassingen
zoals
veranderingen
in
helderheid,
contrast,
saturatie
en
kleurtoon.
Ook
ruis,
blur,
random
erasing
of
methodes
als
mixup
en
cutout
worden
toegepast
om
robuustheid
te
vergroten.
In
natuurlijke
taalverwerking
en
spraak
wordt
augmentatie
vaak
uitgevoerd
via
synoniemvervanging,
random
insertion
of
deletion
van
woorden,
back-translation
en
parafrasering;
bij
audio
kan
men
tijds-
en
toonhoogteversnellingen,
ruis
toevoegen
of
stille
segmenten
gebruiken.
of
overdreven
augmentatie
het
label
kan
verbergen
of
de
data-distributie
kan
vertekenen.
Daarnaast
brengt
augmentatie
rekenkosten
en
opslag
met
zich
mee
en
kan
een
onevenwichtige
toepassing
de
prestaties
negatief
beïnvloeden
als
de
gegenereerde
data
de
echte
data
niet
goed
weerspiegelt.