Home

Dataforøgelse

Dataforøgelse er en teknik inden for maskinlæring, der går ud på at øge mængden og mangfoldigheden af træningsdata uden at indsamle nye data. Formålet er at forbedre modellens generalisering, reducere overfitting og udnytte små datasæt bedre. Dataforøgelse anvendes bredt i områder som computer vision, natural language processing og lydbehandling.

Der findes tre overordnede tilgange: transformation og ændringer af eksisterende data, syntetisk genererede data og metoder

Fordelene inkluderer større data-diversitet, mere robuste modeller og bedre præstation i situationer med begrænsede eller skæve

Dataforøgelse bør anvendes sammen med tydelige evalueringsmetoder og kendskab til domænet for at sikre, at forbedringerne

der
ændrer
fordelingen
af
data.
Ved
billeddata
omfatter
almindelige
forøgere
rotation,
spejling,
beskæring,
farvejustering
og
tilfældig
støj.
Ved
tekstdata
anvendes
synonymudskiftning,
tilfældig
indsættelse
af
små
ændringer,
back-translation
og
parafrasering.
Ved
lyddata
bruges
støj,
ændret
hastighed
eller
tonehøjde
samt
tidsforlængelse.
Desuden
bruges
syntetisk
data
genereret
af
modeller
som
GAN’er
eller
VAEs,
og
teknikker
som
mixup
eller
CutMix,
der
kombinerer
datapunkter.
datasæt.
Ulemperne
omfatter
risiko
for
at
skabe
unrealistiske
eller
misvisende
prøver,
utilsigtet
at
forstærke
eksisterende
bias
og
øgede
beregningsomkostninger.
Desuden
kræver
teknikkerne
omhyggelig
evaluering
for
at
undgå
data-leckage
og
artefakter,
der
ikke
afspejler
virkelige
forhold.
skyldes
bedre
generalisering
og
ikke
kunstige
mønstre.