Home

Veralgemingscapaciteit

Veralgemingscapaciteit is de capaciteit van een model of leerprocedure om wat het van trainingdata heeft geleerd toe te passen op nieuwe, ongeziene data uit dezelfde verdeling. In statistisch leren en machine learning is de veralgemening een cruciale maat voor hoe nuttig een model is in praktijk. De kwaliteit van veralgemening wordt vaak geëvalueerd aan de hand van de generalisatieprestaties op een aparte testset of via cross-validatie, waarbij de testdata de onbekende situatie simuleren.

De theoretische basis is de bias-variance trade-off. Een complex model kan lage bias hebben maar hoge variantie,

Factoren die de veralgemingscapaciteit beïnvloeden zijn onder meer modelcomplexiteit, regularisatie, data-kwaliteit en -verzamelingen, aanwezigheid van covariate

Versterking van veralgemingscapaciteit gebeurt doorgaans door regelmatige regulatie (regularisatie), data-augmentatie, het verkrijgen van meer diverse data,

Kritiek en beperkingen bestaan onder meer in de afhankelijkheid van de veronderstelling van gelijke verdelingen tussen

en
daardoor
slechte
generalisatie;
een
eenvoudiger
model
generaliseert
mogelijk
beter
maar
past
minder
nauwkeurig
aan
de
trainingsdata.
Daarnaast
spelen
factoren
als
de
hoeveelheid
en
representativiteit
van
de
data,
ruis
in
de
metingen
en
de
keuze
van
het
leerproces
een
rol.
Formele
maten
omvatten
de
algemene
fout,
het
verwachtingsmatige
risico
en
concepten
als
VC-dimensie
en
Rademachercomplexiteit
die
de
capaciteit
van
een
hypothesis-klasse
beschrijven.
shifts
of
distributieverschuiving,
en
de
hoeveelheid
trainingsdata.
Ook
evaluatiemethoden
en
het
gebruik
van
representatieve
validatieschema's
dragen
bij
aan
een
betrouwbaardere
inschatting.
modelkeuze
en
vroeg
stoppen,
technieken
voor
robuuste
lossfuncties
en
geschikte
validatiemethoden
zoals
k-fold
cross-validatie.
training
en
testdata.
Bij
distributieshift
of
adversariële
data
kan
de
echte
generalisatie
vele
malen
slechter
zijn
dan
verwacht.
Er
is
voortdurende
discussie
over
hoe
men
veralgemingsvermogen
het
beste
meet
en
voorspelt.