Home

crossvalidatie

Crossvalidatie is een statistische methode om de generaliseerbaarheid van een model te beoordelen door de beschikbare data meerdere keren te splitsen in trainings- en testdelen. Het doel is een betrouwbaardere schatting te geven van prestaties op onbekende data dan bij een enkele train-test split.

Werkwijze: De data worden in k gelijke delen (folds) verdeeld. Voor elke iteratie wordt het model getraind

Varianten: De meest gebruikte variant is k-fold crossvalidatie, vaak met k=5 of k=10. Leave-One-Out (LOO) gebruikt

Toepassingen en evaluatie: Crossvalidatie wordt gebruikt om de generalisatiefout te schatten, hyperparameters te tunen en modellen

Voordelen en valkuilen: Voordelen zijn efficiënter gebruik van data en een betrouwbaardere inschatting van prestaties. Nadelen

op
k-1
folds
en
getest
op
de
resterende
fold.
De
prestatiemaatstaf
wordt
over
alle
k
iteraties
gemiddeld.
Hierdoor
maakt
men
optimaal
gebruik
van
alle
beschikbare
data
voor
zowel
training
als
evaluatie.
n
folds,
waarbij
telkens
één
datapunt
als
test
dient.
Stratified
k-fold
behoudt
de
klasseverdeling
in
elke
fold,
wat
nuttig
is
bij
ongebalanceerde
data.
Voor
tijdreeksen
bestaan
aangepaste
vormen
zoals
forward
chaining
of
rolling-origin
crossvalidatie.
Bij
groepen
kan
grouped
cross-validation
nodig
zijn
om
afhankelijkheden
te
respecteren.
te
vergelijken.
Voor
classificatie
kunnen
metrics
zoals
nauwkeurigheid
of
ROC-AUC
worden
gebruikt;
voor
regressie
RMSE
of
MAE.
Soms
wordt
nested
crossvalidatie
toegepast
om
tuning
en
modelselectie
onafhankelijk
te
houden
van
de
prestatie-evaluatie.
zijn
hogere
rekentijd
en
gevoeligheid
voor
niet-iid
data
of
tijdreeksstructuren.
Let
op
mogelijke
data
leakage
bij
preprocessing
en
feature
engineering
tijdens
de
splitsing.