Home

korsvalidering

Korsvalidering, også omtalt som kryssvalidering, er en statistisk metode for å vurdere hvor godt en modell forventes å prestere på ny, ukjent data. Metoden deler dataene i flere undergrupper og bruker deler til trening og testing slik at man får et mer pålitelig estimat av modellens generaliseringsevne enn ved en enkel trenings- og testsplit.

Den vanligste formen er k-fold korsvalidering, hvor datasettet deles inn i k like store fold. Hver fold

Prosedyren innebærer at dataene tilfeldig fordeles i fold, modellen trenes på k−1 fold og evalueres på den

Fordeler ved korsvalidering inkluderer et mer robust estimat av modellens ytelse og reduksjon av avhengigheten mellom

Korsvalidering brukes bredt i maskinlæring, statistikk og dataanalyse for modellvalg, hyperparameterinnstilling og vurdering av generaliseringsevne.

brukes
som
testsett
én
gang
mens
resten
brukes
til
trening,
og
den
endelige
ytelsen
beregnes
som
gjennomsnittet
av
de
k
testene.
En
spesialvariant
er
leave-one-out
korsvalidering
(LOOCV),
hvor
k
er
lik
antall
observasjoner.
For
klassifikasjonsproblemer
brukes
ofte
stratifisert
korsvalidering
for
å
bevare
den
innbakte
fordelingen
av
klasser
i
hvert
fold.
gjenværende
folden.
Prosessen
gjentas
til
hver
fold
har
vært
testsett.
For
tidsserier
og
andre
avhengige
data
må
man
imidlertid
bruke
tidsmessig
riktig
validering,
som
framover-løpende
eller
rolling-origin
korsvalidering,
for
å
unngå
lekkasje
av
fremtidig
informasjon.
utvärdering
og
treningssettet
sammenlignet
med
en
enkel
delt
data.
Begrensninger
inkluderer
høyere
beregningskostnader,
og
potensielle
problemer
med
informasjonslekkasje
i
ikke-iid-sammenhenger
eller
ved
små
datasett;
også
kan
variansen
i
ytelsen
være
høy
i
enkelte
konfigurasjoner.