ristivalidoinnin
Ristivalidointi, eli cross-validation, on tilastollinen arviointimenetelmä, jossa aineisto jaetaan useisiin osiin ja malli koulutetaan useassa eri etukäteen määritellyssä kokoonpanossa testaten samalla sen yleistettävyyttä uudelle aineistolle. Tavoitteena on minimoida ylioppiminen ja saada luotettava arvio suorituskyvystä.
Yleisin muoto on k-fold ristivalidointi. Aineisto jaetaan tasakokoisiin folds-kokonaisuuksiin, ja kerrallaan mallia koulutetaan käyttäen k-1 foldia
Stratified k-fold varmistaa, että jokaisessa foldissa vasteen tai luokkien jakautuma vastaa koko aineiston jakaumaa. Tämä on
Leave-one-out cross-validation (LOOCV) on erityinen k-fold, jossa k on koko aineiston määrä. Jokainen havainto toimii testinä
Hold-out-ristivalidointi käyttää yksittäistä jaon, kuten 70/30 tai 80/20, jolloin malli koulutetaan yhdellä osalla ja testataan toisella.
Nested cross-validation käyttää ulkoista kiertoa ulkoisena arviona ja sisäistä kiertoa hyperparametrien optimointiin. Tämä vähentää optimoinnin vaikutusta
Käytännössä ristivalidointi auttaa mallien vertailussa, hyperparametrien valinnassa ja pienien datasetien arvioinnissa, mutta se ei korvaa ulkoista