Overmodellering

Overmodellering er et fenomen der en statistisk eller maskinlæringsmodell blir for kompleks i forhold til mengden og kvaliteten på dataene som ligger til grunn. Det innebærer ofte et for stort antall variabler eller parametre i forhold til antall observasjoner, eller antakelser som ikke støttes av dataene. Slike modeller har vanligvis god ytelse på treningssettet, men dårlig generalisering til ny data.

Kjennetegn inkluderer høy varians i prediksjoner, lav ytelse på validerings- eller testdata, og følsomhet for små

Konsekvenser av overmodellering kan være unødvendig kostnad og beregningsressurser, redusert tolkbarhet, samt misvisende eller spuriøse beslutningsstøtte.

Mottiltak inkluderer å velge enklere modeller, bruke regularisering (for eksempel L1 eller L2), gjennomføre feature selection

i

I

dimensjonalitetsreduksjon

kryssvalidering