Home

Overmodellering

Overmodellering er et fenomen der en statistisk eller maskinlæringsmodell blir for kompleks i forhold til mengden og kvaliteten på dataene som ligger til grunn. Det innebærer ofte et for stort antall variabler eller parametre i forhold til antall observasjoner, eller antakelser som ikke støttes av dataene. Slike modeller har vanligvis god ytelse på treningssettet, men dårlig generalisering til ny data.

Kjennetegn inkluderer høy varians i prediksjoner, lav ytelse på validerings- eller testdata, og følsomhet for små

Konsekvenser av overmodellering kan være unødvendig kostnad og beregningsressurser, redusert tolkbarhet, samt misvisende eller spuriøse beslutningsstøtte.

Mottiltak inkluderer å velge enklere modeller, bruke regularisering (for eksempel L1 eller L2), gjennomføre feature selection

dataendringer.
Årsaker
er
ofte
et
stort
funksjonsrom
i
kombinasjon
med
begrenset
datamengde,
utstrekking
av
modellen
gjennom
unødige
variabler,
datalekasje
mellom
trenings-
og
testsett,
eller
overdrivelse
av
antakelser
som
ikke
kan
bekreftes.
I
verste
fall
fører
det
til
feilaktige
konklusjoner
og
redusert
tillit
til
modellens
prediksjoner.
eller
dimensjonalitetsreduksjon
(som
PCA),
og
legge
vekt
på
streng
kryssvalidering
og
riktig
datasplitting
for
å
unngå
datalekasje.
Anvend
domenekunnskap
for
å
begrense
kompleksiteten
og
forhindre
at
modellen
tilføyer
unødvendige
antakelser.