Home

modeludvælgelse

Modeludvælgelse er processen hvor man vælger blandt konkurrerende statistiske modeller baseret på data og målsætningen for analysen. Hovedformålet er at balancere tilpasning til data og modellens kompleksitet for at opnå god generalisering og, når muligt, bevare fortolkelighed.

Tilgangen til modeludvælgelse kan deles i informationbaserede og skinnende baserede metoder. Information kriterier som AIC og

Bayesiansk modeludvælgelse bruger sandsynligheder for modeller (f.eks. Bayesfaktorer eller posteriore model-sandsynligheder) og afhænger af fordelingene, der

Praksis omfatter klare mål, dataopdeling for at undgå lækage, rapportering af usikkerhed og vurdering af modelusikkerhed.

BIC
vurderer
modellens
tilpasning
samtidigt
med
dens
kompleksitet.
AIC
betegnes
som
-2
log-sandsynlighed
plus
2k,
hvor
k
er
antallet
af
parametre;
BIC
inkluderer
også
log(n)
gange
k.
Modellevaluering
kan
også
baseres
på
kryds-validation,
hvor
data
opdeles
i
trænings-
og
testsæt
for
at
estimere
modellens
forudsigelsesfejl
på
usete
data;
ofte
anvendes
K-fold
eller
leave-one-out
varianter.
vælges.
Reguleringsteknikker
som
Lasso
eller
Ridge
reducerer
eller
fjerner
parametre
gennem
penaltyter,
hvilket
indirekte
udfører
variabel-udvælgelse.
Traditionelle
trinvis
udvælgelse
(fremad,
bagud)
findes
også,
men
kritiseres
for
ustabilitet
og
multiple
sammenligninger.
Vær
opmærksom
på
biases
fra
udvælgelsen
og
ikke
mindst
på
at
overbetone
en
enkelt
kriterie;
ofte
anbefales
en
kombination
af
tilgange
og
sensitivitetstests
for
at
sikre
robuste
konklusioner.