Home

variabelurval

Variabelurval är processen att välja ett begränsat antal av de tillgängliga variablerna som används när man bygger en statistisk eller maskininlärningsbaserad modell. Syftet är att förbättra prognostisk eller förklarande prestanda, öka tolkbarheten, minska överanpassning och minska kostnaderna för datainsamling och modellkomplexitet.

Metoderna inom variabelurval delas ofta in i tre grupper: filtermetoder, wrappermetoder och inbäddade (embedded) metoder. Filtermetoder

Vid höga dimensioner används ofta särskilda tillvägagångssätt som stabilt urval och korsvalidering för att bedöma prestanda

Skillnaden mellan variabelurval och dimensionalitetsreduktion är att variabelurval behåller de ursprungliga variablerna medan reduktion som PCA

bedömer
variablernas
relevans
oberoende
av
vilken
modell
som
byggs,
till
exempel
genom
att
undersöka
korrelation
med
målet
eller
informationsvinst
(mutual
information).
Wrappermetoder
använder
en
given
modell
som
utvärderare
och
söker
bland
variabelhistorierna
baserat
på
modellens
prestanda;
exempel
är
framåtsökning
(forward
selection)
och
bakåtsökning
(backward
elimination),
men
de
kan
vara
beräkningskrävande
och
riskerar
överanpassning
i
små
datamängder.
Inbäddade
metoder
integrerar
urvalet
i
själva
modellträningsprocessen,
till
exempel
Lasso
(L1-regularisering)
som
kan
göra
vissa
koefficienter
noll
och
därmed
utesluta
variabler,
Elastic
Net
samt
vissa
trädbaserade
metoder
där
variabeluppskattning
ingår
i
trädet.
utan
läckage
mellan
urvals-
och
utvärderingssteg.
Det
är
viktigt
att
separera
urval
och
utvärdering
för
att
få
en
opåverkad
uppskattning
av
modellens
prestanda.
skapar
nya
variabla
kombinationer.
Vanliga
tillämpningar
finns
inom
biomedicin
(genuttrycksdata),
ekonomi
och
marknadsanalys.