Home

indicatorvarianten

Indicatorvarianten verwijzen naar de verschillende manieren om categorische variabelen om te zetten in numerieke indicatoren die gebruikt worden bij statistische modellen. Een indicatorvariabele is doorgaans een binaire variabele die aangeeft of een categorie aanwezig is. Bij indicatorvarianten gaat het om de verschillende coderingen en constructies die mogelijk zijn om dezelfde categorieën te representeren in een dataset.

Veelvoorkomende varianten zijn: eenvoudige indicatoren (0/1 voor een specifieke categorie), dummyvariabelen met referentiecoding (een van de

Toepassingen: indicatorvarianten worden veel gebruikt in lineaire en logistieke regressie, gegeneraliseerde lineaire modellen (GLM), ANOVA en

Praktische overwegingen: kies codering op basis van modelinterpretatie en dataset; let op het aantal kolommen bij

categorieën
wordt
achterwege
gelaten
om
perfectie
van
de
modelmatrix
te
voorkomen),
one-hot
encoding
(voor
alle
categorieën
aparte
binaire
variabelen),
contrastcoding
zoals
effectcoding
of
somcodering
(waarbij
de
codes
vergelijkingen
maken
ten
opzichte
van
een
basiscategorie
of
het
gemiddelde),
en
gecentreerde
indicatoren
(binaire
codes
die
interpretatie
van
coëfficiënten
beïnvloeden).
in
machinaal
leren
als
inputfeatures.
De
keuze
voor
codering
beïnvloedt
interpretatie
van
coëfficiënten
en
kan
multicollineariteit
veroorzaken
wanneer
er
geen
referentiecategorie
wordt
weggehaald.
In
machine
learning
zijn
one-hot
encodings
standaard,
maar
bij
hoge
cardinaliteit
bestaan
alternatieven
zoals
target
encoding
of
leave-one-out
encoding.
hoge
cardinaliteit;
behandel
ontbrekende
waarden;
bij
K-fold
cross-validatie
moet
encoding
consistent
over
folds
blijven.