Home

informatiewaarde

Informatiewaarde (IV) is een statistische maatstaf die de voorspellende kracht van een onafhankelijke variabele ten opzichte van een binair uitkomstcriterium meet, vooral in kredietwaardigheidsmodellering. IV geeft aan in welke mate de verdeling van de variabele verschilt tussen de categorieën goed en slecht (of default en non-default). Een hogere IV duidt op meer onderscheidend vermogen tussen de doelgroepen.

Berekening: De variabele wordt in bins of categorieën verdeeld. Voor elk bin i berekenen we Good_i =

Interpretatie: Richtlijnen voor de waarde van IV zijn ruwe heuristieken. IV < 0.02 wordt als weinig informatief

Toepassingen en beperkingen: Informatiewaarde wordt vaak samen met Weight of Evidence-encodering (WOE) gebruikt bij logistieke regressie

proportie
van
goede
observaties
in
bin
i
en
Bad_i
=
proportie
van
slechte
observaties
in
bin
i
(verhoudingen
ten
opzichte
van
het
totaal).
De
Weight
of
Evidence:
WOE_i
=
ln(Good_i
/
Bad_i).
Voor
elk
bin:
IV_i
=
(Good_i
-
Bad_i)
*
WOE_i.
De
totale
informatieve
waarde
IV
=
som
over
alle
bins
van
IV_i.
Bij
nul
tellingen
wordt
smoothing
toegepast
om
deling
door
nul
te
voorkomen.
beschouwd;
0.02–0.10
zwak;
0.10–0.30
matig;
0.30–0.50
sterk;
boven
0.50
kan
wijzen
op
overfitting
of
problemen
met
de
data.
IV
is
een
hulpmiddel
bij
feature
selectie
en
interpretatie,
maar
geen
allesomvattende
maatstaf
voor
modelprestatie.
en
om
de
relatie
tussen
variabele
en
uitkomst
beter
te
begrijpen.
Het
is
gevoelig
voor
hoe
je
bins
kiest
en
voor
de
steekproefgrootte;
kan
misleidend
zijn
bij
scheve
data
en
geeft
geen
informatie
over
interacties
of
nonlineaire
effecten.
Gebruik
in
combinatie
met
andere
evaluatiemaatregelen
en
domeinkennis.