Home

besluitbomen

Besluitbomen zijn een model in statistiek en machine learning voor het maken van beslissingen of voorspellingen op basis van kenmerken uit data. Een besluitboom heeft een wortelknooppunt, interne knopen die een test op een kenmerk voorstellen, takken die leiden naar volgende knopen, en bladknopen met de uiteindelijke voorspelling (of klasse).

Bij classificatie voorspelt een blad een klasse; bij regressie een continue waarde. De boom wordt opgebouwd

Belangrijkste bouwmethoden zijn top-down inductietechnieken zoals ID3, C4.5 en CART. CART levert binary splitsingen; C4.5 kan

Voordelen zijn interpretabiliteit en eenvoudige uitleg van beslissingen, evenals relatief snelle training op kleine tot middelgrote

door
een
sequentie
van
splitsingen:
op
elk
niveau
wordt
gekozen
welk
kenmerk
de
beste
splitsing
oplevert
volgens
een
criterium
zoals
informatie-winst,
Gini-impurity
of
variantie-reductie.
Numerieke
kenmerken
kunnen
worden
gesplitst
op
een
waarde;
categorische
kenmerken
worden
gesplitst
op
basis
van
categorieën.
met
meerdere
takken
omgaan;
ID3
werkt
met
informatiegebaseerde
criteria.
Om
overfitting
te
voorkomen
is
pruning
gebruikelijk
en
wordt
vaak
cross-validatie
toegepast.
datasets.
Nadelen
zijn
onder
andere
gevoeligheid
voor
overfitting
op
complexere
data,
instabiliteit
bij
kleine
veranderingen
in
de
trainingsset
en
beperkte
capaciteit
bij
veel
interacties
tussen
kenmerken.
Besluitbomen
worden
vaak
toegepast
als
basismodel
of
als
onderdeel
van
ensemble-methoden
zoals
Random
Forests
en
Gradient
Boosting,
waarbij
meerdere
bomen
worden
gecombineerd
voor
betere
prestaties.