kenmerkenselectie - Infinite Lexicon - Infinite Lexicon

kenmerkenselectie

Kenmerkenselectie is het proces om een subset van relevante kenmerken uit een grotere verzameling te identificeren, met als doel een voorspellend model dat efficiënter en robuuster presteert. Door irrelevante of redundante variabelen uit te sluiten verlaagt men de dimensionaliteit, beperkt men overfitting en verbetert de interpretatie. Kenmerkenselectie is verwant aan dimensionaliteitsreductie, maar verschilt van feature-extractie zoals PCA, die nieuwe variabelen creëert.

Drie hoofdbenaderingen bestaan: filtermethoden, wrapper-methoden en embedded methoden. Filtermethoden beoordelen kenmerken op basis van statistische associaties

Veelgebruikte technieken zijn: bij filtermethoden mutual information (MI), chi-kwadraat, ANOVA F-test en correlatie; bij wrapper-methoden recursieve

Evaluatie gebeurt meestal met cross-validatie om na te gaan of de selectie de prestaties verbetert en of

Toepassingen van kenmerkenselectie komen voor in bioinformatica, financiën, tekst- en beeldverwerking en sociale wetenschappen, waar hoge

Wrapper-methoden

L1-regularisatie

beslissingsbomen,

afhankelijkheid