kenmerkenselectie
Kenmerkenselectie is het proces om een subset van relevante kenmerken uit een grotere verzameling te identificeren, met als doel een voorspellend model dat efficiënter en robuuster presteert. Door irrelevante of redundante variabelen uit te sluiten verlaagt men de dimensionaliteit, beperkt men overfitting en verbetert de interpretatie. Kenmerkenselectie is verwant aan dimensionaliteitsreductie, maar verschilt van feature-extractie zoals PCA, die nieuwe variabelen creëert.
Drie hoofdbenaderingen bestaan: filtermethoden, wrapper-methoden en embedded methoden. Filtermethoden beoordelen kenmerken op basis van statistische associaties
Veelgebruikte technieken zijn: bij filtermethoden mutual information (MI), chi-kwadraat, ANOVA F-test en correlatie; bij wrapper-methoden recursieve
Evaluatie gebeurt meestal met cross-validatie om na te gaan of de selectie de prestaties verbetert en of
Toepassingen van kenmerkenselectie komen voor in bioinformatica, financiën, tekst- en beeldverwerking en sociale wetenschappen, waar hoge