Variablenselektion
Variablenselektion bezeichnet in der Statistik den Prozess, aus einem Satz potenziell relevanter Prädiktoren diejenigen auszuwählen, die in einem statistischen Modell verwendet werden sollen. Ziel ist es, ein möglichst einfaches Modell mit guter Vorhersageleistung und Interpretierbarkeit zu erreichen. Die Selektion dient der Reduktion von Overfitting, der Verbesserung der Stabilität des Modells und der Reduktion von Kosten und Messaufwand. Es gibt drei grundlegende Kategorien von Selektionsmethoden: Filter-, Wrapper- und Embedded-Verfahren. Filtermethoden bewerten Merkmale unabhängig vom Modell, zum Beispiel anhand der Korrelation zur Zielgröße oder durch t- oder F-Tests; Merkmale, die bestimmte Kriterien erfüllen, werden vor der Modellschätzung weiterverfolgt. Wrapper-Methoden suchen gezielt nach Untermengen von Merkmalen, indem sie die Modellleistung für verschiedene Subsets messen; Vorwärts-, Rückwärts- und Schrittweises Vorgehen sind typische Strategien, oft rechenintensiv, aber in kleinen Merkmalsräumen leistungsfähig. Embedded-Verfahren integrieren die Selektion in die Schätzung des Modells; Lasso (L1-Regularisierung), Elastic Net und Ridge (L2) sind verbreitete Ansätze, die eine natürliche Sparsamkeit oder Stabilität bei hochdimensionalen Daten fördern. Zur Bewertung werden Informationskriterien wie AIC oder BIC herangezogen oder Kreuzvalidierung verwendet, um Vorhersageleistung zu schätzen. In Hochdimensionalen Situationen (p groß gegenüber n) ist Regularisierung oft bevorzugt, da sie Subset-Selektionsprobleme vereinfacht. Herausforderungen umfassen Instabilität der Selektion bei korrelierten Prädiktoren, potenzielle Verzerrungen durch Selektion und das Risiko von Overfitting ohne geeignete Validierung. Praktische Hinweise betreffen Standardisierung der Merkmale, sinnvolle Behandlung kategorialer Variablen, Umgang mit fehlenden Werten und anschließende Modellvalidierung auf unabhängiger Daten.