Home

GradientBoostingModelle

GradientBoostingModelle sind eine Familie von Ensemble-Verfahren im maschinellen Lernen, die mehrere schwache Modelle schrittweise zu einem starken Gesamtsystem kombinieren. Im Kern bauen sie additive Modelle in einer schrittweisen Vorgehensweise, indem sie eine differenzierbare Verlustfunktion optimieren und die Fehler der bisherigen Teilmodelle berücksichtigen. Typischerweise kommen kleine Entscheidungsbäume als schwache Lernmodelle zum Einsatz.

Der Trainingsprozess besteht darin, bei jedem Schritt ein neues Baum-Modell zu lernen, das die Fehler (genauer:

Zu den bekanntesten Implementierungen gehören Gradient Boosting selbst, XGBoost, LightGBM und CatBoost. XGBoost nutzt zusätzlich second-order

Anwendungen liegen vor allem im Bereich tabellarischer, strukturierter Daten, etwa Vorhersage numerischer Werte oder binärer Kategorien.

Typische Hyperparameter betreffen die Anzahl der Bäume, Lernrate, maximale Baumlänge, Subsampling-Rate sowie Regularisierungsterms. Häufig verwendet werden

die
negativen
Gradienten)
der
aktuellen
Loss-Funktion
approximiert.
So
werden
Residualen
der
bisherigen
Vorhersagen
korrigiert.
Durch
das
Hinzufügen
dieses
Baums
reduziert
sich
der
Gesamthebelverlust
schrittweise.
Wichtige
Regularisierungselemente
sind
die
Lernrate
(Shrinkage)
und
die
Begrenzung
der
Baumtiefe;
Subsampling
kann
zusätzlich
die
Varianz
verringern.
Informationen
(Hessian)
und
stärkt
die
Regularisierung;
LightGBM
setzt
auf
histogrammbasierte
Baumerzeugung
und
effiziente
Speicher-Nutzung;
CatBoost
behandelt
kategoriale
Merkmale
robust
ohne
umfangreiche
Vorverarbeitung.
Vorteile
sind
starke
Leistungen
mit
vergleichsweise
geringem
Feature-Engineering-Aufwand;
Nachteile
sind
Anfälligkeit
für
Rauschen,
längere
Trainingszeiten
und
eingeschränkte
Interpretierbarkeit.
Die
Verständlichkeit
lässt
sich
durch
Merkmalsbeiträge
oder
SHAP-Werte
erhöhen.
n_estimators,
learning_rate,
max_depth,
subsample,
colsample_bytree,
min_child_weight,
reg_alpha
und
reg_lambda.
Eine
frühzeitige
Stoppung
auf
Validierungsdaten
ist
üblich,
um
Overfitting
zu
vermeiden.