Home

Regularisierungstärke

Regularisierungstärke bezeichnet in der maschinellen Lernen die Stärke der Regularisierung, die dem Lernziel hinzugefügt wird, um Modellkomplexität und Overfitting zu kontrollieren. In der typischen Optimierung minimiert man eine Verlustfunktion L(y, f(x; w)) plus ein Regularisierungsterm R(w) mit einem Parameter λ, der die Regularisierungskraft bestimmt: Verlust plus λ mal R(w). Der Regularisierungspunkt λ wird oft als Regularisierungstärke bezeichnet. R(w) hängt von den Modellgewichten ab und wird üblicherweise durch Normen wie der L2-Norm (normierte Summe der Quadratgewichte) oder der L1-Norm (Summe der absoluten Gewichte) definiert. In neuronalen Netzen kommt Weight Decay als Form der L2-Regularisierung häufig zum Einsatz.

Die Regularisierungstärke beeinflusst das Gleichgewicht zwischen Passung an die Trainingsdaten und Komplexität des Modells. Größere λ-Werte

Typische Arten und Interpretationen: L2-Regularisierung (R(w) = Summe der Quadratgewichte) sorgt für eine gleichmäßige Schrumpfung der Gewichte;

Praxis: λ wird meist per Kreuzvalidierung oder grid search bestimmt. Die Skallierung der Merkmale beeinflusst die Wirkung

erhöhen
die
Strafe
für
große
Gewichte,
was
zu
glatteren,
einfacheren
Modellen
mit
geringer
Varianz
führt
und
tendenziell
besser
generalisiert.
Zu
großes
λ
kann
jedoch
zu
Unteranpassung
(Underfitting)
führen.
Die
Wirkung
hängt
von
Datenniveau,
Rauschen
und
Merkmalskalierung
ab.
L1-Regularisierung
(R(w)
=
Summe
der
Beträge)
kann
Gewichte
nahezu
auf
Null
setzen
und
damit
Merkmalsselektion
ermöglichen;
Elastic
Net
kombiniert
beide.
Aus
Bayesscher
Sicht
entspricht
L2
einer
Normalprior-Verteilung
auf
die
Gewichte,
L1
einer
Laplace-Verteilung.
der
Regularisierung
erheblich,
weshalb
Feature-Skalierung
empfohlen
wird.
Neben
Regularisierung
werden
auch
Techniken
wie
Early
Stopping
oder
Dropout
eingesetzt,
um
Generalisierung
zu
fördern.