Home

L2Regularisierung

L2-Regularisierung ist eine Technik in der maschinellen Lernpraxis zur Verhinderung von Überanpassung, indem dem Verlust eine Strafe auf die Größe der Modellgewichte hinzugefügt wird. Sie wird oft als Ridge-Reg­ression bezeichnet und kommt in vielen Lernmodellen zum Einsatz, einschließlich linearer Regression, logistischer Regression und neuronaler Netze.

Mathematisch wird der Verlustfunktion eine L2-Norm-Strafe hinzugefügt. Für ein Modell mit Gewichten w gilt typischerweise J(θ)

Anwendung und Auswirkungen: L2-Regularisierung reduziert die Varianz des Modells, indem sie Overfitting entgegenwirkt, ohne notwendigerweise einzelne

Zusammenhang und Grenzen: L2-Regularisierung lässt sich mit einer Bayes-Theorie verbinden, indem man eine zero-mean Gauß-Verteilung als

=
J_data(θ)
+
(λ/2)
||θ||^2_2,
wobei
||θ||^2_2
=
∑i
θ_i^2
und
λ
≥
0
der
Regularisierungsparameter
ist.
Durch
die
Ableitung
ergibt
sich
zusätzlich
der
Term
λθ,
der
die
Gewichte
während
der
Optimierung
in
Richtung
Null
zieht.
Je
größer
λ,
desto
stärker
wird
die
Gewichtung
bestraft
und
desto
glatter
bzw.
kleiner
werden
die
Gewichte.
Merkmale
zu
eliminieren.
Sie
funktioniert
gut,
wenn
viele
kleine
Effekte
vorhanden
sind,
und
führt
meist
zu
stabileren
Optimierungen.
In
der
Praxis
wird
sie
oft
als
Gewicht-Abkühlung
(weight
decay)
in
Optimierungsalgorithmen
wie
SGD
implementiert.
Bias-Terms
werden
häufig
nicht
oder
weniger
stark
reguliert.
Prior
auf
die
Gewichte
annimmt.
Im
Vergleich
zu
L1-Regularisierung
(Lasso)
führt
L2
typischerweise
zur
Verdrängung
von
Gewichtengrößen,
aber
nicht
zu
sparsamen
Modellen.
Die
Wahl
von
λ
erfolgt
typischerweise
über
Validierung;
zu
großer
λ
schränkt
das
Modell
zu
stark
ein.