Home

Lernrate

Die Lernrate, auch learning rate genannt, ist in Optimierungsalgorithmen die Größe der Anpassung der Modellparameter pro Iteration. In gradientenbasierten Verfahren bestimmt sie die Schrittweite in Richtung des negativen Gradienten. Formal lässt sich ein Update zum Beispiel so darstellen: θ_t+1 = θ_t − η · ∇f(θ_t), wobei η die Lernrate ist.

Eine zu hohe Lernrate kann dazu führen, dass der Optimierer das Optimum überspringt oder divergiert, während

Um dieses Gleichgewicht zu steuern, kommen Lernraten-Strategien (Schedules) zum Einsatz. Dazu gehören eine konstante Lernrate, schrittweise

Praxis: Der Startwert der Lernrate ist ein wichtiger Hyperparameter. Typische Bereichswerte liegen je nach Modell und

eine
zu
niedrige
Lernrate
zu
langsamer
Konvergenz
oder
frühem
Stillstand
führen
kann.
Die
Lernrate
beeinflusst
daher
sowohl
die
Geschwindigkeit
als
auch
die
Stabilität
des
Lernprozesses.
Abnahme
(Step
Decay),
exponentielle
Abnahme,
sowie
zyklische
Lernraten
(CLR)
und
Warm
Restarts.
Adaptive
Optimierer
wie
AdaGrad,
RMSprop
und
Adam
passen
die
effektive
Lernrate
pro
Parameter
an,
wodurch
sich
der
Lernprozess
besser
an
unterschiedliche
Skalierungen
der
Parameter
anpassen
kann,
während
der
allgemeine
Lernschritt
durch
einen
globalen
oder
zeitabhängigen
Parameter
beeinflusst
wird.
Aufgabe
zwischen
0,01
und
0,1;
bei
einigen
Architekturen
oder
Optimierern,
wie
Adam,
wird
häufig
0,001
verwendet.
Die
Lernrate
wird
oft
zusammen
mit
anderen
Hyperparametern
wie
der
Batch-Größe
getestet.
Wenn
der
Trainingsverlust
nicht
weiter
sinkt,
kann
eine
Reduktion
der
Lernrate,
ein
Wechsel
des
Schedulers
oder
ein
Re-Start
des
Lernvorgangs
hilfreich
sein.