Lernrate

Die Lernrate, auch learning rate genannt, ist in Optimierungsalgorithmen die Größe der Anpassung der Modellparameter pro Iteration. In gradientenbasierten Verfahren bestimmt sie die Schrittweite in Richtung des negativen Gradienten. Formal lässt sich ein Update zum Beispiel so darstellen: θ_t+1 = θ_t − η · ∇f(θ_t), wobei η die Lernrate ist.

Eine zu hohe Lernrate kann dazu führen, dass der Optimierer das Optimum überspringt oder divergiert, während

Um dieses Gleichgewicht zu steuern, kommen Lernraten-Strategien (Schedules) zum Einsatz. Dazu gehören eine konstante Lernrate, schrittweise

Praxis: Der Startwert der Lernrate ist ein wichtiger Hyperparameter. Typische Bereichswerte liegen je nach Modell und

Geschwindigkeit

unterschiedliche

zeitabhängigen

Hyperparametern

Trainingsverlust