Gradientabstieg
Gradientabstieg, im Deutschen Gradient Descent, ist ein iteratives Optimierungsverfahren zur Minimierung einer differenzierbaren Funktion f. Ziel ist es, Parameter so zu verändern, dass f minimal wird, beispielsweise die Verlustfunktion eines Modells in maschinellem Lernen. Ausgangspunkt ist eine Startlösung θ0. Bei jedem Schritt t wird der Gradient der Funktion an der aktuellen Stelle berechnet und in Richtung des negativen Gradienten bewegt. Die Aktualisierung lautet θ_{t+1} = θ_t − η ∇f(θ_t), wobei η die Lernrate ist.
Es gibt verschiedene Varianten der Gradientenberechnung. Batch-Gradienten verwendet den gesamten Datensatz zur Berechnung des Gradienten, Stochastic
Konvergenz und Herausforderungen. Bei konvexen Funktionen konvergiert Gradientabstieg unter geeigneter Lernrate gegen das globale Minimum; bei
Erweiterungen und Anwendungen. Zu den Erweiterungen gehören Momentum, Nesterov beschleunigter Gradient, Adam und RMSprop, die den