Verstärkungslern

Verstärkungslernen (RL) ist ein Teilgebiet des maschinellen Lernens, das das Lernen optimaler Verhaltensweisen durch direkte Interaktion mit einer Umgebung untersucht. Ein Agent wählt in jedem Schritt eine Aktion, beeinflusst dadurch die Umwelt, erhält eine Belohnung und wechselt in einen neuen Zustand. Ziel ist die Maximierung der kumulierten Belohnung, oft unter Einbeziehung eines Discount-Faktors.

Kernkonzepte: Der Lernprozess wird als Markov-Entscheidungsprozess (MDP) modelliert. Zentrale Elemente sind Policy (Strategie), Wertefunktionen (V(s), Q(s,a))

Wichtige Algorithmen: modellfrei, wertbasierte Ansätze wie Q-Learning und Deep Q-Networks (DQN); politikbasierte und hybride Methoden wie

Herausforderungen und Anwendungen: Zentrale Schwierigkeiten sind Exploration vs. Exploitation, Sample-Effizienz, Stabilität des Lernprozesses, teilweise Beobachtbarkeit und

Geschichte und Perspektiven: Erste Ansätze stammen aus Q-Learning und TD-Lernen der 1980er/1990er Jahre. Der Durchbruch mit

approximationen.

Actor-Critic-Varianten

Belohnungsdesign.

Ressourcenmanagement;

Realwelt-Deployment.