Verstärkungslernen
Verstärkungslernen ist ein Teilgebiet der künstlichen Intelligenz, das darauf abzielt, dass ein Agent durch Interaktion mit einer Umgebung aus Erfahrungen lernt, Handlungen so zu wählen, dass die kumulative Belohnung maximiert wird. Zentrale Begriffe sind Zustand, Aktion, Belohnung, Politik, Wertfunktion und Umgebung. In jedem Schritt wählt der Agent eine Aktion gemäß einer Politik, erhält eine Belohnung und gelangt in einen neuen Zustand.
Formal lässt sich das Problem als Markov-Entscheidungsprozess (MDP) modellieren. Zustandsmenge S, Aktionsmenge A, Politik π(a|s), Belohnungsfunktion
Zu den gängigen Methoden gehören tabellarische Ansätze wie Q-Learning und SARSA; fortgeschrittene, modellfreie Ansätze verwenden Funktionsapproximationen.
Anwendungsgebiete reichen von Robotik und autonomen Systemen über Spielprogramme bis zu Optimierungs- und Empfehlungssystemen. Typische Herausforderungen