Home

Verstärkungslernen

Verstärkungslernen ist ein Teilgebiet der künstlichen Intelligenz, das darauf abzielt, dass ein Agent durch Interaktion mit einer Umgebung aus Erfahrungen lernt, Handlungen so zu wählen, dass die kumulative Belohnung maximiert wird. Zentrale Begriffe sind Zustand, Aktion, Belohnung, Politik, Wertfunktion und Umgebung. In jedem Schritt wählt der Agent eine Aktion gemäß einer Politik, erhält eine Belohnung und gelangt in einen neuen Zustand.

Formal lässt sich das Problem als Markov-Entscheidungsprozess (MDP) modellieren. Zustandsmenge S, Aktionsmenge A, Politik π(a|s), Belohnungsfunktion

Zu den gängigen Methoden gehören tabellarische Ansätze wie Q-Learning und SARSA; fortgeschrittene, modellfreie Ansätze verwenden Funktionsapproximationen.

Anwendungsgebiete reichen von Robotik und autonomen Systemen über Spielprogramme bis zu Optimierungs- und Empfehlungssystemen. Typische Herausforderungen

r(s,a)
und
Transitionswahrscheinlichkeit
p(s'|s,a).
Ziel
ist
es,
die
Politik
so
zu
wählen,
dass
der
erwartete
diskontierte
Return
G_t
=
∑_{k=0}^∞
γ^k
r_{t+k+1}
maximiert
wird,
mit
γ
∈
[0,1).
Lernen
erfordert
Exploration,
um
neue
Strategien
zu
entdecken,
sowie
Ausnutzung
bekannter
guter
Aktionen.
Deep
Reinforcement
Learning
nutzt
neuronale
Netze,
etwa
in
Deep
Q-Networks
(DQN)
oder
Politikgradienten-Algorithmen
wie
Actor-Critic,
PPO
oder
A3C.
Modellbasierte
Ansätze
verwenden
ein
internes
Modell
der
Umgebung,
um
Planungen
durchzuführen.
sind
geringe
Daten-
bzw.
Sample-Effizienz,
komplexe
Exploration
in
hochdimensionale
Räume,
späte
Belohnungen,
Stabilität
des
Lernprozesses,
Sicherheit
und
Interpretierbarkeit.
Die
Geschichte
des
Verstärkungslernens
reicht
von
den
Grundlagen
in
den
1980er
Jahren
bis
zu
modernen
Tieflern-Ansätzen
in
den
2010er
Jahren,
maßgeblich
geprägt
durch
Forscher
wie
Sutton,
Barto
und
Tesauro.