Markovbeslissingsprocessen

Markovbeslissningsprocessen (MDP) är en matematisk modell för beslutsfattande i situationer där resultatet påverkas av både beslut och slump. Den beskriver en agent som rör sig mellan tillstånd i ett tillståndsrum och väljer åtgärder som styr övergångarna till nästa tillstånd och de erhållna belöningarna. En MDP består av ett tillståndsrum S, ett åtgärdsrum A, en övergångsfunktion P(s'|s,a) som anger sannolikheten att gå från tillståndet s till s' när åtgärden a vidtas, och en belöningsfunktion R(s,a,s') som anger belöningen vid övergången. Modellen antar Markov-egenskapen: framtida utveckling beror endast på nuvarande tillstånd och vald åtgärd, inte på tidigare historia. Ofta används en diskonteringsfaktor γ ∈ [0,1) som viktar framtida belöningar.

En politik π specificerar vilka åtgärder som skall väljas i varje tillstånd: π(a|s) ger sannolikheten att vidta

Metoder för att hitta bra policys inkluderar modellbaserad dynamisk programmering såsom värdeiteration och policyiteration, samt modellfria

a

belöningssumman:

R(s_t,a_t,s_{t+1})

].

Värdefunktionerna

Bellman-ekvationerna

=

[

+

γ

],

=

[

+

γ

].

π*

förstärkningsinlärning

i