Markovbeslutsprocesser - Infinite Lexicon - Infinite Lexicon

Markovbeslutsprocesser

Markovbeslutsprocesser (MDP) är en teoretisk ram för att modellera beslut i osäkra miljöer där nästa tillstånd beror på nuvarande tillstånd och den valda åtgärden. En MDP består av mängderna av tillstånd S och åtgärder A, övergångsfunktionen P(s'|s,a) som ger sannolikheten att gå till tillståndet s' när åtgärden a utförs i s, samt en belöningsfunktion R(s,a,s') eller R(s,a) som ger omedelbar belöning vid övergången. En diskontveringsfaktor γ mellan 0 och 1 används ofta för att ge större vikt åt närvarande belöningar än framtida.

Målet i en MDP är att hitta en policy π som ger den största förväntade avkastningen över tid.

Lösningar kan vara modellbaserade eller modellfria. Modellbaserade metoder, såsom value iteration och policyiteration, kräver fullständig kunskap

tidsvarierande.

värdefunktion,

=

|

=

s

π.

i

s

a

π

Bellman-ekvationerna

värdefunktioner,

övergångsmodellerna

P

i

operationsforskning

beslutsfattande

Markaov-egenskapen