Markovbeslutsprocesser
Markovbeslutsprocesser (MDP) är en teoretisk ram för att modellera beslut i osäkra miljöer där nästa tillstånd beror på nuvarande tillstånd och den valda åtgärden. En MDP består av mängderna av tillstånd S och åtgärder A, övergångsfunktionen P(s'|s,a) som ger sannolikheten att gå till tillståndet s' när åtgärden a utförs i s, samt en belöningsfunktion R(s,a,s') eller R(s,a) som ger omedelbar belöning vid övergången. En diskontveringsfaktor γ mellan 0 och 1 används ofta för att ge större vikt åt närvarande belöningar än framtida.
Målet i en MDP är att hitta en policy π som ger den största förväntade avkastningen över tid.
Lösningar kan vara modellbaserade eller modellfria. Modellbaserade metoder, såsom value iteration och policyiteration, kräver fullständig kunskap