Markovbeslissingsprocessen
Markovbeslissningsprocessen (MDP) är en matematisk modell för beslutsfattande i situationer där resultatet påverkas av både beslut och slump. Den beskriver en agent som rör sig mellan tillstånd i ett tillståndsrum och väljer åtgärder som styr övergångarna till nästa tillstånd och de erhållna belöningarna. En MDP består av ett tillståndsrum S, ett åtgärdsrum A, en övergångsfunktion P(s'|s,a) som anger sannolikheten att gå från tillståndet s till s' när åtgärden a vidtas, och en belöningsfunktion R(s,a,s') som anger belöningen vid övergången. Modellen antar Markov-egenskapen: framtida utveckling beror endast på nuvarande tillstånd och vald åtgärd, inte på tidigare historia. Ofta används en diskonteringsfaktor γ ∈ [0,1) som viktar framtida belöningar.
En politik π specificerar vilka åtgärder som skall väljas i varje tillstånd: π(a|s) ger sannolikheten att vidta
Metoder för att hitta bra policys inkluderar modellbaserad dynamisk programmering såsom värdeiteration och policyiteration, samt modellfria