Markovbeschikkingen
Markovbeschikkingen zijn beslissingen die binnen een Markov-omgevingssysteem worden genomen, ook wel bekend als Markov beslissingsprocessen (MDP’s). In een MDP bestaat het systeem uit een verzameling van toestanden, een verzameling acties die in elke toestand beschikbaar zijn, een transitiefunctie die de kansverdeling van volgende toestanden gedefinieert na het ondernemen van een actie, en een beloningsfunctie die een numerieke waarde toekent aan elke overgang of toestand. De beslissingsstrategie of policy bepaalt welke actie in elke toestand wordt gekozen, met het doel het accumul·eerde verwachte beloning te maximaliseren of een andere optimaliteit‑criterium te behalen.
Het concept is gebaseerd op het werk van Andrei Markov, die de onderliggende probabilistische regelmatigheden in
Een klassiek voorbeeld is de “slim‑pick‑bonnen” puzzel, waarin het doel is om alle bonnen op een efficiënte