waardefunctie
Een waardefunctie is een wiskundige functie die aan elke toestand of situatie in een besluitvormings- of optimalisatieprobleem een numerieke waarde toekent. De waarde geeft doorgaans de verwachte prestatie, beloning of nut weer die met een bepaalde toestand en beleidskeuze kan worden bereikt, rekening houdend met toekomstige uitkomsten en mogelijk met korting of overgangsprobabiliteiten.
In dynamische programmering en Markov-beslissingsprocessen (MDP) wordt V(s) vaak gedefinieerd als de optimale verwachte return vanaf
In reinforcement learning is V(s) de verwachte gecumuleerde beloning (gedisconteerd) vanaf toestand s onder een bepaald
In economie en besliskunde verwijst de waardefunctie vaak naar de maximale verwachte utility uit een beslissingsprobleem;
Toepassingen bevinden zich onder meer in beleidsoptimalisatie in AI en operationeel onderzoek, in financiële planning en