tillståndsvärde
Tillståndsvärde är det numeriska värde som tilldelas ett givet tillstånd i ett dynamiskt system eller en modell. Värdet beskriver vanligtvis hur gynnsamt eller kostsamt tillståndet är och kan spegla förväntad framtida nytta, kostnader eller annan merit som används som grund för beslutsfattande och jämförelse mellan olika tillstånd.
I tekniska sammanhang som styrteori och optimering används tillståndsvärdet för att sammanfatta hur bra ett specifikt
Inom förstärkande lärande och Markov-beslutsprocesser definieras vanligtvis en tillståndsvärdefunktion Vπ(i) som den förväntade ackumulerade nyttan när
Värdefunktioner uppskattas genom metoder som dynamisk programmering, Monte Carlo-simuleringar och temporaldifferensinlärning (TD). De används inom planering,