palkkiofunktio
Palkkiofunktio on vahvistusoppimis- ja päätöksentekojärjestelmien keskeinen komponentti, joka muuntaa tilan ja mahdollisesti toiminnon palkkioiksi. Se määrittelee, millaisia palkkioita agentti saa kunkin siirron toteuttamisesta. Palkkio on tavallisesti skalarinen arvo r ∈ R, ja se voi riippua tilasta s sekä toiminnosta a (r(s,a)) tai vain tilasta s (r(s)) riippuen mallin rakenteesta.
Palkkiofunktio toimii ohjaavana signaalina, jonka tavoitteena on maksimoida odotettu tuotto G_t = ∑_{k=0}^∞ γ^k r_{t+k+1}. Tämän seurauksena
Suunnittelussa palkkiofunktiota voidaan käyttää tiukasti (palkkioita vain tietyissä tapahtumissa), tiheästi (usein annettavia palkkioita) tai välimuotoisesti. Haasteita
Esimerkkejä: robottinavigointi, jossa jokaisesta askeleesta seuraa pieni palkkio ja suurempi palkkio maalissa; videopeleissä pisteet, saavutukset tai
Palkkiofunktio on yksi RL:n keskeisistä elementeistä ja erotetaan arvofunktiosta (V^π) sekä toiminnosta riippuvasta Q-funktiosta; palkkio kertoo,