palkkiofunktio - Infinite Lexicon - Infinite Lexicon

palkkiofunktio

Palkkiofunktio on vahvistusoppimis- ja päätöksentekojärjestelmien keskeinen komponentti, joka muuntaa tilan ja mahdollisesti toiminnon palkkioiksi. Se määrittelee, millaisia palkkioita agentti saa kunkin siirron toteuttamisesta. Palkkio on tavallisesti skalarinen arvo r ∈ R, ja se voi riippua tilasta s sekä toiminnosta a (r(s,a)) tai vain tilasta s (r(s)) riippuen mallin rakenteesta.

Palkkiofunktio toimii ohjaavana signaalina, jonka tavoitteena on maksimoida odotettu tuotto G_t = ∑_{k=0}^∞ γ^k r_{t+k+1}. Tämän seurauksena

Suunnittelussa palkkiofunktiota voidaan käyttää tiukasti (palkkioita vain tietyissä tapahtumissa), tiheästi (usein annettavia palkkioita) tai välimuotoisesti. Haasteita

Esimerkkejä: robottinavigointi, jossa jokaisesta askeleesta seuraa pieni palkkio ja suurempi palkkio maalissa; videopeleissä pisteet, saavutukset tai

Palkkiofunktio on yksi RL:n keskeisistä elementeistä ja erotetaan arvofunktiosta (V^π) sekä toiminnosta riippuvasta Q-funktiosta; palkkio kertoo,

π,

väärinmäärittäminen,

käyttäytymiseen

lyhytnäköistä

optimoitumista.

potentiaalipohjaista