vahvistusoppimista - Infinite Lexicon - Infinite Lexicon

vahvistusoppimista

Vahvistusoppiminen tarkoittaa koneoppimisen ala, jossa agentti oppii toimimaan vuorovaikutuksessa ympäristön kanssa pyrkien maksimoimaan kumulatiivisen palkkion. Nimityksen keskeinen idea on oppia politiikka, eli ohjeisto siitä, miten tiloissa tulisi valita toiminnot, jotta pitkän aikavälin palkkio kasvaa.

Ympäristössä on tilat, toiminnot ja palkkiot. Agentti havaitsee tilan, valitsee toiminnon ja saa palkkion sekä siirtyy

Keskeisiä käsitteitä ovat politiikka, arvofunktio ja Q-funktio. Politiikka määrittelee, miten agentti toimii tietyssä tilassa. Arvofunktio tai

Pääalgoritmit ja suuntaukset ovat muun muassa arvoihin perustuvat Q-oppiminen ja SARSA, syvää oppimista hyödyntävät syvät Q-verkot

Sovelluksia ovat robotiikka, pelit, suositusjärjestelmät ja ohjausjärjestelmät. RL:n historia ulottuu dynamiikan ohjelmointiin ja Bellmanin yhtälöihin; keskeisiä

aikaskaala-parameterin

mallipohjaisesti

ympäristöstä

käytettävissä)

politiikkapohjaiset

Aktorikriittiset

lähestymistapoja.

Mallipohjaisuuden

palkkiorakenteen