vahvistusoppimista
Vahvistusoppiminen tarkoittaa koneoppimisen ala, jossa agentti oppii toimimaan vuorovaikutuksessa ympäristön kanssa pyrkien maksimoimaan kumulatiivisen palkkion. Nimityksen keskeinen idea on oppia politiikka, eli ohjeisto siitä, miten tiloissa tulisi valita toiminnot, jotta pitkän aikavälin palkkio kasvaa.
Ympäristössä on tilat, toiminnot ja palkkiot. Agentti havaitsee tilan, valitsee toiminnon ja saa palkkion sekä siirtyy
Keskeisiä käsitteitä ovat politiikka, arvofunktio ja Q-funktio. Politiikka määrittelee, miten agentti toimii tietyssä tilassa. Arvofunktio tai
Pääalgoritmit ja suuntaukset ovat muun muassa arvoihin perustuvat Q-oppiminen ja SARSA, syvää oppimista hyödyntävät syvät Q-verkot
Sovelluksia ovat robotiikka, pelit, suositusjärjestelmät ja ohjausjärjestelmät. RL:n historia ulottuu dynamiikan ohjelmointiin ja Bellmanin yhtälöihin; keskeisiä