Tugevdusõppimist
Tugevdusõppimist, tuntud ka kui reinforcement learning (RL), on masinõppe haru, kus agent õpib käituma keskkonnas, tehes otsuseid, et maksimeerida mingit tulu (reward). Agent ei saa otseselt öelda, mida teha, vaid peab ise katse-eksituse meetodil avastama, millised tegevused toovad soovitud tulemusi. Iga tegevus, mille agent keskkonnas sooritab, toob kaasa uue olukorra (state) ja sellega seotud tulu või karistuse. Agenti eesmärk on õppida poliitikat (policy), mis seostab iga võimalikku olukorda optimaalse tegevusega.
Tugevdusõppimise põhikomponendid on agent, keskkond, olukord (state), tegevus (action) ja tulu (reward). Agent interakteerub keskkonnaga, mis