Tugevdusõppimise
Tugevdusõppimine, tuntud ka kui reinforcement learning (RL), on masinõppe paradigma, kus agent õpib tegema otsuseid, interakteerudes oma keskkonnaga. Agent saab positiivset tagasisidet (preemiat) õigete tegevuste eest ja negatiivset tagasisidet (karistust) valede eest. Eesmärk on maksimeerida kumulatiivset preemiat pika aja jooksul.
Protsess algab sellega, et agent viibib teatud olekus. Seejärel valib agent tegevuse, mis mõjutab keskkonda ja
Tugevdusõppimise põhikontseptsioonid hõlmavad olekuid, tegevusi, preemiaid, poliitikat ja väärtusfunktsioone. Poliitika määrab, millist tegevust agent antud olekus
Rakendusalade hulka kuuluvad robotite juhtimine, mängude mängimine (nt male, Go, videomängud), autonoomne juhtimine, soovituslikud süsteemid ja