Tugevdusõppimise - Infinite Lexicon - Infinite Lexicon

Tugevdusõppimise

Tugevdusõppimine, tuntud ka kui reinforcement learning (RL), on masinõppe paradigma, kus agent õpib tegema otsuseid, interakteerudes oma keskkonnaga. Agent saab positiivset tagasisidet (preemiat) õigete tegevuste eest ja negatiivset tagasisidet (karistust) valede eest. Eesmärk on maksimeerida kumulatiivset preemiat pika aja jooksul.

Protsess algab sellega, et agent viibib teatud olekus. Seejärel valib agent tegevuse, mis mõjutab keskkonda ja

Tugevdusõppimise põhikontseptsioonid hõlmavad olekuid, tegevusi, preemiaid, poliitikat ja väärtusfunktsioone. Poliitika määrab, millist tegevust agent antud olekus

Rakendusalade hulka kuuluvad robotite juhtimine, mängude mängimine (nt male, Go, videomängud), autonoomne juhtimine, soovituslikud süsteemid ja

Väärtusfunktsioon

Tugevdusõppimine

maksimeerimisel.