tugevdamisõppimine
Tugevdamisõppimine, tuntud ka kui reinforceeriv õppimine, on masinõppe valdkond, kus agent õpib tegutsema keskkonnas, et saavutada maksimumi talle antud tasu. Erinevalt juhendatud õppimisest, kus õpitakse märgistatud andmetest, ja juhendamata õppimisest, kus otsitakse andmetest mustreid, tugineb tugevdamisõppimine katse-eksituse meetodile. Agent teeb otsuseid, vaatleb nende tagajärgi ja kohandab oma käitumist tulevikus paremate tulemuste saavutamiseks.
Protsess hõlmab agenti, kes jälgib keskkonna olekut (state), valib tegevuse (action) ja saab selle eest tasu
Tugevdamisõppimist kasutatakse laialdaselt erinevates rakendustes, nagu mängude mängimine (nt AlphaGo), robootika, autonoomne juhtimine, soovituslikud süsteemid ja