Tugevdamisõppimise
Tugevdamisõppimine, tuntud ka kui reinforce learning, on masinõppe alamvaldkond, mis keskendub sellele, kuidas tarkvaraagent õpib tegema otsuseid keskkonnas, et saavutada maksimaalset kumulatiivset tasu. See erineb juhendatud ja juhendamata õppimisest selle poolest, et õppimisprotsess põhineb katse-eksituse meetodil ja tagasiside mehhanismil, mitte eelnevalt määratletud märgistatud andmetel.
Peamised komponendid tugevdamisõppimises hõlmavad agenti, keskkonda, olekut, tegevust ja tasu. Agent on otsustaja, kes tegutseb keskkonnas.
Tugevdamisõppimise eesmärk on õppida optimaalset poliitikat, mis juhendab agenti, millist tegevust mingis olekus teha, et aja
Tugevdamisõppimise rakendused on laialdased ja hõlmavad robotite juhtimist, mängude mängimist (nt. Go, malel), soovituslike süsteemide optimeerimist,