tugevdusõppemudelid
Tugevdusõppemudelid, tuntud ka kui reinforcement learning models, on masinõppe kategooria, kus agent õpib tegema otsuseid keskkonnas, et maksimeerida kumulatiivset tasu. See õppimisprotsess põhineb katse-eksituse meetodil, kus agent interakteerub keskkonnaga, sooritab tegevusi ja saab nende eest tasu või karistust. Eesmärk on leida optimaalne poliitika, mis juhendab agenti valima tegevusi, mis aja jooksul toovad suurima võimaliku tasu.
Tugevdusõppe mudelid koosnevad tavaliselt agendist, keskkonnast, olekust, tegevusest ja tasust. Agent asub mingis keskkonna olekus. Agent
Populaarsed tugevdamisõppe algoritmide perekond on Q-learning, mis õpib hindama iga olek-tegevuspaari väärtust. Teine oluline lähenemisviis on