Adamoptimointi
Adam-optimointi (Adam) on stokastisen gradienttien optimointialgoritmi, kehitetty Kingma ja Ba vuonna 2014. Sen tarkoituksena on tarjota nopea, vakaa ja muistitehokas oppimisnopeuden säätö suurten neuroverkkojen koulutuksessa. Algoritmi yhdistää momentin (gradienttien keskiarvon) ja RMSProp-tyyppisen second-momentin (gradienttien neliöiden keskiarvon) ominaisuudet, mikä mahdollistaa adaptatiivisen oppimisnopeuden jokaiselle parametrille.
Toimintaperiaate perustuu seuraaviin päivitysmenetelmiin. Olkoot g_t gradientti parametrin arvosta θ_t t:llä hetkellä t.
m_t = β1 * m_{t-1} + (1 − β1) * g_t
v_t = β2 * v_{t-1} + (1 − β2) * g_t^2
θ_{t+1} = θ_t − α * m̂_t / (sqrt(v̂_t) + ε)
Missä α on oppimisnopeus ja ε on pieni stabilointimarginaali. g_t on gradientti kohteesta, ja m_t, v_t sekä niiden
Hyperparametrit ja käytännön sovellukset. Yleisimmät oletusarvot ovat α ≈ 0.001, β1 ≈ 0.9, β2 ≈ 0.999 ja ε ≈ 1e-8. Adam soveltuu
Variantit ja näkökulmat. AMSGrad on Adamin variantti, joka takaa konvergensioireita parantamalla v_t:n arvojen ei-toivottua laskua. AdaMax
Käytännössä Adam-optimointi on vakiopuoli monissa tutkimus- ja tuotantosovelluksissa, joissa tarvitaan tehokasta ja luotettavaa optimointia suurille, dynaamisille