Adamoptimointi - Infinite Lexicon - Infinite Lexicon

Adamoptimointi

Adam-optimointi (Adam) on stokastisen gradienttien optimointialgoritmi, kehitetty Kingma ja Ba vuonna 2014. Sen tarkoituksena on tarjota nopea, vakaa ja muistitehokas oppimisnopeuden säätö suurten neuroverkkojen koulutuksessa. Algoritmi yhdistää momentin (gradienttien keskiarvon) ja RMSProp-tyyppisen second-momentin (gradienttien neliöiden keskiarvon) ominaisuudet, mikä mahdollistaa adaptatiivisen oppimisnopeuden jokaiselle parametrille.

Toimintaperiaate perustuu seuraaviin päivitysmenetelmiin. Olkoot g_t gradientti parametrin arvosta θ_t t:llä hetkellä t.

m_t = β1 * m_{t-1} + (1 − β1) * g_t

v_t = β2 * v_{t-1} + (1 − β2) * g_t^2

m̂_t = m_t / (1 − β1^t)

v̂_t = v_t / (1 − β2^t)

θ_{t+1} = θ_t − α * m̂_t / (sqrt(v̂_t) + ε)

Missä α on oppimisnopeus ja ε on pieni stabilointimarginaali. g_t on gradientti kohteesta, ja m_t, v_t sekä niiden

Hyperparametrit ja käytännön sovellukset. Yleisimmät oletusarvot ovat α ≈ 0.001, β1 ≈ 0.9, β2 ≈ 0.999 ja ε ≈ 1e-8. Adam soveltuu

Variantit ja näkökulmat. AMSGrad on Adamin variantti, joka takaa konvergensioireita parantamalla v_t:n arvojen ei-toivottua laskua. AdaMax

Käytännössä Adam-optimointi on vakiopuoli monissa tutkimus- ja tuotantosovelluksissa, joissa tarvitaan tehokasta ja luotettavaa optimointia suurille, dynaamisille

monimutkaisille

verkkoarkitektuureille

gradientteille.

yleistyvyyttä;

hienosäätöä.

syväoppimisessa

Intelligent-ympäristöjen