gradienttimenetelmillä
Gradienttimenetelmillä viittaavat optimoimisessa käytettäviin menetelmiin, joissa ratkaisu etsitään hyödyntämällä funktion gradienttia. Tyypillinen tehtävä on minimi- tai maksimiarvon löytäminen differentiablessa funktiossa f: R^n → R. Toimintaperiaate on yksinkertainen: aloitetaan x0 ja päivitetään seuraavaa kohti suuntaa, jossa f laskee eniten, eli koordinaattigradientin vastakkaiseen suuntaan. Yleisin päivitysmuoto on x_{k+1} = x_k − α_k ∇f(x_k), jossa α_k on askeleen pituus. Päivitykset voivat perustua line search -menetelmään tai kiinteään askeleeseen.
Konseptin perusta on differentioitavuus ja usein Lipschitz-jatkuva gradientti. Jos f on konveksi ja gradientti on Lipschitz
Stokastiset ja mini-batch -menetelmät laajentavat gradienttimenetelmiä suuria datamääriä varten. Näissä päivitystä lasketaan käyttämällä alfraktiota osa- tai
Laajennuksia ovat ei-lineaarit ja nopeuttavat menetelmät: momentum, Nesterovin accelerointi sekä adaptiiviset menetelmät kuten AdaGrad, RMSProp ja
Rajoitetussa optimoinnissa käytetään projisoitua gradienttimenetelmää, jossa päivityksen jälkeen etäisyys rajoitettuun joukkoon palautetaan projekoinnilla. Gradienttimenetelmät ovat keskeisiä