dataparallellisuuteen
Dataparallellisuus on rinnakkaislaskennan muoto, jossa sama laskentatehtävä suoritetaan useiden datan osien parissa yhtä aikaa. Se mahdollistaa suurten mallien tai suurten datamassojen kouluttamisen tai laskennan hyödyntämällä useita laskentayksiköitä, kuten CPU- tai GPU-klustereita.
Periaate on yksinkertainen: jokaisella laskentayksiköllä on oma kopio mallista ja omat datansuoritusosuutensa. Kukin yksikkö suorittaa laskennan
Dataparallellisuus eroaa malliparallellisuudesta, jossa malli jaetaan useisiin osiin, sekä tehtäväparallellisuudesta, jossa laitteet suorittavat eri tehtäviä. Dataparallellisuus
Vaihtoehdoissa on synkroninen ja asynkroninen dataparallellisuus. Synkronisessa versiossa kaikki laitteet päivittävät parametrit samaan aikaan, mikä minimoi
Haasteita ovat korkea kommunikaatio- ja synkronointipanos, kaistanleveys, ns. stragglers-ilmiö, muistinhallinta ja tasainen datan jako sekä optimaalinen
Käytännön sovelluksia ovat suurten neuroverkkojen kouluttaminen ja kielimallien skaalaaminen GPU-klustereissa. Yleisimmät työkalut ovat PyTorchin DistributedDataParallel, TensorFlowin
Katso myös: parallelismi, data-parallellisuus, malliparallellisuus, tehtäväparallellisuus.