Modellparallellisering
Modellparallellisering är en teknik inom maskininlärning där ett neuralt nätverk delas upp och körs över flera beräkningsenheter, till exempel GPU:er eller TPU-kärnor, för att möjliggöra träning och inferens av mycket stora modeller som inte får plats i en enhets minne. Syftet är att distribuera både lagrade parametrar och beräkningar över flera enheter samtidigt, i stället för att låta varje enhet använda en fullständig kopia av modellen.
Vanliga angreppssätt inkluderar tensorparallellisering, pipelineparallellisering och experteparallellisering. Vid tensorparallellisering delas viktmatriserna eller andra tensors över flera
Modellparallellisering används ofta i kombination med andra parallelliseringsformer, såsom data-parallellisering, för att optimera både minnesutnyttjande och
Användningsexempel inkluderar träning av mycket stora språkmodeller och multimodala modeller som överskrider begränsningarna för en enda