2019
DOI: 10.1109/mm.2019.2935967
|View full text |Cite
|
Sign up to set email alerts
|

Optimizing Multi-GPU Parallelization Strategies for Deep Learning Training

Abstract: Deploying deep learning (DL) models across multiple compute devices to train large and complex models continues to grow in importance because of the demand for faster and more frequent training. Data parallelism (DP) is the most widely used parallelization strategy, but as the number of devices in data parallel training grows, so does the communication overhead between devices. Additionally, a larger aggregate batch size per step leads to statistical efficiency loss, i.e., a larger number of epochs are require… Show more

Help me understand this report
View preprint versions

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1
1

Citation Types

0
17
0
2

Year Published

2020
2020
2024
2024

Publication Types

Select...
5
2
1

Relationship

0
8

Authors

Journals

citations
Cited by 57 publications
(19 citation statements)
references
References 19 publications
0
17
0
2
Order By: Relevance
“…Distributed computing is mainly achieved through parallel processing strategies, and this type of processing method is mainly divided into two implementation methods: data parallelization method [20] and model parallelization training method [21]. e model parallel training process distributes the model parameters to different computing participants, and then each participant updates its assigned parameters.…”
Section: Data Privacy and Distributed Training Methodsmentioning
confidence: 99%
“…Distributed computing is mainly achieved through parallel processing strategies, and this type of processing method is mainly divided into two implementation methods: data parallelization method [20] and model parallelization training method [21]. e model parallel training process distributes the model parameters to different computing participants, and then each participant updates its assigned parameters.…”
Section: Data Privacy and Distributed Training Methodsmentioning
confidence: 99%
“…У роботі [37] було досліджено метод гібридного паралелізму, що є більш ефективним засобом зменшення загальної тривалості процедури навчання нейронної мережі порівняно з послідовним надходженням даних чи обробленням їх у моделі системи. Водночас, у роботі [29] було запроваджено гібридний підхід до навчання згорткових нейронних мереж, який поєднує паралельне надходження даних у обчислювальні частини моделі (згорткові шари) разом із паралельним обробленням даних у моделі для шарів з великою кількістю параметрів (повністю зв'язані шари).…”
Section: вступunclassified
“…Через це приховані шари нейронної мережі погано навчаються. Проте, деякі науковці [34,37] замість сигмоїдальної активаційної функції вузла мережі в багатьох нейронних мережах пропонують використовувати різні види нелінійності ReLU (англ. Rectified Linear Unit), функція активації якої має вигляд max(0, x).…”
Section: навчання нейронної мережі на графічному процесоріunclassified
“…The input data are sent to all devices without partition; each device is responsible for tuning a different part of the model parameters. Model parallelism is typically used for models with a large parameter size [26,34,45]. Pipeline Parallelism.…”
Section: Dnn Training and Parallelismmentioning
confidence: 99%
“…Stanza [45] separates CONV layers and fully-connected layers into different workers to reduce communication overhead; it only optimizes these two types of layers. DLPlacer [34] studies hybrid data and model parallelism, but its device placement is based on a subgraph of the model rather than the entire graph. Fine-grained parallelism within operations.…”
Section: Related Workmentioning
confidence: 99%