Optimizing Multi-GPU Parallelization Strategies for Deep Learning Training

Pal, Saptadeep; Ebrahimi, Eiman; Zulfiqar, Arslan; Fu, Yaosheng; Zhang, Victor; Migacz, Szymon; Nellans, David; Gupta, Puneet

doi:10.1109/mm.2019.2935967

Cited by 57 publications

(19 citation statements)

References 19 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Distributed computing is mainly achieved through parallel processing strategies, and this type of processing method is mainly divided into two implementation methods: data parallelization method [20] and model parallelization training method [21]. e model parallel training process distributes the model parameters to different computing participants, and then each participant updates its assigned parameters.…”

Section: Data Privacy and Distributed Training Methodsmentioning

confidence: 99%

A Clonal Selection Optimization System for Multiparty Secure Computing

et al. 2021

View full text Add to dashboard Cite

The innovation of the deep learning modeling scheme plays an important role in promoting the research of complex problems handled with artificial intelligence in smart cities and the development of the next generation of information technology. With the widespread use of smart interactive devices and systems, the exponential growth of data volume and the complex modeling requirements increase the difficulty of deep learning modeling, and the classical centralized deep learning modeling scheme has encountered bottlenecks in the improvement of model performance and the diversification of smart application scenarios. The parallel processing system in deep learning links the virtual information space with the physical world, although the distributed deep learning research has become a crucial concern with its unique advantages in training efficiency, and improving the availability of trained models and preventing privacy disclosure are still the main challenges faced by related research. To address these above issues in distributed deep learning, this research developed a clonal selective optimization system based on the federated learning framework for the model training process involving large-scale data. This system adopts the heuristic clonal selective strategy in local model optimization and optimizes the effect of federated training. First of all, this process enhances the adaptability and robustness of the federated learning scheme and improves the modeling performance and training efficiency. Furthermore, this research attempts to improve the privacy security defense capability of the federated learning scheme for big data through differential privacy preprocessing. The simulation results show that the proposed clonal selection optimization system based on federated learning has significant optimization ability on model basic performance, stability, and privacy.

show abstract

Section: Data Privacy and Distributed Training Methodsmentioning

confidence: 99%

A Clonal Selection Optimization System for Multiparty Secure Computing

et al. 2021

View full text Add to dashboard Cite

show abstract

“…У роботі [37] було досліджено метод гібридного паралелізму, що є більш ефективним засобом зменшення загальної тривалості процедури навчання нейронної мережі порівняно з послідовним надходженням даних чи обробленням їх у моделі системи. Водночас, у роботі [29] було запроваджено гібридний підхід до навчання згорткових нейронних мереж, який поєднує паралельне надходження даних у обчислювальні частини моделі (згорткові шари) разом із паралельним обробленням даних у моделі для шарів з великою кількістю параметрів (повністю зв'язані шари).…”

Section: вступunclassified

“…Через це приховані шари нейронної мережі погано навчаються. Проте, деякі науковці [34,37] замість сигмоїдальної активаційної функції вузла мережі в багатьох нейронних мережах пропонують використовувати різні види нелінійності ReLU (англ. Rectified Linear Unit), функція активації якої має вигляд max(0, x).…”

Section: навчання нейронної мережі на графічному процесоріunclassified

Прогнозування Попиту На Пасажирські Перевезення Таксі Методами Нейронної Мережі

Zghoba¹,

Грицюк²

2021

SBUNFU

View full text Add to dashboard Cite

Розглянуто особливості прогнозування попиту на пасажирські перевезення таксі методами нейронної мережі за різних наборів вхідних даних, складу параметрів архітектури мережі, конфігурації апаратного забезпечення та його потужності. З'ясовано, що для зменшення тривалості очікування нових замовлень та відстані до клієнтів доцільно використовувати відповідні інформаційно-аналітичні системи, робота яких ґрунтується на штучному інтелекті. Це дасть змогу вирішити проблему попиту на перевезення таксі у відповідний період доби з врахуванням погодних умов, святкових, вихідних і робочих днів, а також пори року. Врахування ж наявних транспортних об'єктів – авіарейсів, потягів чи автобусів значно покращують роботу такої дорадчої системи. Використана в роботі гібридна архітектура нейро-фаззі мережі дає змогу одночасно вирішувати завдання короткотермінового прогнозування попиту на пасажирські перевезення таксі, а також проводити діагностику самої мережі, що полягає у виявленні різких змін властивостей обчислювального процесу. Для досягнення відповідної точності прогнозу в роботі опрацьовано набори вхідних даних у кількості 4,5 млн поїздок таксі. Для зменшення тривалості процедури навчання нейронної мережі організовано паралельні обчислення між різними вузлами мережі за допомогою графічних процесорів. Проведено навчання нейронної мережі на центральному процесорі, одному та двох графічних процесорах відповідно. З'ясовано, що організація паралельних обчислень на декількох графічних процесорах не завжди зменшує тривалість процедури навчання мережі, оскільки витрати на синхронізацію градієнтів між активними процесами значно перевищують користь від паралельних розрахунків. Встановлено, що за умови великого обсягу даних для організації паралельних обчислень та відповідної архітектури нейронної мережі можна досягти деякого зменшення тривалості процедури її навчання. Визначено, що зменшення тривалості процедури навчання нейронної мережі залежить від таких чинників: її архітектури, кількості параметрів навчання, конфігурації апаратного забезпечення та організації паралельних розрахунків.

show abstract

“…The input data are sent to all devices without partition; each device is responsible for tuning a different part of the model parameters. Model parallelism is typically used for models with a large parameter size [26,34,45]. Pipeline Parallelism.…”

Section: Dnn Training and Parallelismmentioning

confidence: 99%

“…Stanza [45] separates CONV layers and fully-connected layers into different workers to reduce communication overhead; it only optimizes these two types of layers. DLPlacer [34] studies hybrid data and model parallelism, but its device placement is based on a subgraph of the model rather than the entire graph. Fine-grained parallelism within operations.…”

Section: Related Workmentioning

confidence: 99%