深度神经网络动态分层梯度稀疏化及梯度合并优化方法

A Dynamic Layer-Wise Gradient Sparsity and Gradient Merging Optimization Method for Deep Neural Networks

下载PDF

导出

摘要针对数据并行方法加速大规模深度神经网络时易出现的通信开销大、训练耗时长、资源利用率不高的问题,提出了一种深度神经网络动态分层梯度稀疏化及梯度合并优化方法。首先,将梯度稀疏化压缩与流水线并行技术相结合,提出动态分层梯度稀疏优化方法,为每层神经网络匹配一个合适的阈值,通过在后续迭代时动态调整该阈值,实现对每层网络传输梯度的自适应压缩。然后,提出了层梯度合并方法,利用动态规划算法对层梯度合并时的通信开销、稀疏化及层梯度计算时间进行权衡优化,求解出最佳的层梯度合并组合,并将多层小尺度梯度张量合并为一层通信,以降低分层梯度决策时引入的过高通信延迟开销。最后,将求解出的最佳层梯度合并组合应用于具体的训练迭代过程。实验结果表明:与已有方法相比,所提方法可在保证模型训练精度的同时大大降低通信开销,提升模型的训练速度;与未压缩方法相比,训练速度最大可提升1.99倍。 A dynamic layer-wise gradient sparsity and gradient aggregation optimization strategy for deep neural networks is proposed to address the challenges posed by substantial communication overhead,prolonged training duration,and suboptimal resource utilization associated with the acceleration of large-scale deep neural networks through data parallelism.Initially,a dynamic layer-wise gradient sparsity optimization method is proposed by combining gradient sparsity compression with pipeline parallelism.Each neural network layer is assigned an appropriate threshold,which is adjusted dynamically in subsequent iterations to achieve adaptive compression of gradient transmission for each layer.Subsequently,a layer-wise gradient merging method is introduced.Leveraging dynamic programming,this method optimizes communication overhead,sparsity,and layer gradient computation time during layer-wise gradient merging,determining the optimal combination for merging multiple layers of small-scale gradient tensors into a single communication layer.This aims to reduce the high communication latency introduced during layer-wise gradient decision-making.Finally,the determined optimal layer-wise gradient merging combination is applied to the specific training iteration process.Experimental results demonstrate that the proposed method,compared to existing methods,significantly reduces communication overhead and enhances model training speed while ensuring model training accuracy.It achieves a maximum training speed up of 1.99 times compared to the uncompressed method.

作者巨涛康贺廷刘帅火久元 JU Tao;KANG Heting;LIU Shuai;HUO Jiuyuan(School of Electronic and Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China)

机构地区兰州交通大学电子与信息工程学院

出处《西安交通大学学报》 EI CAS CSCD 北大核心 2024年第9期105-116,共12页 Journal of Xi'an Jiaotong University

基金国家自然科学基金资助项目(61862037,62262038) 甘肃省科技计划资助项目(23CXGA0028)。

关键词深度神经网络分布式训练同步数据并行梯度压缩层梯度合并 deep neural network distributed training synchronous data parallelism gradient compression layer gradient merging

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1朱泓睿,元国军,姚成吉,谭光明,王展,户忠哲,张晓扬,安学军.分布式深度学习训练网络综述[J].计算机研究与发展,2021,58(1):98-115. 被引量：16
2王帅,李丹.分布式机器学习系统网络性能优化研究进展[J].计算机学报,2022,45(7):1384-1411. 被引量：10
3巨涛,赵宇阳,刘帅,杨阳,杨文杰.面向图片识别的深度学习模型并行优化方法[J].西安交通大学学报,2023,57(1):141-151. 被引量：3
4朱虎明,李佩,焦李成,杨淑媛,侯彪.深度神经网络并行化研究综述[J].计算机学报,2018,41(8):1861-1881. 被引量：57
5高赫然,吴恒,许源佳,李修和,王焘,张文博.面向深度学习训练的内存交换机制综述[J].软件学报,2023,34(12):5862-5886. 被引量：1
6陈世达,刘强,韩亮.降低分布式训练通信的梯度稀疏压缩方法[J].浙江大学学报（工学版）,2021,55(2):386-394. 被引量：2
7王恩东,闫瑞栋,郭振华,赵雅倩.分布式训练系统及其优化算法综述[J].计算机学报,2024,47(1):1-28. 被引量：5
8吴艳霞,梁楷,刘颖,崔慧敏.深度学习FPGA加速器的进展与趋势[J].计算机学报,2019,42(11):2461-2480. 被引量：61

二级参考文献20

1余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：614
2王龙翔,张兴军,朱国峰,朱跃光,董小社.重复数据删除中的无向图遍历分组预测方法[J].西安交通大学学报,2013,47(10):51-56. 被引量：5
3张长水.机器学习面临的挑战[J].中国科学：信息科学,2013,43(12):1612-1623. 被引量：33
4熊平,朱天清,王晓峰.差分隐私保护及其应用[J].计算机学报,2014,37(1):101-122. 被引量：176
5曾毅,刘成林,谭铁牛.类脑智能研究的回顾与展望[J].计算机学报,2016,39(1):212-222. 被引量：122
6焦李成,赵进,杨淑媛,刘芳,谢雯.稀疏认知学习、计算与识别的研究进展[J].计算机学报,2016,39(4):835-852. 被引量：18
7Eric P. Xing,Qirong Ho,Dai Wei,Pengtao Xie.Strategies and Principles of Distributed Machine Learning on Big Data[J].Engineering,2016,2(2):179-195. 被引量：17
8焦李成,杨淑媛,刘芳,王士刚,冯志玺.神经网络七十年:回顾与展望[J].计算机学报,2016,39(8):1697-1716. 被引量：372
9巨涛,张兴军,陈衡,董小社.面向众核系统的线程分组映射方法[J].西安交通大学学报,2016,50(10):57-63. 被引量：1
10黄铁军,施路平,唐华锦,潘纲,陈云霁,于俊清.多媒体技术研究:2015——类脑计算的研究进展与发展趋势[J].中国图象图形学报,2016,21(11):1411-1424. 被引量：19

共引文献143

1杜忠文,李庚霖,蒋菡,褚江恒,伍俊.基于次级缓存的SDRAM调度策略的研究[J].电子测量技术,2023,46(14):37-42. 被引量：1
2张舰.父亲(外一首)[J].岁月,2000(7):60-60.
3王博维,刘爱莲,杜景琦.基于并行神经网络的水电机组振动状态劣化研究[J].电力科学与工程,2018,34(9):59-66. 被引量：3
4王昆,周骅.基于深度学习的实时识别硬件系统框架设计[J].电子技术应用,2018,44(10):11-14. 被引量：3
5杨剑锋,乔佩蕊,李永梅,王宁.机器学习分类问题及算法研究综述[J].统计与决策,2019,35(6):36-40. 被引量：175
6宋益盛,林志杰.基于迁移学习和数据增强技术的物种识别[J].现代计算机,2019,0(14):57-63. 被引量：5
7张剑飞,王真,崔文升,杜晓昕.基于交叉验证和神经网络融合的医学数据分类[J].齐齐哈尔大学学报（自然科学版）,2019,35(4):1-5. 被引量：4
8陈辰,柴志雷,夏珺.基于Zynq7000 FPGA异构平台的YOLOv2加速器设计与实现[J].计算机科学与探索,2019,13(10):1677-1693. 被引量：20
9李雷孝,刘燕凤,高静.Smith-Waterman算法优化改进与Spark并行化研究[J].内蒙古农业大学学报（自然科学版）,2019,40(5):76-85. 被引量：2
10訾晶,张旭欣,金婕.基于FPGA动态重构的快速车牌识别系统[J].传感器与微系统,2019,38(12):69-72. 被引量：3

1王惠洁,余秋锋,高松城,黄智勇,叶秀云.两种精子优化处理方法对体外受精-胚胎移植结局的影响[J].中国医药指南,2022,20(35):69-71. 被引量：1
2赵耀鹏,徐九韵,脱颖超.基于深度强化学习的能源高效VNF放置和链接方法[J].计算机系统应用,2024,33(7):230-238.
3黄晓舸,吴雨航,尹宏博,梁承超,陈前斌.车联网中基于有向无环图区块链的个性化联邦互蒸馏学习方法[J].电子与信息学报,2024,46(7):2821-2830.
4姜千睿,焦臣道.动态分层教学法在高校羽毛球课中的探索研究[J].运动精品,2024,43(6):4-7.
5高新勤,杨学琦,郑海洋.基于多源域迁移学习的带式输送机剩余寿命预测方法[J].中国机械工程,2024,35(8):1435-1448.
6白龙,张荣,张雷,唐军.热电器件性能的权衡优化研究[J].大学物理,2024,43(6):36-39.
7李振轩,黄敏儿,高飞,陶庭叶,吴兆福,朱勇超.基于U-Net、U-Net++和Attention-U-Net网络的遥感影像水体提取[J].测绘通报,2024(8):26-30.
8王惠琴,罗佳,何永强,曹明华,高大庆,李佳豪.改进YOLOv5的探地雷达常见地下管线识别[J].地球物理学报,2024,67(9):3588-3604. 被引量：1
9宋晖,杨灿.美军空中层通信网络发展研究[J].中国宽带,2023,19(10):1-3.
10刘泽龙,韩峰,王成祥.基于区域协调发展理念的西部山区线路方案优选算法研究[J].铁道科学与工程学报,2024,21(6):2476-2487.

西安交通大学学报

2024年第9期

浏览历史

内容加载中请稍等...

深度神经网络动态分层梯度稀疏化及梯度合并优化方法

参考文献8

二级参考文献20

共引文献143

相关作者

相关机构

相关主题

浏览历史