期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种面向分布式深度学习系统的资源及批尺寸协同配置方法
被引量:
2
1
作者
梁毅
丁振兴
+3 位作者
赵昱
刘明洁
潘勇
金翊
《计算机学报》
EI
CAS
CSCD
北大核心
2022年第2期302-316,共15页
如何在受限时间内满足深度学习模型的训练精度需求并最小化资源成本是分布式深度学习系统面临的一大挑战.资源和批尺寸超参数配置是优化模型训练精度及资源成本的主要方法.既有工作分别从计算效率和训练精度的角度,对资源及批尺寸超参...
如何在受限时间内满足深度学习模型的训练精度需求并最小化资源成本是分布式深度学习系统面临的一大挑战.资源和批尺寸超参数配置是优化模型训练精度及资源成本的主要方法.既有工作分别从计算效率和训练精度的角度,对资源及批尺寸超参数进行独立配置.然而,两类配置对于模型训练精度及资源成本的影响具有复杂的依赖关系,既有独立配置方法难以同时达到满足模型训练精度需求及资源成本最小化的目标.针对上述问题,本文提出分布式深度学习系统资源-批尺寸协同优化配置方法.该方法首先依据资源配置和批尺寸超参数配置与模型训练时间和训练精度间的单调函数关系,选取保序回归理论工具,分别建立模型单轮完整训练时间和训练最终精度预测模型;然后协同使用上述模型,以资源成本最小化为目标,求解满足模型训练精度需求的资源和批尺寸优化配置解.本文基于典型分布式深度学习系统TensorFlow对所提出方法进行性能评测.实验结果表明,与既有基于自动化的资源或批尺寸独立配置方法相比,本文提出的协同配置方法最大节约资源成本26.89%.
展开更多
关键词
分布式
深度
学习
系统
模型训练
批尺寸
资源配置
资源成本
下载PDF
职称材料
分布式深度学习系统网络通信优化技术
被引量:
3
2
作者
董德尊
欧阳硕
《中兴通讯技术》
2020年第5期2-8,共7页
针对分布式深度学习系统网络通信的全协议栈定制优化问题,提出了一种分布式深度学习系统的网络通信优化技术的分类方法。从网络协议栈层次的角度,分析了通信流量调度和网络通信执行的关键技术;自顶向下地从算法层面和网络层面分别讨论...
针对分布式深度学习系统网络通信的全协议栈定制优化问题,提出了一种分布式深度学习系统的网络通信优化技术的分类方法。从网络协议栈层次的角度,分析了通信流量调度和网络通信执行的关键技术;自顶向下地从算法层面和网络层面分别讨论了分布式深度学习通信瓶颈优化的几种基本技术途径,并展望其未来发展的机遇与挑战。
展开更多
关键词
分布式
深度
学习
系统
通信优化
全协议栈
下载PDF
职称材料
题名
一种面向分布式深度学习系统的资源及批尺寸协同配置方法
被引量:
2
1
作者
梁毅
丁振兴
赵昱
刘明洁
潘勇
金翊
机构
北京工业大学信息学部
北京机电工程研究所
北京市计算中心
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2022年第2期302-316,共15页
基金
北京市自然科学基金面上项目(4192007)
国家重点研发计划(2017YFC0803300)资助.
文摘
如何在受限时间内满足深度学习模型的训练精度需求并最小化资源成本是分布式深度学习系统面临的一大挑战.资源和批尺寸超参数配置是优化模型训练精度及资源成本的主要方法.既有工作分别从计算效率和训练精度的角度,对资源及批尺寸超参数进行独立配置.然而,两类配置对于模型训练精度及资源成本的影响具有复杂的依赖关系,既有独立配置方法难以同时达到满足模型训练精度需求及资源成本最小化的目标.针对上述问题,本文提出分布式深度学习系统资源-批尺寸协同优化配置方法.该方法首先依据资源配置和批尺寸超参数配置与模型训练时间和训练精度间的单调函数关系,选取保序回归理论工具,分别建立模型单轮完整训练时间和训练最终精度预测模型;然后协同使用上述模型,以资源成本最小化为目标,求解满足模型训练精度需求的资源和批尺寸优化配置解.本文基于典型分布式深度学习系统TensorFlow对所提出方法进行性能评测.实验结果表明,与既有基于自动化的资源或批尺寸独立配置方法相比,本文提出的协同配置方法最大节约资源成本26.89%.
关键词
分布式
深度
学习
系统
模型训练
批尺寸
资源配置
资源成本
Keywords
distributed deep learning system
model training
batch sizing
resource allocation
resource cost
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
分布式深度学习系统网络通信优化技术
被引量:
3
2
作者
董德尊
欧阳硕
机构
国防科技大学
出处
《中兴通讯技术》
2020年第5期2-8,共7页
文摘
针对分布式深度学习系统网络通信的全协议栈定制优化问题,提出了一种分布式深度学习系统的网络通信优化技术的分类方法。从网络协议栈层次的角度,分析了通信流量调度和网络通信执行的关键技术;自顶向下地从算法层面和网络层面分别讨论了分布式深度学习通信瓶颈优化的几种基本技术途径,并展望其未来发展的机遇与挑战。
关键词
分布式
深度
学习
系统
通信优化
全协议栈
Keywords
distributed deep learning systems
communication optimization
full protocol stack
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TN915.0 [自动化与计算机技术—控制科学与工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种面向分布式深度学习系统的资源及批尺寸协同配置方法
梁毅
丁振兴
赵昱
刘明洁
潘勇
金翊
《计算机学报》
EI
CAS
CSCD
北大核心
2022
2
下载PDF
职称材料
2
分布式深度学习系统网络通信优化技术
董德尊
欧阳硕
《中兴通讯技术》
2020
3
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部