期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
QingLong:一种基于常变量异步拷贝的神经网络编程模型
被引量:
2
1
作者
杜伟健
陈云霁
+3 位作者
支天
吴林阳
陈小兵
庄毅敏
《计算机学报》
EI
CSCD
北大核心
2020年第4期587-599,共13页
近年来,人工神经网络的研究取得了巨大成就,在图像识别、自然语言处理等领域均有突破性的成果,同时产生了众多商业应用,方便了我们的生活,比如语音助手、辅助驾驶等.由于神经网络算法属于计算密集型和访存密集型的负载,传统CPU处理器已...
近年来,人工神经网络的研究取得了巨大成就,在图像识别、自然语言处理等领域均有突破性的成果,同时产生了众多商业应用,方便了我们的生活,比如语音助手、辅助驾驶等.由于神经网络算法属于计算密集型和访存密集型的负载,传统CPU处理器已不能满足其大规模商业化应用的需求,因此学术界和产业界试图在GPU、FPGA和ASIC上寻求突破.其中,神经网络加速器作为一种ASIC,它提供了高性能、低功耗的硬件解决方案,相关研究也越来越多.神经网络加速器作为一种协处理器,在其计算前后需要将数据在主机与设备之间进行搬运.特别是对吞吐量要求较高的神经网络前向推理任务,需要将网络模型参数、硬件指令等常量数据和输入、输出等变量数据,分别从主机内存拷入设备内存.如果常量数据在每一份输入数据计算前都拷贝一次,就存在常量数据重复拷贝的问题,浪费了时间与存储资源.如何在神经网络开发工具软件中实现拷贝多次变量数据但只拷贝一次常量数据,如何保证指令在每次计算中都正确寻址常量和变量,如何简化用户编程,提供用户友好的接口,就成为一系列值得研究的问题.在本文中,我们提出了一种基于常变量异步拷贝的神经网络开发工具软件及其编程模型QingLong来解决上述问题.QingLong编程模型包含三个阶段:定义网络、编译网络和计算.在定义网络阶段,用户可以为神经网络的数据节点绑定常量数据;在编译网络阶段,通过REOFF数据包装法将常量数据封装为数据包;在计算网络阶段,用户拷贝一次数据包后即可多次拷入输入数据并计算输出结果.该编程模型具有编译、计算分离,常变量异步拷贝,计算和数据拷贝可切分为三级流水线等优势.实验表明,在连续计算100份输入样本时,QingLong比DLPlib有平均17.48倍的性能提升,且输入样本越多,性能提升的倍数越大.
展开更多
关键词
神经网络
编程模型
常量和变量
异步
拷贝
软件开发工具
下载PDF
职称材料
题名
QingLong:一种基于常变量异步拷贝的神经网络编程模型
被引量:
2
1
作者
杜伟健
陈云霁
支天
吴林阳
陈小兵
庄毅敏
机构
中国科学院计算技术研究所计算机体系结构国家重点实验室
中国科学院大学
上海寒武纪信息科技有限公司
张江实验室脑与智能科技研究院
上海脑科学与类脑研究中心
中国科学院脑科学与智能技术卓越创新中心
中科寒武纪科技股份有限公司
出处
《计算机学报》
EI
CSCD
北大核心
2020年第4期587-599,共13页
基金
国家重点研发计划(2017YFA0700900,2017YFA0700902,2017YFA0700901,2017YFB1003101,2018AAA0103300)
国家自然科学基金(61432016,61532016,61672491,61602441,61602446,61732002,61702478,61732007,61732020)
+5 种基金
北京市自然科学基金(JQ18013)“核心电子器件、高端通用芯片及基础软件产品”科技重大专项(2018ZX01031102)
中国科学院科技成果转移转化重点专项(KFJ-HGZX-013)
中国科学院前沿科学重点研究项目(QYZDBSSW-JSC001)
中国科学院战略性先导科技专项(XDB32050200,XDC01020000)
中科院标准化研究项目(BZ201800001)
北京智源人工智能研究院以及北京市科技新星计划项目(Z191100001119093)的支持.
文摘
近年来,人工神经网络的研究取得了巨大成就,在图像识别、自然语言处理等领域均有突破性的成果,同时产生了众多商业应用,方便了我们的生活,比如语音助手、辅助驾驶等.由于神经网络算法属于计算密集型和访存密集型的负载,传统CPU处理器已不能满足其大规模商业化应用的需求,因此学术界和产业界试图在GPU、FPGA和ASIC上寻求突破.其中,神经网络加速器作为一种ASIC,它提供了高性能、低功耗的硬件解决方案,相关研究也越来越多.神经网络加速器作为一种协处理器,在其计算前后需要将数据在主机与设备之间进行搬运.特别是对吞吐量要求较高的神经网络前向推理任务,需要将网络模型参数、硬件指令等常量数据和输入、输出等变量数据,分别从主机内存拷入设备内存.如果常量数据在每一份输入数据计算前都拷贝一次,就存在常量数据重复拷贝的问题,浪费了时间与存储资源.如何在神经网络开发工具软件中实现拷贝多次变量数据但只拷贝一次常量数据,如何保证指令在每次计算中都正确寻址常量和变量,如何简化用户编程,提供用户友好的接口,就成为一系列值得研究的问题.在本文中,我们提出了一种基于常变量异步拷贝的神经网络开发工具软件及其编程模型QingLong来解决上述问题.QingLong编程模型包含三个阶段:定义网络、编译网络和计算.在定义网络阶段,用户可以为神经网络的数据节点绑定常量数据;在编译网络阶段,通过REOFF数据包装法将常量数据封装为数据包;在计算网络阶段,用户拷贝一次数据包后即可多次拷入输入数据并计算输出结果.该编程模型具有编译、计算分离,常变量异步拷贝,计算和数据拷贝可切分为三级流水线等优势.实验表明,在连续计算100份输入样本时,QingLong比DLPlib有平均17.48倍的性能提升,且输入样本越多,性能提升的倍数越大.
关键词
神经网络
编程模型
常量和变量
异步
拷贝
软件开发工具
Keywords
neural network
programming model
constant and variable
asynchronous copy
software development kit
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
QingLong:一种基于常变量异步拷贝的神经网络编程模型
杜伟健
陈云霁
支天
吴林阳
陈小兵
庄毅敏
《计算机学报》
EI
CSCD
北大核心
2020
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部