期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
SpMV计算的ARM和FPGA异构加速器设计
1
作者
朱明达
薛济擎
艾纯瑶
《电讯技术》
北大核心
2024年第2期302-309,共8页
针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格...
针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格式(Modified Compressed Sparse Row Format,MCSR)与ARM+FPGA架构任务级数据级硬件优化相结合的加速方法。使用多个端口并行存取数据来提高计算并行度;使用数据流、循环流水实现循环间、循环内的并行加速;使用数组分割、流传输实现数据的细粒度并行缓存与计算;使用ARM+FPGA架构,ARM完成对系统的控制,将计算卸载到FPGA并行加速。实验结果表明,并行加速优化后的ARM+FPGA方案相较于单ARM方案最高可达10倍的加速效果,而且增加的资源消耗在可接受范围内,矩阵规模越大非零值越多加速效果越明显。研究成果在边缘端实施SpMV计算方面有一定实用价值。
展开更多
关键词
稀疏矩阵向量乘(SpMV)
异构
加速器
硬件
加速
下载PDF
职称材料
用于深度学习训练加速的自适应框架设计
被引量:
2
2
作者
范涛
樊平
成元庆
《计算机辅助设计与图形学学报》
EI
CSCD
北大核心
2021年第6期974-982,共9页
用FPGA加速深度学习算法的训练过程通常需要较长的开发周期和丰富的硬件设计经验.为了应对这一挑战,设计了一种基于自适应模板技术的深度学习算法训练加速框架,在应用规模、并行调度策略、资源使用和功能扩展上进行了深入的研究并提出...
用FPGA加速深度学习算法的训练过程通常需要较长的开发周期和丰富的硬件设计经验.为了应对这一挑战,设计了一种基于自适应模板技术的深度学习算法训练加速框架,在应用规模、并行调度策略、资源使用和功能扩展上进行了深入的研究并提出了相应的优化策略.采用CPU-FPGA异构加速模板技术,提出了自适应的上层模型编译框架实现与不同硬件加速资源的适配.这种基于定制模板的软硬件协同设计可以很好地适配不同的FPGA芯片并支持算法的快速迭代.用图神经网络算法数据进行加速对比实验,实现了与CPU相比7~41倍的速度提升.
展开更多
关键词
深度学习
图神经网络
异构
加速器
现场可编程门阵列
下载PDF
职称材料
题名
SpMV计算的ARM和FPGA异构加速器设计
1
作者
朱明达
薛济擎
艾纯瑶
机构
中国石油大学(北京)信息科学与工程学院
出处
《电讯技术》
北大核心
2024年第2期302-309,共8页
基金
中国高校产学研创新基金(2020HYA08001)
中国石油大学(北京)科研基金(2462020YXZZ025)。
文摘
针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格式(Modified Compressed Sparse Row Format,MCSR)与ARM+FPGA架构任务级数据级硬件优化相结合的加速方法。使用多个端口并行存取数据来提高计算并行度;使用数据流、循环流水实现循环间、循环内的并行加速;使用数组分割、流传输实现数据的细粒度并行缓存与计算;使用ARM+FPGA架构,ARM完成对系统的控制,将计算卸载到FPGA并行加速。实验结果表明,并行加速优化后的ARM+FPGA方案相较于单ARM方案最高可达10倍的加速效果,而且增加的资源消耗在可接受范围内,矩阵规模越大非零值越多加速效果越明显。研究成果在边缘端实施SpMV计算方面有一定实用价值。
关键词
稀疏矩阵向量乘(SpMV)
异构
加速器
硬件
加速
Keywords
sparse matrix-vector multiplication(SpMV)
heterogeneous accelerator
hardware acceleration
分类号
TP332.2 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
用于深度学习训练加速的自适应框架设计
被引量:
2
2
作者
范涛
樊平
成元庆
机构
北京航空航天大学集成电路科学与工程学院
北京深维科技有限公司
出处
《计算机辅助设计与图形学学报》
EI
CSCD
北大核心
2021年第6期974-982,共9页
基金
北京市自然科学基金(4192035)
北京市首都科技创新项目(XM20200028-C).
文摘
用FPGA加速深度学习算法的训练过程通常需要较长的开发周期和丰富的硬件设计经验.为了应对这一挑战,设计了一种基于自适应模板技术的深度学习算法训练加速框架,在应用规模、并行调度策略、资源使用和功能扩展上进行了深入的研究并提出了相应的优化策略.采用CPU-FPGA异构加速模板技术,提出了自适应的上层模型编译框架实现与不同硬件加速资源的适配.这种基于定制模板的软硬件协同设计可以很好地适配不同的FPGA芯片并支持算法的快速迭代.用图神经网络算法数据进行加速对比实验,实现了与CPU相比7~41倍的速度提升.
关键词
深度学习
图神经网络
异构
加速器
现场可编程门阵列
Keywords
deep learning
graph convolutional networks(GCN)
heterogeneous accelerator
field-programmable gate array(FPGA)
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
SpMV计算的ARM和FPGA异构加速器设计
朱明达
薛济擎
艾纯瑶
《电讯技术》
北大核心
2024
0
下载PDF
职称材料
2
用于深度学习训练加速的自适应框架设计
范涛
樊平
成元庆
《计算机辅助设计与图形学学报》
EI
CSCD
北大核心
2021
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部