面向深度学习推理的矩阵乘法加速器设计被引量：2

Design of Matrix Multiplication Accelerator for Deep Learning Inference

下载PDF

导出

摘要为满足深度学习推理中对不同规模矩阵乘法的计算需求,提出一种基于Zynq SoC平台的整数矩阵乘法加速器。采用基于总线广播的并行结构,充分利用片上数据的重用性并最小化中间累加结果的移动范围,以降低外部DRAM的访问需求。通过动态调整矩阵分块的大小,使加速器在计算形状不规则的矩阵乘时保持较高效率。实验结果表明,在DeepBench测试基准下,该加速器可对双核ARM Cortex-A9 CPU的矩阵乘运算实现8.4倍的加速效果。 An integer matrix multiplication accelerator based on Zynq SoC platform is proposed to satisfy the computing requirements of matrix multiplication of different sizes in deep learning inference.The parallel architecture based on bus broadcasting makes full use of the reusability of on chip data and minimizes the moving range of intermediate cumulative result to reduce the access requirement of external DRAM.By dynamically adjusting the size of matrix blocks,the accelerator can maintain high efficiency in calculating matrix multiplication with irregular shape.Experimental results show that under DeepBench test benchmark,the accelerator can achieve 8.4 times acceleration effect for matrix multiplication of dual-core ARM Cortex-A9 CPU.

作者冉德成吴东钱磊 RAN Decheng;WU Dong;QIAN Lei(State Key Laboratory of Mathematical Engineering and Advanced Computing,Wuxi,Jiangsu 214125,China)

机构地区数学工程与先进计算国家重点实验室

出处《计算机工程》 CAS CSCD 北大核心 2019年第10期40-45,共6页 Computer Engineering

基金国家自然科学基金(61732010)

关键词整数矩阵乘法加速器可编程片上系统深度学习推理分块方案 DeepBench测试 integer matrix multiplication accelerator programmable System on Chip(SoC) deep learning inference blocking scheme DeepBench test

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1马邺晨,李醒飞.用于导航解算的矩阵运算硬件加速器设计[J].计算机工程,2014,40(8):259-263. 被引量：2
2田翔,周凡,陈耀武,刘莉,陈耀.基于FPGA的实时双精度浮点矩阵乘法器设计[J].浙江大学学报（工学版）,2008,42(9):1611-1615. 被引量：21
3张婷..嵌入式环境下浮点矩阵乘法的FPGA加速关键技术研究[D].湖南大学,2013:

二级参考文献22

1雷晶,金心宇,王锐.矩阵相乘的并行计算及其DSP实现[J].传感技术学报,2006,19(3):737-740. 被引量：2
2UNDERWOOD K. FPGAs vs. CPUs: trends in peak floating-point performance [C] // Proceedings of the International Symposium on Field Programmable Gate Arrays. Monterey: ACM , 2004: 171- 180. 被引量：1
3UNDERWOOD K, HEMMERT K. Closing the gap: CPU and FPGA trends in sustainable floating-point BLAS performance [C]//Proceedings of the 12th Annual IEEE Symposium on Field-Programmable Custom Computing Machines (FCCM '04). Washington: IEEE, 2004: 219 - 228. 被引量：1
4AMIRA A, BENSAALI F. An FPGA based parametrisable system for matrix product implementation [C] // Proceedings of the IEEE Workshop on Signal Processing Systems Design and Implementation (SIPS2002). San Diego: IEEE, 2002: 75-79. 被引量：1
5JANG J, CHOI S, PRASANNA V K. Area and time efficient implementation of matrix multiplication on FPGAs [C]//Proeeedings of IEEE International Conference on Field Programmable Technology. [S. I. ]: IEEE, 2002:93 - 100. 被引量：1
6ZHUO L, PRASANNA V K. Scalable and modular algorithms for floating-point matrix multiplication on FPGAs [C]// Proceedings of the 18th International Parallel and Distributed Processing Symposium (IPDPS ' 04). [S. l. ]: IEEE, 2004: 92. 被引量：1
7DOU Y, VASSILIADIS S, KUZMANOV G K, et al. 64-bit floating-point FPGA matrix multiplication [C]// Proceedings of the International Symposium on Field Programmable Gate Arrays. Monterey: ACM, 2005: 86 - 95. 被引量：1
8CAMPBELL S J, KHATRI S P. Resource and delay efficient matrix multiplication using newer FPGA devices [C] // Proceedings of the 16th ACM Great Lakes Symposium on VLSI. Philadelphia: ACM, 2006:308 - 311. 被引量：1
9ZHUO L, PRASANNA V K. Sparse matrix-vector multiplication on FPGAs [C]//Proceedings of the International Symposium on Field Programmable Gate Arrays. Monterey: ACM, 2005:63 - 74. 被引量：1
10DE LORIMIER M, DE HON A. Floating-point sparse matrix-vector multiply for FPGAs [C] // Proceedings of the International Symposium on Field Programmable Gate Arrays. Monterey: ACM, 2005:75-85. 被引量：1

共引文献20

1许芳,席毅,陈虹,靳伟伟.基于FPGA/Nios-Ⅱ的矩阵运算硬件加速器设计[J].电子测量与仪器学报,2011,25(4):377-383. 被引量：32
2肖宇,王建业,张伟.基于IP核的数选式浮点矩阵相乘设计[J].电子技术应用,2011,37(6):52-55. 被引量：1
3刘冬冬,张天宏,黄向华,陈建.基于FPGA的航空发动机电子控制器设计技术研究[J].测控技术,2012,31(1):57-61. 被引量：6
4张国礼,王建业,肖宇.浮点矩阵相乘IP核并行改进的设计与实现[J].电子技术应用,2012,38(2):43-46. 被引量：1
5刘沛华,鲁华祥,龚国良,刘文鹏.基于FPGA的全流水双精度浮点矩阵乘法器设计[J].智能系统学报,2012,7(4):302-306. 被引量：8
6沈俊,沈海斌,虞玉龙.一种低延迟高吞吐率的浮点整型乘累加单元[J].计算机工程,2013,39(6):91-94. 被引量：1
7马邺晨,李醒飞.用于导航解算的矩阵运算硬件加速器设计[J].计算机工程,2014,40(8):259-263. 被引量：2
8王阳,陶华敏,肖山竹,戴华东.基于脉动阵列的矩阵乘法器硬件加速技术研究[J].微电子学与计算机,2015,32(11):120-124. 被引量：6
9乔瑞秀,鲁华祥,龚国良,陈刚.并行可配置浮点矩阵乘法IP核设计[J].网络新媒体技术,2015,4(6):31-36. 被引量：1
10刘勤让,刘崇阳.利用参数稀疏性的卷积神经网络计算优化及其FPGA加速器设计[J].电子与信息学报,2018,40(6):1368-1374. 被引量：23

同被引文献8

1廖继荣,董海涛.利用循环展开最大化软件流水线性能(英文)[J].纯粹数学与应用数学,2004,20(3):285-290. 被引量：3
2贺爱香,顾乃杰,苏俊杰.基于多核ARM体系结构的基础函数优化方法[J].计算机工程,2018,44(5):47-52. 被引量：5
3张潇,支天.面向多核处理器的机器学习推理框架[J].计算机研究与发展,2019,56(9):1977-1987. 被引量：6
4王一超,廖秋承,左思成,谢锐,林新华.一种ARM处理器面向高性能计算的性能评估[J].计算机科学,2019,46(8):95-99. 被引量：5
5傅思扬,陈华,郁发新.基于RISC-V的卷积神经网络处理器设计与实现[J].微电子学与计算机,2020,37(4):49-54. 被引量：5
6徐冰冰,岑科廷,黄俊杰,沈华伟,程学旗.图卷积神经网络综述[J].计算机学报,2020,43(5):755-780. 被引量：275
7张承龙,曹华伟,王国波,郝沁汾,张洋,叶笑春,范东睿.面向高通量计算机的图算法优化技术[J].计算机研究与发展,2020,57(6):1152-1163. 被引量：10
8唐蕊,焦继业,徐华昊.面向嵌入式的卷积神经网络硬件加速器设计[J].计算机工程与应用,2021,57(4):252-257. 被引量：4

引证文献2

1郭晓龙,牛晋宇,杜永萍.基于树莓派的高效卷积优化方法[J].计算机技术与发展,2023,33(5):96-104.
2周理,赵祉乔,潘国腾,铁俊波,赵王.基于RISC-V的图卷积神经网络加速器设计[J].计算机工程与科学,2023,45(12):2113-2120.

1赵美勇,宋思睿.模拟Cache实现整数矩阵乘法[J].计算机产品与流通,2019,0(9):88-88. 被引量：1
2秦亚胜.基于总线技术的电气自动化可靠性测试方法分析[J].饮食科学,2019,0(12):152-152.
3舒阳霞.基于Android与Cortex-A9的企业加工环节监管系统的设计与实现[J].佛山科学技术学院学报（自然科学版）,2019,37(3):16-22.
4刘爽,李义,杨培宇,杨自恒.基于Zynq SoC的高速数据传输[J].科学技术创新,2019(26):83-84. 被引量：3
5查羿,潘红兵.一种负载均衡的LSTM硬件加速器设计[J].南京大学学报（自然科学版）,2019,55(5):733-739. 被引量：1
6于旭洋.Zynq7000 SoC平台在分布式信号处理节点中的应用[J].中小企业管理与科技,2019,0(24):189-190. 被引量：2
7赵娟.模板在C++中的应用[J].电脑知识与技术,2019,15(7Z):296-297.
8曾成龙,刘强.面向嵌入式FPGA的高性能卷积神经网络加速器设计[J].计算机辅助设计与图形学学报,2019,31(9):1645-1652. 被引量：11
9张鸣歌.基于REST的地震数据管理及服务技术研究[J].信息系统工程,2019,32(7):87-87.
10马景,陈向东.用HLS技术与BP神经网络实现的手语识别系统[J].单片机与嵌入式系统应用,2019,19(9):14-17. 被引量：2

计算机工程

2019年第10期

浏览历史

内容加载中请稍等...

面向深度学习推理的矩阵乘法加速器设计被引量：2

参考文献3

二级参考文献22

共引文献20

同被引文献8

引证文献2

相关作者

相关机构

相关主题

浏览历史

面向深度学习推理的矩阵乘法加速器设计 被引量：2

参考文献3

二级参考文献22

共引文献20

同被引文献8

引证文献2

相关作者

相关机构

相关主题

浏览历史

面向深度学习推理的矩阵乘法加速器设计被引量：2