基于FPGA的稀疏化卷积神经网络加速器被引量：4

FPGA-based Accelerator for Sparse Convolutional Neutral Network

下载PDF

导出

摘要为消除卷积神经网络前向计算过程中因模型参数的稀疏性而出现的无效运算,基于现场可编程门阵列(FPGA)设计针对稀疏化神经网络模型的数据流及并行加速器。通过专用逻辑模块在输入通道方向上筛选出特征图矩阵和卷积滤波器矩阵中的非零点,将有效数据传递给由数字信号处理器组成的阵列做乘累加操作。在此基础上,对所有相关的中间结果经加法树获得最终输出特征图点,同时在特征图宽度、高度和输出通道方向上做粗颗粒度并行并寻找最佳的设计参数。在Xilinx器件上进行实验验证,结果表明,该设计实现VGG16卷积层综合性能达到678.2 GOPS,性能功耗比为69.45 GOPS/W,其性能与功耗指标较基于FPGA的稠密网络加速器和稀疏网络加速器有较大提升。 In order to eliminate the invalid operations caused by the sparsity of the model parameters in the forward process of the Convolution Neural Network(CNN),a dataflow and parallel accelerator system for the sparse neural network are designed based on the Field Programmable Gate array(FPGA).By using a dedicated logic module,the nonzero elements in the feature map matrices and the convolution filter matrices are picked up.Then the valid data is transferred to the array consisting of Digital Signal Processor(DSP)for multiply-accumulate operations.On this basis,all relevant intermediate results are transferred to the adder tree to generate the final output feature map.Meanwhile,the coarse-grained parallelism is implemented along the width,height and output channel of the feature maps,and the optimal design parameters are searched for.Experiments are carried out based on Xilinx FPGAs for verification,and the results show that the design enables the sparse convolution layer in VGG to deliver performance of 678.2 GOPS and energy efficiency of 69.45 GOPS/W,displaying a considerable improvement of performance and energy efficiency compared with FPGA-based accelerators for the dense and sparse networks.

作者狄新凯杨海钢 DI Xinkai;YANG Haigang(Aerospace Information Research Institute,Chinese Academy of Sciences,Beijing 100094,China;University of Chinese Academy of Sciences,Beijing 100049,China)

机构地区中国科学院空天信息创新研究院中国科学院大学

出处《计算机工程》 CAS CSCD 北大核心 2021年第7期189-195,204,共8页 Computer Engineering

基金国家自然科学基金(61876172) 北京市科委重大科研计划项目(Z171100000117019)。

关键词卷积神经网络稀疏性现场可编程门阵列并行加速器数字信号处理器加法树 Convolutional Neural Network(CNN) sparsity Field Programmable Gate Array(FPGA) parallel accelerator Digital Signal Processor(DSP) adder tree

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1秦华标,曹钦平.基于FPGA的卷积神经网络硬件加速器设计[J].电子与信息学报,2019,41(11):2599-2605. 被引量：18
2刘勤让,刘崇阳.利用参数稀疏性的卷积神经网络计算优化及其FPGA加速器设计[J].电子与信息学报,2018,40(6):1368-1374. 被引量：23
3周聖元,杜子东,陈云霁.稀疏神经网络加速器设计[J].高技术通讯,2019,29(3):222-231. 被引量：5

二级参考文献3

1田翔,周凡,陈耀武,刘莉,陈耀.基于FPGA的实时双精度浮点矩阵乘法器设计[J].浙江大学学报（工学版）,2008,42(9):1611-1615. 被引量：21
2曾毅,刘成林,谭铁牛.类脑智能研究的回顾与展望[J].计算机学报,2016,39(1):212-222. 被引量：122
3常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安.图像理解中的卷积神经网络[J].自动化学报,2016,42(9):1300-1312. 被引量：428

共引文献42

1李莉,陈心宇,高文斌.一种基于FPGA的卷积神经网络加速器实现方案[J].北京电子科技学院学报,2022,30(4):96-104. 被引量：2
2孙家燕,吴红.设计部门编制施工图预算是控制工程造价方法的探讨[J].黑龙江科技信息,2000(5):66-66. 被引量：2
3张庭略.基于硬件的神经网络加速[J].通讯世界,2018,0(8):77-79. 被引量：1
4任卫欣.基于FPGA的硬件加速系统[J].电子制作,2018,26(23):73-76. 被引量：1
5刘勤让,刘崇阳,周俊,王孝龙.基于线性脉动阵列的卷积神经网络计算优化与性能分析[J].网络与信息安全学报,2018,4(12):16-24. 被引量：3
6江鹏.基于卷积神经网络的大学生就业推荐算法研究与设计[J].数码设计,2019,8(14):23-24.
7陈朋,陈庆清,王海霞,张怡龙,刘义鹏,梁荣华.基于改进动态配置的FPGA卷积神经网络加速器的优化方法[J].高技术通讯,2020,30(3):240-247. 被引量：3
8杨浩,王越男.点对点通信原语并行转换方法仿真研究[J].计算机仿真,2020,37(4):173-177.
9王超,王腾,马翔,周学海.基于FPGA的机器学习硬件加速研究进展[J].计算机学报,2020,43(6):1161-1182. 被引量：15
10乔延婷,陈万培,张涛.基于SSD的轻量级车辆检测网络[J].无线电工程,2020,50(11):926-931. 被引量：9

同被引文献45

1孟祥峰,Wang Zhenpo.Cycle life prediction of traction battery based on degradation data[J].High Technology Letters,2010,16(1):13-17. 被引量：1
2武雪峰,王振波.LiFePO_4/C电池循环性能和安全性能的研究[J].电池工业,2010,15(3):156-159. 被引量：10
3王明坤,冯国胜.混合动力车电池管理系统的设计[J].农业装备与车辆工程,2013,51(10):9-11. 被引量：1
4姚雷,王震坡.锂离子电池极化电压特性分析[J].北京理工大学学报,2014,34(9):912-916. 被引量：32
5陈仕俊,郑敏信,满庆丰.基于STM32和LTC6803的电池管理系统设计[J].电源技术,2015,39(2):280-282. 被引量：14
6祖林禄,周跃庆,李玲慧,周江辉.基于FPGA和BP神经网络的电池管理系统设计[J].电源技术,2015,39(5):921-924. 被引量：3
7詹世安,汤宁平,王建宽.磷酸铁锂电池荷电状态估算方法研究[J].电源技术,2015,39(8):1620-1622. 被引量：4
8刘胜永,李源,赵振森,于跃,黄俊华.基于DSP的电动汽车锂电池荷电状态估算的研究与实现[J].计算机测量与控制,2015,23(10):3533-3535. 被引量：4
9范刘洋,汪可友,张宝群,李国杰,翟登辉,王卫星.考虑电池组不一致性的储能系统建模及仿真[J].电力系统自动化,2016,40(3):110-115. 被引量：20
10孙玉树,李星,唐西胜,付科源,李锰.应用于微网的多类型储能多级控制策略[J].高电压技术,2017,43(1):181-188. 被引量：39

引证文献4

1洪波,文鹏程,李亚辉.基于FPGA的卷积神经网络加速器设计[J].信息技术与信息化,2022(4):117-120.
2李钦祚,肖灯军.基于FPGA的低功耗YOLO加速器设计[J].电子设计工程,2022,30(20):6-12. 被引量：2
3洪起润,王琴.基于帧间数据复用的稀疏CNN加速器设计[J].计算机工程,2023,49(12):55-62.
4孙玉树,龚一莼,董亮,王晓晨,闫月君,唐西胜,党艳阳.电池储能系统状态估计综述[J].中南大学学报（自然科学版）,2024,55(6):2320-2333. 被引量：2

二级引证文献4

1赖嘉伟,魏洪健,孙科学,王艳.一种基于PYNQ的神经网络加速系统[J].电子设计工程,2024,32(17):16-21.
2叶亚峰,张宁,寇金桥,王昕.基于FPGA的VPX型智能加速模块的设计与实现[J].计算机技术与发展,2024,34(10):8-15.
3唐进岭.基于AI的动力电池性能监测专利技术分析[J].节能与环保,2024(10):47-55.
4杜迎春,李文涛,刘林,宋佳瞳,颜晓卉.电动汽车动力电池故障诊断的嵌入式实现[J].汽车维修技师,2024(24):24-25.

1王婷,陈斌岳,张福海.基于FPGA的卷积神经网络并行加速器设计[J].电子技术应用,2021,47(2):81-84. 被引量：4
2胡琼.基于深度学习的智慧城市关键目标识别研究[J].贵阳学院学报（自然科学版）,2021,16(2):30-34. 被引量：1
3张斌,张晓静,赵丙辰,张江霄,李舟军.一种改进的DenseASPP网络在遥感图像分割中的应用[J].计算机应用与软件,2021,38(7):46-52. 被引量：2
4鲍喜荣,历正双,高浩森,张石.基于加权因子的双重延时乘累加波束形成算法[J].东北大学学报（自然科学版）,2021,42(7):960-965. 被引量：2
5王刚,周晓青.土木工程毕业设计手算电算结合新思路[J].科教导刊（电子版）,2021(13):139-140.
6侯晓双,张俊.图数据流上时间尊重图模式匹配算法研究[J].计算机应用研究,2021,38(7):1988-1992. 被引量：1
7李军.高诊断覆盖率开关量输入模块设计[J].中国仪器仪表,2021(6):41-44.

计算机工程

2021年第7期

浏览历史

内容加载中请稍等...

基于FPGA的稀疏化卷积神经网络加速器被引量：4

参考文献3

二级参考文献3

共引文献42

同被引文献45

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于FPGA的稀疏化卷积神经网络加速器 被引量：4

参考文献3

二级参考文献3

共引文献42

同被引文献45

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于FPGA的稀疏化卷积神经网络加速器被引量：4