基于FPGA的卷积神经网络定点加速被引量：10

FPGA-based convolutional neural network fixed-point acceleration

下载PDF

导出

摘要针对卷积神经网络(CNN)在资源受限的硬件设备上运行功耗高及运行慢的问题,提出一种基于现场可编程门阵列(FPGA)的CNN定点计算加速方法。首先提出一种定点化方法,并且每层卷积设计不同的尺度参数,使用相对散度确定位宽的长度,以减小CNN参数的存储空间,而且研究不同量化区间对CNN精度的影响;其次,设计参数复用方法及流水线计算方法来加速卷积计算。为验证CNN定点化后的加速效果,采用了人脸和船舶两个数据集进行验证。结果表明,相较于传统的浮点卷积计算,所提方法在保证CNN精度损失很小的前提下,当权值参数和输入特征图参数量化到7-bit时,在人脸识别CNN模型上的压缩后的权重参数文件大小约为原来的22%,卷积计算加速比为18.69,同时使FPGA中的乘加器的利用率达94.5%。实验结果表明了该方法可以提高卷积计算速度,并且能够高效利用FPGA硬件资源。 Aiming at the problem of high running power consumption and slow operation of Convolutional Neural Network(CNN)on resource-constrained hardware devices,a method for accelerating fixed-point computation of CNN based on Field Programmable Gate Array(FPGA)was proposed.First,a fixed-point processing method was proposed.In order to reduce the storage space of the CNN parameters,different scale parameters were designed for different convolution layers and the relative divergence was used to determine the bit width length.The effect of different quantization intervals on the accuracy of CNN was studied.Then,the parameter multiplexing method and the pipeline calculation method were designed to accelerate the convolution calculation.In order to verify the acceleration effect of CNN after fixed-point processing,two datasets of face and ship were used for verification.Compared with the traditional floating-point convolution computation,on the premise of ensuring that the accuracy loss of the CNN is small,when the weight parameters and the input feature map parameters are quantized to 7-bit,on the face recognition CNN model,the proposed method has the compressed weight parameter file size of about 22%of the origin,and the convolution calculation speedup is 18.69.At the same time,the method makes the utilization rate of the multiplier-accumulator in FPGA reach 94.5%.Experimental results show that the proposed method can improve the speed of convolution calculation,and efficiently use FPGA hardware resources.

作者雷小康尹志刚赵瑞莲 LEI Xiaokang;YIN Zhigang;ZHAO Ruilian(School of Information Science and Technology,Beijing University of Chemical Technology,Beijing 100029,China;Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)

机构地区北京化工大学信息科学与技术学院中国科学院自动化研究所

出处《计算机应用》 CSCD 北大核心 2020年第10期2811-2816,共6页 journal of Computer Applications

基金国家自然科学基金资助项目(61672085)。

关键词卷积神经网络定点量化现场可编程门阵列模型压缩 YOLO模型 Convolutional Neural Network(CNN) fixed-point quantization Field Programmable Gate Array(FPGA) model compression YOLO model

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1魏浚峰,王东,山丹.基于FPGA的卷积神经网络加速器设计与实现[J].中国集成电路,2019,28(7):18-22. 被引量：6
2施一飞.对使用TensorRT加速AI深度学习推断效率的探索[J].科技视界,2017,0(31):26-27. 被引量：11
3余子健,马德,严晓浪,沈君成.基于FPGA的卷积神经网络加速器[J].计算机工程,2017,43(1):109-114. 被引量：36

二级参考文献4

1吕刚,郝平,盛建荣.一种改进的深度神经网络在小图像分类中的应用研究[J].计算机应用与软件,2014,31(4):182-184. 被引量：23
2马焕芳,赵歆波,邹晓春.基于MapReduce的卷积神经网络算法研究[J].中国体视学与图像分析,2015,20(4):339-346. 被引量：2
3周莉莉,姜枫.图像分割方法综述研究[J].计算机应用研究,2017,34(7):1921-1928. 被引量：116
4余子健,马德,严晓浪,沈君成.基于FPGA的卷积神经网络加速器[J].计算机工程,2017,43(1):109-114. 被引量：36

共引文献46

1陈晓武,刘国华,雷尚平.机器视觉平台在钢铁制造业的实现与应用[J].冶金自动化,2020,44(S01):197-201. 被引量：4
2王昆,周骅.深度学习中的卷积神经网络系统设计及硬件实现[J].电子技术应用,2018,44(5):56-59. 被引量：7
3杨景明,杜韦江,吴绍坤,李良,魏立新.基于FPGA的BP神经网络硬件实现及改进[J].计算机工程与设计,2018,39(6):1733-1737. 被引量：6
4王开宇,生梦林,韩睿,李伯轩,刘晨阳,申人升.卷积神经网络的FPGA实现及优化[J].实验室科学,2018,21(4):79-84. 被引量：2
5张庭略.基于硬件的神经网络加速[J].通讯世界,2018,0(8):77-79. 被引量：1
6赵晖.一种基于ARIMA的FPGA系统级动态功耗预测建模框架[J].电子设计工程,2018,26(23):147-151.
7任卫欣.基于FPGA的硬件加速系统[J].电子制作,2018,26(23):73-76. 被引量：1
8冯光顺,应三丛.ZYNQ的卷积神经网络硬件加速通用平台设计[J].单片机与嵌入式系统应用,2019,19(3):3-6. 被引量：2
9魏浚峰,王东,山丹.基于FPGA的卷积神经网络加速器设计与实现[J].中国集成电路,2019,28(7):18-22. 被引量：6
10李宗凌,汪路元,禹霁阳,程博文,郝梁,张伟功.基于多并行计算和存储的CNN加速器[J].计算机技术与发展,2019,29(7):11-16. 被引量：1

同被引文献66

1季玉坤,高向东,刘倩雯,张艳喜,张南峰.焊接缺陷磁光成像卷积神经网络识别方法[J].仪器仪表学报,2021,42(2):107-113. 被引量：9
2尹首一.人工智能芯片概述[J].微纳电子与智能制造,2019,1(2):7-11. 被引量：16
3姜秋喜,潘继飞,毕大平.匹配模板法在雷达信号识别中的应用[J].电讯技术,2005,45(5):31-35. 被引量：5
4郝智泉,王贞松.BP算法的脉动阵列结构在FPGA上的实现[J].计算机工程,2006,32(21):18-21. 被引量：4
5何振琦,李光明,张慧琳,李颀.高速图像采集系统的研究及FPGA实现[J].计算机应用,2010,30(11):3094-3096. 被引量：14
6洪家平.LD3320的嵌入式语音识别系统的应用[J].单片机与嵌入式系统应用,2012,12(2):47-49. 被引量：46
7陈志刚,刘权.人工智能技术在语音交互领域的探索与应用[J].信息技术与标准化,2019(1):16-20. 被引量：10
8方睿,刘加贺,薛志辉,杨广文.卷积神经网络的FPGA并行加速方案设计[J].计算机工程与应用,2015,51(8):32-36. 被引量：27
9张晴晴,刘勇,潘接林,颜永红.基于卷积神经网络的连续语音识别[J].工程科学学报,2015,37(9):1212-1217. 被引量：70
10朱煜,赵江坤,王逸宁,郑兵兵.基于深度学习的人体行为识别算法综述[J].自动化学报,2016,42(6):848-857. 被引量：131

引证文献10

1王利翔,林珊玲,林志贤,郭太良.基于Zynq平台的图像目标检测系统[J].半导体光电,2023,44(1):147-152.
2邱文杰,叶进,胡亮青,杨娟,李其利,莫贱友,易万茂.面向植物病害识别的卷积神经网络精简结构Distilled-MobileNet模型[J].智慧农业（中英文）,2021,3(1):109-117. 被引量：6
3李磊,徐国伟,李文婧,宋庆增.基于深度学习的舰船目标检测算法与硬件加速[J].计算机应用,2021,41(S01):162-166. 被引量：7
4满涛,郭子豪,曲志坚.卷积神经网络的FPGA并行加速设计与实现[J].电讯技术,2021,61(11):1438-1445. 被引量：9
5吴宇航,何军.基于FPGA的人体行为识别系统的设计[J].南京信息工程大学学报（自然科学版）,2022,14(3):331-340.
6吴宇航,何军.基于FPGA加速的行为识别算法研究[J].电子测量技术,2022,45(13):25-32. 被引量：4
7谭会生,徐界铭,张驾祥.BP神经网络FPGA实现结构的优化设计[J].计算机工程与应用,2022,58(21):264-271. 被引量：4
8肖帅,龚帅阁,李想,王昊,陶诗飞.FPGA平台轻量化卷积神经网络辐射源信号识别方法[J].计算技术与自动化,2023,42(4):140-146. 被引量：1
9吴宇航,何军.基于FPGA的卷积神经网络语音识别方法[J].信息技术,2023,47(11):22-27.
10朱家扬,蒋林,李远成,宋佳,刘帅.基于可重构阵列的CNN数据量化方法[J].计算机应用研究,2024,41(4):1070-1076.

二级引证文献31

1李德建,陈琦,沈冲飞.电力分布式智能配电终端控制芯片实时增强技术概述[J].微纳电子与智能制造,2022,4(4):94-101.
2杜忠文,李庚霖,蒋菡,褚江恒,伍俊.基于次级缓存的SDRAM调度策略的研究[J].电子测量技术,2023,46(14):37-42. 被引量：1
3王昱潭,薛君蕊.改进SSD的灵武长枣图像轻量化目标检测方法[J].农业工程学报,2021,37(19):173-182. 被引量：8
4焦禹铭,吴凯,郭风祥,王昭,宋庆增.基于专用卷积神经网络加速器的编译器设计与实现[J].计算机应用,2022,42(S01):208-214. 被引量：1
5吴宇航,何军.基于FPGA加速的行为识别算法研究[J].电子测量技术,2022,45(13):25-32. 被引量：4
6何家俊,苏成悦,罗荣芳,施振华,陈堆钰,罗俊丰.基于FPGA的量化推理CNN加速系统研究与设计[J].计算机测量与控制,2022,30(9):162-169. 被引量：1
7史俊冰,师恩汝,王明宇,李卓.基于MobileNet的救护车识别系统设计与实现[J].信息技术与信息化,2022(9):106-109. 被引量：1
8贾子龙,潘士杰,郭子昊,唐进,姚燕.基于FPGA的声纹识别系统设计[J].电子器件,2022,45(4):997-1003. 被引量：2
9谭会生,徐界铭,张驾祥.BP神经网络FPGA实现结构的优化设计[J].计算机工程与应用,2022,58(21):264-271. 被引量：4
10郑光,魏家领,任艳娜,刘合兵,席磊.基于深度可分离与空洞卷积的轻量化小麦生育进程监测模型研究[J].江苏农业科学,2022,50(20):226-232. 被引量：2

1刘晏辰,刘洋.一种细粒度可重构的深度神经网络加速芯片[J].半导体技术,2020,45(1):25-30. 被引量：1
2任君艳.农村小学课堂与信息技术的有效融合策略[J].读与写（上旬）,2020(11):119-119.
3向韬鑫,王仁平,刘东明,陈荣林.多电压与扫描链技术在芯片设计中的应用研究[J].电气技术,2020,21(6):35-38. 被引量：2
4陈磊,韩飞,易文祥.基于信息熵的多尺度FAST角点[J].计算机应用与软件,2020,37(10):244-248. 被引量：4
5孙献光,段田堂,孟春晓.考虑弹塑性变形的结合面接触热导建模[J].应用力学学报,2020,37(4):1703-1708. 被引量：2
6李田,李国彦,李辉,侯睿,郝学坤,岳新伟,李刚.基于功率域复用的低轨卫星多址技术及性能分析[J].无线电通信技术,2020,46(5):591-597.
7高飞,潘世杰,刘海玲,秦素娟,温巧燕.量子回归算法综述[J].北京电子科技学院学报,2019(4):1-13. 被引量：2
8张振超,袁德宝,张军,吴子若.优化非等间距GM(1,1)模型及其在变形监测中的应用[J].测绘科学技术学报,2020,37(2):124-132. 被引量：4
9胡要花,陶亚萍.零差检测量子反馈下的相位估计[J].量子光学学报,2020,26(3):258-263.
10覃新贤,齐月敏.基于CUDA的BDS信号捕获方法[J].计算机仿真,2020,37(9):41-44. 被引量：3

计算机应用

2020年第10期

浏览历史

内容加载中请稍等...

基于FPGA的卷积神经网络定点加速被引量：10

参考文献3

二级参考文献4

共引文献46

同被引文献66

引证文献10

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于FPGA的卷积神经网络定点加速 被引量：10

参考文献3

二级参考文献4

共引文献46

同被引文献66

引证文献10

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于FPGA的卷积神经网络定点加速被引量：10