高性能人脸识别加速器优化设计及FPGA实现被引量：3

Optimized Design and FPGA Implementation of High-Performance Face Recognition Accelerator

下载PDF

导出

摘要计算机视觉的快速发展对嵌入式产品的系统性能要求越来越高,传统的现场可编程门阵列(Field Programmable Gate Array,FPGA)平台存在计算吞吐未能很好匹配内存带宽,通用处理器对卷积神经网络(Convolutional Neural Network,CNN)的实现效率不高,未能满足性能要求等问题。针对以上设计瓶颈,使用经典的LeNet-5神经网络模型,在Xilinx ZC706嵌入式开发平台上设计了一个高性能的人脸识别神经网络加速器,在高层次综合(High Level Synthesis,HLS)工具的基础上通过存储优化、定点量化、运算优化等方法对神经网络模型进行优化改进,实现了7层的CNN加速器。实验结果表明,CNN加速器的工作频率为200 MHz,相较于CPU,加速器实现了126倍加速,相较于GPU速度提升10倍以上,并且功耗仅为2.62 W。 The rapid development of computer vision requires higher and higher system performance of embedded products,traditional Field Programmable Gate Array(FPGA)platform has some problems that computational throughput does not match the memory bandwidth well,the implementation efficiency of general processor pair Convolutional Neural Network(CNN)is not high,and the performance requirements are not met.Aiming at above design bottlenecks,using the classic LeNet-5 neural network model,a high-performance face recognition neural network accelerator is designed on the Xilinx ZC706 embedded development platform,which is optimized by storage based on High Level Synthesis(HLS)tools.The fixed-point quantization,computational optimization and other aspects of the neural network model are optimized and improved,and the 7-layer CNN accelerator is realized.Experimental results show that the operating frequency of CNN accelerator is 200 MHz.Compared with the CPU,the accelerator achieves 126 times acceleration,which is more than ten times faster than the GPU speed,and the power consumption is only 2.62 W.

作者吴进张伟华席萌代巍 WU Jin;ZHANG Weihua;XI Meng;DAI Wei(School of Electronic Engineering,Xi’an University of Posts and Telecommunications,Xi’an 710121,China)

机构地区西安邮电大学电子工程学院

出处《计算机工程与应用》 CSCD 北大核心 2020年第22期48-54,共7页 Computer Engineering and Applications

基金国家自然科学基金(No.61834005,No.61772417,No.61602377,No.61634004) 陕西省重点研发计划项目(No.2017GY-060) 陕西省自然科学基础研究计划项目(No.2018JM4018)。

关键词 CNN加速器现场可编程门阵列(FPGA) 高层次综合(HLS) 存储优化定点量化 CNN accelerator Field Programmable Gate Array(FPGA) High Level Synthesis(HLS) storage optimization fixed point quantization

分类号 TP302.1 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1丁帅帅,柴志雷.基于HLS的SURF特征提取硬件加速单元设计与实现[J].微电子学与计算机,2015,32(9):133-137. 被引量：9
2张榜,来金梅.一种基于FPGA的卷积神经网络加速器的设计与实现[J].复旦学报（自然科学版）,2018,57(2):236-242. 被引量：15

二级参考文献7

1Bay H, Tuytelaars T, Van Cool L. Surf: speeded up robust features[M]//Computer Vision - ECCV 2006. Springer Berlin Heidelberg, 2006: 404-417. 被引量：1
2Lowe D G. Distinctive image features from scale-invar- iant keypoints, cascade ltering approach [ J]. IJCV 2004(60) : 91-110. 被引量：1
3Xilinx, Xilinx Vivado Design Suite[EB/OL3. [2014-11-013. Available. http://www, xilinx eom/products/designtools/ vivado/. 被引量：1
4Xilinx Zynq-7000 SoC[EB/OL]. [2014-11-01]. http://www. xilinx com/products/silicon-devices/soc/zynq-7000/index. html. 被引量：1
5Xilinx, Xilinx vivado design suite tutorial: high-level syn- thesis[EB/OL]. [2014-11-01]. Available.-http://www. xil- inn com/Support/tation/User Guide. 被引量：1
6仝如强,黄玉清,田瑞娟.SURF算法及其对运动目标的检测跟踪效果[J].西南科技大学学报,2011,26(3):63-67. 被引量：13
7郭丰收.Xilinx FPGA/Zynq设计中使用HLS实现OpenCV的开发流程[J].电子产品世界,2014,21(2):50-52. 被引量：12

共引文献22

1李莉,陈心宇,高文斌.一种基于FPGA的卷积神经网络加速器实现方案[J].北京电子科技学院学报,2022,30(4):96-104. 被引量：1
2赵睿.基于Xilinx的HLS实现OpenCV的研究与设计[J].科技创新与应用,2016,6(21):56-56. 被引量：1
3刘伟,柴镇,周浩杰,吴东,柴志雷.FPGA运行时重构的延迟隐藏机制研究与实现[J].微电子学与计算机,2016,33(8):40-44.
4张波,韩俊刚.基于SDSoC的SIFT特征点检测[J].计算机技术与发展,2016,26(12):103-106.
5赵可可,柴志雷,吴东.一种基于Zynq的ROS软硬件协同计算架构设计与实现[J].微电子学与计算机,2017,34(9):87-91. 被引量：4
6陈明明,祝永新,田犁,封松林,汪辉.基于FPGA的双目实时测距算法设计[J].微电子学与计算机,2018,35(10):67-71. 被引量：4
7蒋晓东,于纪言,朱立坤,黄建森.基于硬件SURF算法的自校准双目测距系统[J].光学学报,2018,38(10):400-402. 被引量：14
8任卫欣.基于FPGA的硬件加速系统[J].电子制作,2018,26(23):73-76. 被引量：1
9何凯,梁蓓,杨发顺.基于Vivado HLS的求取特征点图像坐标的设计[J].电子科技,2018,31(4):87-90. 被引量：8
10王昆,周骅.基于深度学习的实时识别硬件系统框架设计[J].电子技术应用,2018,44(10):11-14. 被引量：3

同被引文献30

1石鑫,黄沛昱.数据选择器在数字电路中的应用[J].重庆邮电大学学报（自然科学版）,2008,20(z1):49-50. 被引量：9
2安印龙,许琪,杨银堂.并行加法器的研究与设计[J].晋中师范高等专科学校学报,2003,20(4):330-334. 被引量：9
3赵亚威,吴海波.基于FPGA的快速加法器的设计与实现[J].现代电子技术,2005,28(10):113-115. 被引量：4
4张凤蕊,朱清慧.数据选择器在数字电路中的应用[J].现代电子技术,2006,29(8):15-16. 被引量：6
5诸葛俊贵.基于Matlab模糊控制器HDL代码的自动生成[J].电子科技,2012,25(1):42-44. 被引量：8
6张慧娟.HDL Coder和HDL Verifier支持HDL代码生成和验证[J].电子设计技术 EDN CHINA,2012,19(5):20-21. 被引量：8
7陈金西.基于PCA人脸识别系统设计与实现[J].厦门理工学院学报,2013,21(3):40-44. 被引量：4
8李伟民,褚玉晓.数值比较器电路的仿真分析及应用[J].计算机光盘软件与应用,2014,17(14):289-289. 被引量：2
9梁赫西,谢虎城,王建.基于FPGA的智能车牌定位识别系统设计[J].电子技术应用,2014,40(11):32-35. 被引量：3
10张榜,来金梅.一种基于FPGA的卷积神经网络加速器的设计与实现[J].复旦学报（自然科学版）,2018,57(2):236-242. 被引量：15

引证文献3

1陈斐凡,关浩杰,田海丽.基于FaceNet算法的公交车人脸识别系统设计与实现[J].信息与电脑,2021,33(5):50-52. 被引量：2
2陈书祺,占薇,刘益巧,徐龙洁,陈鑫.MATLAB高层次综合工具性能探究[J].电子器件,2022,45(3):682-687.
3陆小慧,刘勇.一种智能视觉计算服务的调度系统和实现方法[J].广东通信技术,2023,43(7):28-33.

二级引证文献2

1移洁,侯劲,石浩德.基于轻量型网络的口罩遮挡人脸识别方法[J].电子测量技术,2023,46(6):159-165.
2王梦梅.基于YOLOv5+DeepSORT的实验室监控视频人流量检测及预警研究[J].电脑知识与技术,2023,19(29):23-25.

1赵毅,陈晓东,王刚,李永博,王书民,赵富刚.超小型AMT三分量感应式磁场传感器研制[J].物探化探计算技术,2020,42(4):527-534.
2刘焰强,戚正伟,管海兵.FPGA加速系统开发工具设计:综述与实践[J].软件学报,2020,31(10):3087-3099. 被引量：6
3黄留群.交叉型实时QC-LDPC码的设计与FPGA实现[J].电子测量技术,2020,43(14):177-181. 被引量：3
4王景隆,曹益平,杨磊.一种光场均匀性同步采集方案的FPGA实现[J].光学与光电技术,2020,18(5):16-21.
5王凡,周国清,张荣庭,刘德全.面向FPGA的连通域快速标记方法[J].计算机工程与应用,2020,56(22):230-235. 被引量：6
6娄文启,王超,宫磊,周学海.一种神经网络指令集扩展与代码映射机制[J].软件学报,2020,31(10):3074-3086. 被引量：2
7陈长,王铮,胡俊.基于SiTCP通信协议的FPGA可回滚远程固件更新方法[J].核技术,2020,43(11):38-42. 被引量：2
8鲁烨超,梁冬泰,梁丹,刘鹏翔.室外移动机器人的惯导/ 网络RTK组合自定位研究[J].机械设计与研究,2020,36(5):12-17. 被引量：2
9郑铿城,文礼朋.全球化时代下税制原则中公平与效率问题研究[J].广西职业师范学院学报,2020,32(3):1-7. 被引量：1
10任永青.维护商业银行债权的路径选择及对策——基于实现担保物权程序与强制执行公证程序的比较[J].中国信用卡,2020(11):40-44.

计算机工程与应用

2020年第22期

浏览历史

内容加载中请稍等...

高性能人脸识别加速器优化设计及FPGA实现被引量：3

参考文献2

二级参考文献7

共引文献22

同被引文献30

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

高性能人脸识别加速器优化设计及FPGA实现 被引量：3

参考文献2

二级参考文献7

共引文献22

同被引文献30

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

高性能人脸识别加速器优化设计及FPGA实现被引量：3