嵌入式神经网络加速器及SoC芯片被引量：4

Embedded neural network accelerator and SoC chip

下载PDF

导出

摘要为了提高人工智能加速器的运算效率和功耗效率,提出了一种新的卷积神经网络(CNN)加速器结构,并实现了神经网络存算一体的方法。首先,设计出一种神经网络架构,其具有高度并行计算以及乘加器(MAC)单元高效运行的特性。其次,为了降低功耗和面积,采用了对称的静态随机存储器(SRAM)阵列和可调数据流向结构,实现多层网络在SRAM中高效计算,减少了访问外部存储器次数,降低了功耗,提高运算效率。通过中芯国际40 nm工艺,完成了系统芯片(SoC)设计、流片与测试。结果表明运算速度在500 MHz下,算力可达288 GOPS;全速运行功耗89.4 mW;面积1.514 mm^(2);算力功耗比3.22 TOPS/W;40 nm算力面积比为95.1 GOPS/mm^(2)。与已有文献的相比,算力功耗至少提升4.54%,算力面积至少提升134%,对于嵌入式场景应用较适合。 In order to improve the operation efficiency and power efficiency of artificial intelligence accelerator,proposes a new convolutional neural network(CNN)accelerator,and realizes a computing-in-memory method.Firstly,a neural network architecture is designed,which has the characteristics of highly parallel computing and efficient operation of MAC unit.Secondly,in order to reduce power consumption and die size,a symmetric SRAM array and an adjustable data flow structure are adopted to realize the efficient computation of multi-layer network in SRAM,which reduces the times of external memory access and the power consumption of SoC system.Operation efficiency is improved as well.Through the 40 nm process of SMIC,the SOC design,tape and test are completed.Results show that the computational power can reach 288 GOPS at 500 MHz,the power consumption at full speed is 89.4 MW,the area is 1.514 mm^(2),the computational power consumption ratio is 3.22 TOPS/W and the 40 nm computational power area ratio is 95.1 GOPS/mm^(2).Compared with results in other literatures,the power consumption and area of computing power increase by at least 4.54% and 134%,respectively,which is more suitable for embedded ends.

作者易冬柏陈恒何乐年 Yi Dongbai;Chen Heng;He Lenian(College of Information Science&Electronic Engineering,Zhejiang University,Hangzhou 310007,China;Zhuhai Edgeless Semiconductor Co.,Ltd.,Zhuhai 519000,China)

机构地区浙江大学信息与电子工程学院珠海零边界集成电路有限公司

出处《仪器仪表学报》 EI CAS CSCD 北大核心 2021年第7期155-163,共9页 Chinese Journal of Scientific Instrument

关键词人工智能加速器卷积神经网络边缘侧卷积神经处理器 artificial Intelligence accelerator convolutional neural networks edge convolutional neural processor

分类号 TH166 [机械工程—机械制造及自动化] TN47 [电子电信—微电子学与固体电子学]

引文网络
相关文献

参考文献8

1刘勤让,刘崇阳.利用参数稀疏性的卷积神经网络计算优化及其FPGA加速器设计[J].电子与信息学报,2018,40(6):1368-1374. 被引量：23
2岳颀,马彩文.指数弹性动量卷积神经网络及其在行人检测中的应用[J].哈尔滨工业大学学报,2017,49(5):159-164. 被引量：5
3郭继昌,郭昊,郭春乐.多尺度卷积神经网络的单幅图像去雨方法[J].哈尔滨工业大学学报,2018,50(3):185-191. 被引量：10
4徐欣,刘强,王少军.一种高度并行的卷积神经网络加速器设计方法[J].哈尔滨工业大学学报,2020,52(4):31-37. 被引量：6
5王巍,周凯利,王伊昌,王广,袁军.基于快速滤波算法的卷积神经网络加速器设计[J].电子与信息学报,2019,41(11):2578-2584. 被引量：6
6吴飞..人工智能导论[M].北京:高等教育出版社,2020.
7李鼎基,糜泽羽,吴保东,陈逊,赵永望,丁佐华,陈海波.基于跨虚拟机零下陷通信的加速器虚拟化框架[J].软件学报,2020,31(10):3019-3037. 被引量：4
8赵博雅..基于卷积神经网络的硬件加速器设计及实现研究[D].哈尔滨工业大学,2018:

二级参考文献19

1张政馗,庞为光,谢文静,吕鸣松,王义.面向实时应用的深度学习研究综述[J].软件学报,2020(9):2654-2677. 被引量：35
2田翔,周凡,陈耀武,刘莉,陈耀.基于FPGA的实时双精度浮点矩阵乘法器设计[J].浙江大学学报（工学版）,2008,42(9):1611-1615. 被引量：21
3徐波,朱青松,熊艳海.视频图像去雨技术研究前沿[J].中国科技论文,2015,10(8):916-927. 被引量：7
4刘操,郑宏,黎曦,余典.基于多通道融合HOG特征的全天候运动车辆检测方法[J].武汉大学学报（信息科学版）,2015,40(8):1048-1053. 被引量：19
5曾敏,周益龙.基于深度学习模型的行人检测研究与仿真[J].南京邮电大学学报（自然科学版）,2015,35(6):111-116. 被引量：7
6黄啸,邓良,孙浩,曾庆凯.基于硬件虚拟化的安全高效内核监控模型[J].软件学报,2016,27(2):481-494. 被引量：7
7曾毅,刘成林,谭铁牛.类脑智能研究的回顾与展望[J].计算机学报,2016,39(1):212-222. 被引量：121
8张阳.结合纹理特征和深度学习的行人检测算法[J].辽宁工程技术大学学报（自然科学版）,2016,35(2):206-210. 被引量：7
9张玉清,王晓菲,刘雪峰,刘玲.云计算环境安全综述[J].软件学报,2016,27(6):1328-1348. 被引量：186
10常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安.图像理解中的卷积神经网络[J].自动化学报,2016,42(9):1300-1312. 被引量：423

共引文献46

1王兵水,郑树彬,李立明,钟倩文.基于YOLO改进算法的轨道扣件状态检测研究[J].智能计算机与应用,2020,0(1):137-143. 被引量：8
2张庭略.基于硬件的神经网络加速[J].通讯世界,2018,0(8):77-79. 被引量：1
3任卫欣.基于FPGA的硬件加速系统[J].电子制作,2018,26(23):73-76. 被引量：1
4刘勤让,刘崇阳,周俊,王孝龙.基于线性脉动阵列的卷积神经网络计算优化与性能分析[J].网络与信息安全学报,2018,4(12):16-24. 被引量：3
5黄有山,候鸣,秦宏帅,徐玲,施刚强,胡一奇.基于神经网络的运动目标检测算法研究[J].智能物联技术,2018,1(3):16-19.
6房国志,孙康瞳.多尺度YOLO人脸年龄估计方法研究[J].计算机工程与应用,2019,55(21):135-141. 被引量：7
7郭媛,陈炜.一种复合混沌与卷积运算的图像加密算法[J].中国科技论文,2019,14(7):783-788. 被引量：3
8江鹏.基于卷积神经网络的大学生就业推荐算法研究与设计[J].数码设计,2019,8(14):23-24.
9徐欣,刘强,王少军.一种高度并行的卷积神经网络加速器设计方法[J].哈尔滨工业大学学报,2020,52(4):31-37. 被引量：6
10陈朋,陈庆清,王海霞,张怡龙,刘义鹏,梁荣华.基于改进动态配置的FPGA卷积神经网络加速器的优化方法[J].高技术通讯,2020,30(3):240-247. 被引量：3

同被引文献44

1石洪发,刘林山.人工智能视域下高职教育教学的重新审视与推进理路[J].职业技术教育,2021,42(20):44-46. 被引量：3
2卫建华,刘润利,许佳豪,尚晓峰.基于PYNQ框架的人体目标跟踪系统[J].国外电子测量技术,2021,40(12):89-95. 被引量：8
3刘兆庆,杜威达,朱雨,张毅刚.基于IP Core的PXI Express接口DMA引擎设计[J].电子测量技术,2012,35(7):43-46. 被引量：7
4朱红,李立,黄普明.星载海量遥感数据的低缓存高速传输[J].电子学报,2013,41(10):2016-2020. 被引量：5
5黄超,鲁湛,贺健,杨秀芹.基于ZYNQ的微型光谱仪高速数据采集系统设计[J].现代电子技术,2016,39(3):109-111. 被引量：10
6董选明.基于4DSP+FPGA架构数据处理板设计[J].电子技术应用,2016,42(7):29-33. 被引量：5
7尤泽樟,王先培,田猛,胡明宇,沈斌.微型宽波段光谱仪光学系统设计[J].应用光学,2017,38(5):740-745. 被引量：7
8陈旭,夏果,马艳,随快快,金施群.基于FPGA的光谱数据采集系统设计[J].电子测量技术,2019,42(14):157-162. 被引量：13
9吴艳霞,梁楷,刘颖,崔慧敏.深度学习FPGA加速器的进展与趋势[J].计算机学报,2019,42(11):2461-2480. 被引量：57
10柯君玉,王东杰,郭永祥,张梦雨,刘军航.大气环境红外甚高光谱分辨率探测仪光谱定标[J].应用光学,2020,41(4):723-729. 被引量：1

引证文献4

1申浩,王超,孙杰杰.STT-MRAM存储器抗磁场干扰能力研究[J].国外电子测量技术,2022,41(1):118-122.
2张华夏,陈青山,王艳林.基于双缓存技术实现光谱数据高速采集与处理[J].电子测量技术,2022,45(13):54-58. 被引量：3
3崔业梅,杨焕峥,徐玲.嵌入式人工智能与物联网图形化编程项目教学应用[J].实验技术与管理,2022,39(9):222-227. 被引量：8
4缪丹丹,张鹏,张鑫宇,崔敏.基于ZYNQ平台的通用卷积加速器设计[J].国外电子测量技术,2022,41(11):72-77. 被引量：3

二级引证文献14

1魏默浓,李孟委,张瑞,余甜,张卓奇,王志斌.基于FPGA的激光告警高速信号采集系统设计[J].激光杂志,2023,44(4):47-51.
2崔晓龙,边胜琴,皇甫伟,郑榕,张敏.面向智能家居应用的物联网“场景分解式”实训设计[J].实验技术与管理,2023,40(5):171-175. 被引量：1
3黄驷基,李海生,郑薇,方莹,欧城辉,覃德浩,覃颂.基于Arduino的物联网智慧农业系统教具设计[J].电子制作,2023,31(11):25-29.
4戴伟杰,王衍学,李昕鸣,王祎颜.面向FPGA部署的改进YOLO铝片表面缺陷检测系统[J].电子测量与仪器学报,2023,37(9):160-167. 被引量：1
5李娟,邱瑞康,李生权,崔荣华,张禄进.智能结构振动实验教学平台的设计与实现[J].实验室研究与探索,2023,42(11):141-145.
6翟洁,李艳豪,孟天鑫,郭卫斌,王占全,李冬冬.基于决策树和大模型的个性化计算机实验教学探索与实践[J].实验技术与管理,2023,40(12):8-15.
7陈启健,梁桃华,刘洪涛.STM32CubeMX图形化配置方式与MDK-ARM代码开发方式比较[J].信息技术与信息化,2023(12):59-62.
8陈思浩,吴黎明,彭克锦,许志杰.基于ZYNQ平台的卷积神经网络加速器设计与实现[J].自动化与信息工程,2024,45(1):30-34.
9张应兵.初中程序设计教学中图形化编程的应用研究[J].中学课程辅导（上旬刊）,2024(4):123-125.
10段雄风,张鹏.多通道高速宽动态范围膛压测试系统设计[J].舰船电子工程,2024,44(2):152-156.

1《电脑爱好者》编辑部.如何清凉一夏聊聊智能手机的散热设计[J].电脑爱好者,2021(11):4-12.
2马亚平.供需矛盾日趋激烈“芯片荒”考验安企神经--访北京欣博电子科技有限公司总经理梁敏学[J].中国安防,2021(9):53-57.
3观点[J].金融博览,2021(18):11-11.
4付进,张渺,崔铭芳,杜炘洁.基于马尔可夫过程的快速SIL验证方法研究[J].自动化仪表,2021,42(9):33-38. 被引量：1
5无.EPC-R3720边缘智能网关[J].传感器世界,2021,27(8):44-44.
6Chen Zhaoyang,Shi Lei.Development and test of an automatic height-adjusting cotton topper[J].International Journal of Agricultural and Biological Engineering,2017,10(2):44-55. 被引量：2
7韩帅,高飞,王博闻,刘云鹏,王康,吴达,张晨晨.基于Mel频谱滤波和CNN的有载分接开关可听声辨识方法[J].电网技术,2021,45(9):3609-3617. 被引量：13
8Liu Yang,Yang Haishun,Li Yanfeng,Yan Haijun,Li Jiusheng.Modeling the effects of plastic film mulching on irrigated maize yield and water use efficiency in sub-humid Northeast China[J].International Journal of Agricultural and Biological Engineering,2017,10(5):69-84. 被引量：3

仪器仪表学报

2021年第7期

浏览历史

内容加载中请稍等...

嵌入式神经网络加速器及SoC芯片被引量：4

参考文献8

二级参考文献19

共引文献46

同被引文献44

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

嵌入式神经网络加速器及SoC芯片 被引量：4

参考文献8

二级参考文献19

共引文献46

同被引文献44

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

嵌入式神经网络加速器及SoC芯片被引量：4