期刊文献+
共找到415篇文章
< 1 2 21 >
每页显示 20 50 100
深度学习FPGA加速器的进展与趋势 被引量:57
1
作者 吴艳霞 梁楷 +1 位作者 刘颖 崔慧敏 《计算机学报》 EI CSCD 北大核心 2019年第11期2461-2480,共20页
随着大数据时代的来临,深度学习技术在从海量数据中提取有价值信息方面发挥着重要作用,已被广泛应用于计算机视觉、语音识别及自然语言处理等领域.本文从深度学习算法的特点和发展趋势出发,分析FPGA加速深度学习的优势以及技术挑战;其次... 随着大数据时代的来临,深度学习技术在从海量数据中提取有价值信息方面发挥着重要作用,已被广泛应用于计算机视觉、语音识别及自然语言处理等领域.本文从深度学习算法的特点和发展趋势出发,分析FPGA加速深度学习的优势以及技术挑战;其次,本文从SoC FPGA和标准FPGA两个方面介绍了CPU-FPGA平台,主要对比分析了两种模型在CPU和FPGA之间数据交互上的区别;接下来,在介绍FPGA加速深度学习算法开发环境的基础上,重点从硬件结构、设计思路和优化策略这三个方面详细介绍了采用FPGA加速卷积神经网络的设计方案;最后展望了FPGA加速深度学习算法相关研究工作的发展. 展开更多
关键词 深度学习 神经网络 CPU-FPGA 硬件加速 FPGA
下载PDF
基于Zynq7000 FPGA异构平台的YOLOv2加速器设计与实现 被引量:19
2
作者 陈辰 柴志雷 夏珺 《计算机科学与探索》 CSCD 北大核心 2019年第10期1677-1693,共17页
当前,卷积神经网络已在图像分类、目标检测等计算机视觉领域被广泛应用。然而,在前向推断阶段,许多实际应用往往具有低延时和严格的功耗限制。针对该问题,采用参数重排序、多通道数据传输等优化策略,设计并实现了一种基于FPGA的SIMD卷... 当前,卷积神经网络已在图像分类、目标检测等计算机视觉领域被广泛应用。然而,在前向推断阶段,许多实际应用往往具有低延时和严格的功耗限制。针对该问题,采用参数重排序、多通道数据传输等优化策略,设计并实现了一种基于FPGA的SIMD卷积神经网络加速器架构。以YOLOv2目标检测算法为例,介绍了将卷积神经网络模型映射到FPGA上的完整流程;对加速器的性能和资源耗费进行深入分析和建模,将实际传输延时考虑在内,缩小了加速器理论时延与实际时延的误差;改进了加速器架构中的输入和输出模块,有效提高了总线带宽的实际利用率。实验结果表明,在Zedboard上获得了30.15 GOP/s的性能,与Xeon E5-2620 v4 CPU相比,能效是其120.4倍,性能是其7.3倍;与双核ARM-A9 CPU相比,能效是其86倍,性能是其112.9倍。 展开更多
关键词 硬件加速器 现场可编程门阵列(FPGA) 卷积神经网络(CNN) 高层次综合
下载PDF
一种基于FPGA的高斯随机数生成器的设计与实现 被引量:15
3
作者 谷晓忱 张民选 《计算机学报》 EI CSCD 北大核心 2011年第1期165-173,共9页
基于FPGA的高斯随机数生成器需要满足可重构、高吞吐率和高硬件资源使用效率等要求.文中提出了一种易于硬件实现的状态转换逻辑结构,并给出了均匀分布随机数周期和输出位宽的配置方法和配置原则.文中详细分析了应用"最值分析法&qu... 基于FPGA的高斯随机数生成器需要满足可重构、高吞吐率和高硬件资源使用效率等要求.文中提出了一种易于硬件实现的状态转换逻辑结构,并给出了均匀分布随机数周期和输出位宽的配置方法和配置原则.文中详细分析了应用"最值分析法"和"静态误差分析法"求解Box Muller算法实现过程中各操作数位宽的具体过程.硬件实现结果在Xilinx Vertex 5上的工作速度为491 MHz,吞吐率为9.82×108samples/second,硬件资源使用效率为2.085×106samples/second/slice.文中作者使用DIEHARD测试集、χ2和K-S方法对产生的随机数质量进行了检测,文中给出了结果. 展开更多
关键词 现场可编程门阵列 硬件加速器 高斯随机数产生 均匀分布随机数产生 可重构计算
下载PDF
FPGA加速深度学习综述 被引量:11
4
作者 刘腾达 朱君文 张一闻 《计算机科学与探索》 CSCD 北大核心 2021年第11期2093-2104,共12页
近年来,由于互联网的高速发展和大数据时代的来临,人工智能随之大热,而推动人工智能迅猛发展的正是深度学习的崛起。大数据时代需要迫切解决的问题是如何将极为复杂繁多的数据进行有效的分析使用,进而充分挖掘利用数据的价值并造福人类... 近年来,由于互联网的高速发展和大数据时代的来临,人工智能随之大热,而推动人工智能迅猛发展的正是深度学习的崛起。大数据时代需要迫切解决的问题是如何将极为复杂繁多的数据进行有效的分析使用,进而充分挖掘利用数据的价值并造福人类。深度学习作为一种实现机器学习的技术,正是解决这一问题的重要法宝,它在处理数据过程中发挥着重要作用并且改变了传统的机器学习方法,已被广泛应用于语音识别、图像识别和自然语言处理等研究领域。如何有效加速深度学习的计算能力一直是科研研究的重点。FPGA凭借其强大的并行计算能力和低功耗等优势成为GPU在加速深度学习领域的有力竞争者。从深度学习的几种典型模型出发,在FPGA加速技术现有特点的基础上从针对神经网络模型的加速器、针对具体问题的加速器、针对优化策略的加速器和针对硬件模板的加速器四方面概括总结了FPGA加速深度学习的研究现状,然后对比了不同加速技术和模型的性能,最后对未来可能发展的方向进行了展望。 展开更多
关键词 深度学习 神经网络 现场可编程逻辑门阵列(FPGA) 硬件加速
下载PDF
基于FPGA的高精度科学计算加速器研究 被引量:10
5
作者 雷元武 窦勇 郭松 《计算机学报》 EI CSCD 北大核心 2012年第1期112-122,共11页
探索了FPGA平台加速高精度科学计算应用的能力和灵活性.首先,研究科学计算中最常用的操作——向量内积,提出基于定点操作的精确向量内积算法.以IEEE 754-2008标准的四精度(Quadruple Precision)浮点算术为例,在FPGA平台上设计了一个基... 探索了FPGA平台加速高精度科学计算应用的能力和灵活性.首先,研究科学计算中最常用的操作——向量内积,提出基于定点操作的精确向量内积算法.以IEEE 754-2008标准的四精度(Quadruple Precision)浮点算术为例,在FPGA平台上设计了一个基于全展开方法的全流水四精度浮点乘累加单元(QPMAC):提出两级存储策略精确存储乘累加和;采用保留进位累加策略减少定点加法器位宽、简化进位处理、优化关键路径;引入累加和划分策略,实现流水吞吐率.最后,在XC5VLX330FPGA芯片上设计一个LU分解和MGS-QR分解加速器原型来验证QPMAC的性能.实验结果表明,与运行在Intel四核处理器上的基于OpenMP的并行算法相比,集成4个QP-MAC单元的加速器能获得42倍到97倍的性能提升,并且能获得更高结果精度和更低能量消耗. 展开更多
关键词 四精度浮点算术 LU分解 MGS-QR分解 FPGA 硬件加速器 E量级计算
下载PDF
基于FPGA的深度学习目标检测系统的设计与实现 被引量:10
6
作者 陈辰 严伟 +1 位作者 夏珺 柴志雷 《电子技术应用》 2019年第8期40-43,47,共5页
针对当前深度学习目标检测算法计算复杂度高和内存需求大等问题,设计并实现了一种基于FPGA的深度学习目标检测系统。设计对应YOLOv2-Tiny目标检测算法的硬件加速器,对加速器各模块的处理时延建模,给出卷积计算模块的详细设计。实验结果... 针对当前深度学习目标检测算法计算复杂度高和内存需求大等问题,设计并实现了一种基于FPGA的深度学习目标检测系统。设计对应YOLOv2-Tiny目标检测算法的硬件加速器,对加速器各模块的处理时延建模,给出卷积计算模块的详细设计。实验结果表明,与CPU相比,CPU+FPGA的异构系统是双核ARM-A9能效的67.5倍,Xeon的94.6倍;速度是双核ARM-A9的84.4倍,Xeon的5.5倍左右。并且,当前设计在性能上超过之前的工作。 展开更多
关键词 深度学习 目标检测 FPGA 硬件加速器
下载PDF
CPU验证平台的研究与实现 被引量:5
7
作者 胡建国 曾献君 +1 位作者 陈亮 邢座程 《微电子学》 CAS CSCD 北大核心 2006年第1期49-51,55,共4页
针对CPU设计的特点,建立完善的验证平台对CPU的验证至关重要。介绍了CPU验证平台一般形式和特点,提出了面向高性能CPU功能验证的全芯片验证平台的结构和构造方法,阐述了基于硬件加速器的CPU验证平台的实现。该验证平台已成功验证了自主... 针对CPU设计的特点,建立完善的验证平台对CPU的验证至关重要。介绍了CPU验证平台一般形式和特点,提出了面向高性能CPU功能验证的全芯片验证平台的结构和构造方法,阐述了基于硬件加速器的CPU验证平台的实现。该验证平台已成功验证了自主设计的CPU的正确性和兼容性。 展开更多
关键词 CPU 验证平台 功能验证 硬件加速器
下载PDF
基于嵌入式设备应用的CNN加速器的设计研究 被引量:7
8
作者 王红亮 程佳风 《电子器件》 CAS 北大核心 2021年第4期797-801,共5页
基于高层次综合工具设计了卷积加速电路,并根据加速电路的特性提出了卷积分解的优化方法,实现了一个适用于各种网络结构的高性能的卷积神经网络加速器。最后,选取Xilinx公司的PYNQ-Z2开发板对设计好的CNN加速器进行性能检测。测试结果表... 基于高层次综合工具设计了卷积加速电路,并根据加速电路的特性提出了卷积分解的优化方法,实现了一个适用于各种网络结构的高性能的卷积神经网络加速器。最后,选取Xilinx公司的PYNQ-Z2开发板对设计好的CNN加速器进行性能检测。测试结果表明,所设计的CNN加速器在运行手写数字识别网络时的计算速度能够达到37.63 frame/s,相对于PYNQ-Z2开发板上的嵌入式ARM处理器实现了42.1倍的加速效果。在计算精度上,硬件与软件的计算精度基本保持一致,都达到了98%以上的识别准确率。加速器运行手写数字识别网络时的平均功耗约为1.825 W,功耗效率为20.62 frames/J,完全满足低功耗设计要求。 展开更多
关键词 卷积神经网络 硬件加速器 人工智能 PYNQ-Z2
下载PDF
支持抑制型脉冲神经网络的硬件加速器
9
作者 钱平 韩睿 +4 位作者 谢凌东 罗旺 徐华荣 李松松 郑振东 《计算机工程与应用》 CSCD 北大核心 2024年第8期338-347,共10页
现有脉冲神经网络加速器的设计过多关注于硬件层面的功能完备性,缺少算法层面的相关协同优化以保证硬件计算效率。此外,传统的事件驱动型脉冲神经网络加速器没有考虑到脉冲神经元模型中普遍存在的脉冲抖动现象,因此不能实现对抑制型脉... 现有脉冲神经网络加速器的设计过多关注于硬件层面的功能完备性,缺少算法层面的相关协同优化以保证硬件计算效率。此外,传统的事件驱动型脉冲神经网络加速器没有考虑到脉冲神经元模型中普遍存在的脉冲抖动现象,因此不能实现对抑制型脉冲神经网络的支持。为解决上述问题,采用软硬件结合的方式,提出了一种支持抑制型脉冲神经网络加速器的设计方法。软件优化层面通过对脉冲神经网络计算冗余性的分析,提出了相应的近似计算方法以大幅降低脉冲神经网络的计算量;硬件设计层面提出了解决脉冲抖动问题的计算模块,并在此基础上设计了与近似计算方法相适应的并行计算结构。为验证设计的合理性,在XilinxZC706 FPGA上部署了加速器原型FEAS。在主流数据集上的测试结果显示,相较以往脉冲神经网络的加速器部署,FEAS在保持97.54%原有模型精度的情况下获得超过一个数量级的性能提升。 展开更多
关键词 脉冲神经网络 事件驱动 抑制型网络 近似计算 硬件加速器
下载PDF
基于VIP与SystemVerilog的硬件加速器仿真模型设计
10
作者 杜越 吴益然 郑杰良 《计算机与网络》 2024年第4期307-313,共7页
随着片上系统(System on Chip,SoC)芯片规模与功能复杂度的膨胀,硬件加速器已成为大规模SoC的重要组成部分。为了缩短产品交付时间,有必要开发硬件加速器仿真模型,以在SoC设计初期支撑架构的探索与评估。在对硬件加速器的特点与建模需... 随着片上系统(System on Chip,SoC)芯片规模与功能复杂度的膨胀,硬件加速器已成为大规模SoC的重要组成部分。为了缩短产品交付时间,有必要开发硬件加速器仿真模型,以在SoC设计初期支撑架构的探索与评估。在对硬件加速器的特点与建模需求进行分析的基础上,提出一种基于AXI验证IP(Verification IP,VIP)、SystemVerilog信箱和旗语的硬件加速器建模方法。该方法支持完备的总线协议特性,同时支持多个处理引擎的并行处理与乱序输出。以实际SoC项目中的通信基带加速器为例,对提出的建模方法进行介绍,并进行相应的系统级仿真与分析。所提出的建模方法可实现对硬件加速器总线行为的高效建模,能够有力支撑SoC验证以及系统架构评估,缩短项目的开发周期。 展开更多
关键词 硬件加速器 仿真模型 片上系统 信箱 旗语 SYSTEMVERILOG 验证IP
下载PDF
基于FPGA的稀疏卷积神经网络加速器设计
11
作者 李宁 肖昊 《电子测量技术》 北大核心 2024年第5期1-8,共8页
剪枝是一种减少卷积神经网络权重和计算量的有效方法,为CNN的高效部署提供了解决方案。但是,剪枝后的稀疏CNN中权重的不规则分布使硬件计算单元之间的计算负载各不相同,降低了硬件的计算效率。文章提出一种细粒度的CNN模型剪枝方法,该... 剪枝是一种减少卷积神经网络权重和计算量的有效方法,为CNN的高效部署提供了解决方案。但是,剪枝后的稀疏CNN中权重的不规则分布使硬件计算单元之间的计算负载各不相同,降低了硬件的计算效率。文章提出一种细粒度的CNN模型剪枝方法,该方法根据硬件加速器的架构将整体权重分成若干个局部权重组,并分别对每一组局部权重进行独立剪枝,得到的稀疏CNN在加速器上实现了计算负载平衡。此外,设计一种具有高效PE结构和稀疏度可配置的稀疏CNN加速器并在FPGA上实现,该加速器的高效PE结构提升了乘法器的吞吐率,同时可配置性使其可灵活地适应不同稀疏度的CNN计算。实验结果表明,提出的剪枝算法可将CNN的权重参数减少50%~70%,同时精度损失不到3%。相比于密集型加速器,提出的加速器最高可实现3.65倍的加速比;与其他的稀疏型加速器研究相比,本研究的加速器在硬件效率上提升28%~167%。 展开更多
关键词 卷积神经网络 硬件加速器 稀疏计算 FPGA
下载PDF
规则压缩模型和灵活架构的Transformer加速器设计
12
作者 姜小波 邓晗珂 +1 位作者 莫志杰 黎红源 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第3期1079-1088,共10页
基于注意力机制的Transformer模型具有优越的性能,设计专用的Transformer加速器能大幅提高推理性能以及降低推理功耗。Transformer模型复杂性包括数量上和结构上的复杂性,其中结构上的复杂性导致不规则模型和规则硬件之间的失配,降低了... 基于注意力机制的Transformer模型具有优越的性能,设计专用的Transformer加速器能大幅提高推理性能以及降低推理功耗。Transformer模型复杂性包括数量上和结构上的复杂性,其中结构上的复杂性导致不规则模型和规则硬件之间的失配,降低了模型映射到硬件的效率。目前的加速器研究主要聚焦在解决模型数量上的复杂性,但对如何解决模型结构上的复杂性研究得不多。该文首先提出规则压缩模型,降低模型的结构复杂度,提高模型和硬件的匹配度,提高模型映射到硬件的效率。接着提出一种硬件友好的模型压缩方法,采用规则的偏移对角权重剪枝方案和简化硬件量化推理逻辑。此外,提出一个高效灵活的硬件架构,包括一种以块为单元的权重固定脉动运算阵列,同时包括一种准分布的存储架构。该架构可以高效实现算法到运算阵列的映射,同时实现高效的数据存储效率和降低数据移动。实验结果表明,该文工作在性能损失极小的情况下实现93.75%的压缩率,在FPGA上实现的加速器可以高效处理压缩后的Transformer模型,相比于中央处理器(CPU)和图形处理器(GPU)能效分别提高了12.45倍和4.17倍。 展开更多
关键词 自然语音处理 TRANSFORMER 模型压缩 硬件加速器 机器翻译
下载PDF
基于FPGA的卷积神经网络和视觉Transformer通用加速器
13
作者 李天阳 张帆 +2 位作者 王松 曹伟 陈立 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第6期2663-2672,共10页
针对计算机视觉领域中基于现场可编程逻辑门阵列(FPGA)的传统卷积神经网(CNN)络加速器不适配视觉Transformer网络的问题,该文提出一种面向卷积神经网络和Transformer的通用FPGA加速器。首先,根据卷积和注意力机制的计算特征,提出一种面... 针对计算机视觉领域中基于现场可编程逻辑门阵列(FPGA)的传统卷积神经网(CNN)络加速器不适配视觉Transformer网络的问题,该文提出一种面向卷积神经网络和Transformer的通用FPGA加速器。首先,根据卷积和注意力机制的计算特征,提出一种面向FPGA的通用计算映射方法;其次,提出一种非线性与归一化加速单元,为计算机视觉神经网络模型中的多种非线性和归一化操作提供加速支持;然后,在Xilinx XCVU37P FPGA上实现了加速器设计。实验结果表明,所提出的非线性与归一化加速单元在提高吞吐量的同时仅造成很小的精度损失,ResNet-50和ViT-B/16在所提FPGA加速器上的性能分别达到了589.94 GOPS和564.76 GOPS。与GPU实现相比,能效比分别提高了5.19倍和7.17倍;与其他基于FPGA的大规模加速器设计相比,能效比有明显提高,同时计算效率较对比FPGA加速器提高了8.02%~177.53%。 展开更多
关键词 计算机视觉 卷积神经网络 TRANSFORMER FPGA 硬件加速器
下载PDF
机载超轻量化卷积神经网络加速器设计
14
作者 石添介 刘飞阳 张晓 《航空工程进展》 CSCD 2024年第2期188-194,共7页
卷积神经网络庞大的权重参数和复杂的网络层结构,使其计算复杂度过高,所需的计算资源和存储资源也随着网络层数的增加而快速增长,难以在资源和功耗有严苛要求的机载嵌入式计算系统中部署,制约了机载嵌入式计算系统朝着高智能化发展。针... 卷积神经网络庞大的权重参数和复杂的网络层结构,使其计算复杂度过高,所需的计算资源和存储资源也随着网络层数的增加而快速增长,难以在资源和功耗有严苛要求的机载嵌入式计算系统中部署,制约了机载嵌入式计算系统朝着高智能化发展。针对资源受限的机载嵌入式计算系统对超轻量化智能计算的需求,提出一套全流程的卷积神经网络模型优化加速方法,在对算法模型进行超轻量化处理后,通过组合加速算子搭建卷积神经网络加速器,并基于FPGA开展网络模型推理过程的功能验证。结果证明:本文搭建的加速器能够显著降低硬件资源占用率,获得良好的算法加速比,对机载嵌入式智能计算系统设计具有重要意义。 展开更多
关键词 嵌入式计算系统 卷积神经网络 轻量化 硬件加速器 FPGA验证
下载PDF
面向卷积神经网络的高并行度FPGA加速器设计 被引量:6
15
作者 王晓峰 蒋彭龙 +1 位作者 周辉 赵雄波 《计算机应用》 CSCD 北大核心 2021年第3期812-819,共8页
大多数基于卷积神经网络(CNN)的算法都是计算密集型和存储密集型的,很难应用于具有低功耗要求的航天、移动机器人、智能手机等嵌入式领域。针对这一问题,提出一种面向CNN的高并行度现场可编程逻辑门阵列(FPGA)加速器。首先,比较研究CNN... 大多数基于卷积神经网络(CNN)的算法都是计算密集型和存储密集型的,很难应用于具有低功耗要求的航天、移动机器人、智能手机等嵌入式领域。针对这一问题,提出一种面向CNN的高并行度现场可编程逻辑门阵列(FPGA)加速器。首先,比较研究CNN算法中可用于FPGA加速的4类并行度;然后,提出多通道卷积旋转寄存流水(MCRP)结构,简洁有效地利用了CNN算法的卷积核内并行;最后,采用输入输出通道并行+卷积核内并行的方案提出一种基于MCRP结构的高并行度CNN加速器架构,并将其部署到XILINX的XCZU9EG芯片上,在充分利用片上数字信号处理器(DPS)资源的情况下,峰值算力达到2 304 GOPS。以SSD-300算法为测试对象,该CNN加速器的实际算力为1 830.33 GOPS,硬件利用率达79.44%。实验结果表明,MCRP结构可有效提高CNN加速器的算力,基于MCRP结构的CNN加速器可基本满足嵌入式领域大部分应用的算力需求。 展开更多
关键词 卷积神经网络 高性能 硬件加速器 并行度 现场可编程逻辑门阵列
下载PDF
面向卷积神经网络的FPGA加速器架构设计 被引量:6
16
作者 李炳剑 秦国轩 +1 位作者 朱少杰 裴智慧 《计算机科学与探索》 CSCD 北大核心 2020年第3期437-448,共12页
随着人工智能的快速发展,卷积神经网络(CNN)在很多领域发挥着越来越重要的作用。分析研究了现有卷积神经网络模型,设计了一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在卷积运算中四个维度方向实现了并行化计算;提出了参数化... 随着人工智能的快速发展,卷积神经网络(CNN)在很多领域发挥着越来越重要的作用。分析研究了现有卷积神经网络模型,设计了一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在卷积运算中四个维度方向实现了并行化计算;提出了参数化架构设计,在三种参数条件下,单个时钟周期分别能够完成512、1024、2048次乘累加;设计了片内双缓存结构,减少片外存储访问的同时实现了有效的数据复用;使用流水线实现了完整的神经网络单层运算过程,提升了运算效率。与CPU、GPU以及相关FPGA加速方案进行了对比实验,实验结果表明,所提出的设计的计算速度达到了560.2 GOP/s,为i7-6850K CPU的8.9倍。同时,其计算的性能功耗比达到了NVDIA GTX 1080Ti GPU的3.0倍,与相关研究相比,所设计的加速器在主流CNN网络的计算上实现了较高的性能功耗比,同时不乏通用性。 展开更多
关键词 硬件加速器 现场可编程门阵列(FPGA) 卷积神经网络(CNN) 参数化架构 流水线
下载PDF
基于FPGA的深度可分离卷积加速器研究
17
作者 画芊昊 李博 杜宸罡 《计算机测量与控制》 2024年第5期267-273,共7页
设计了一种基于FPGA的低功耗深度可分离卷积加速核;根据PW卷积和DW卷积计算中的共性,采用一种固定乘法阵列通过改变特征和权重输入数据流的方式实现两种卷积的计算结构,最大化DSP的利用率;针对8位非对称量化中符号位可能会溢出的问题,... 设计了一种基于FPGA的低功耗深度可分离卷积加速核;根据PW卷积和DW卷积计算中的共性,采用一种固定乘法阵列通过改变特征和权重输入数据流的方式实现两种卷积的计算结构,最大化DSP的利用率;针对8位非对称量化中符号位可能会溢出的问题,采用符号位单独处理的方法重新封装了双乘法器结构;通过层内7级流水结构保证每个周期数据处理的并行度;在Zynq UltraScale+系列FPGA上成功部署了加速结构;经实验测试,提出的加速结构在提高网络推理速度的同时降低了片上资源的依赖度和整体功耗,原生MobilenetV2在所提FPGA加速器上的平均吞吐率高达130.6 GOPS且整体功耗只有4.1 W,满足实时边缘计算的要求;相比其他硬件平台,能效比有明显提升;与FPGA上的同类型加速器相比,在性能密度(GOPS/LUT)、功率效率(GOPS/W)和DSP效率(GOPS/DSP)上均有优势。 展开更多
关键词 FPGA 硬件加速器 卷积神经网络 非对称量化 Mobilenet
下载PDF
一种基于FPGA的深度神经网络硬件加速器系统
18
作者 张雨豪 叶有时 +3 位作者 彭宇 张德正 阎之泓 王东 《空间控制技术与应用》 CSCD 北大核心 2024年第2期83-92,共10页
深度神经网络目标检测算法计算复杂度高、模型复杂,对硬件平台的算力有很高需求,针对以上问题,设计了一种基于现场可编程门阵列(field programmable gate array,FPGA)芯片的硬件专用加速器.通过软硬件协同方法,设计具有高并行度及深度... 深度神经网络目标检测算法计算复杂度高、模型复杂,对硬件平台的算力有很高需求,针对以上问题,设计了一种基于现场可编程门阵列(field programmable gate array,FPGA)芯片的硬件专用加速器.通过软硬件协同方法,设计具有高并行度及深度流水的片上架构,并使用模型量化、结构优化等方法对神经网络模型进行优化.在所设计的加速器系统中进行神经网络目标检测算法的部署,实现了高数据吞吐率、低功率消耗的FPGA神经网络计算,且模型精度损失低于1.2%,为在低能耗嵌入式平台上部署深度神经网络目标检测算法提供了有效解决方案,可广泛应用于机载、星载智能计算设备. 展开更多
关键词 FPGA 神经网络 硬件加速器 目标检测
下载PDF
面向微控制器的卷积神经网络加速器设计
19
作者 乔建华 吴言 +1 位作者 栗亚宁 雷光政 《电子器件》 CAS 2024年第1期48-54,共7页
针对目前嵌入式微控制器的性能难以满足实时图像识别任务的问题,提出一种适用于微控制器的卷积神经网络加速器。该加速器在卷积层设计了无阻塞的行并行乘法-加法树结构,获得了更高的硬件利用率;为了满足行并行的数据吞吐量,设计了卷积专... 针对目前嵌入式微控制器的性能难以满足实时图像识别任务的问题,提出一种适用于微控制器的卷积神经网络加速器。该加速器在卷积层设计了无阻塞的行并行乘法-加法树结构,获得了更高的硬件利用率;为了满足行并行的数据吞吐量,设计了卷积专用SRAM存储器。加速器将池化和激活单元融入数据通路,有效减少数据重复存取带来的时间开销。FPGA原型验证表明加速器的性能达到92.2 GOPS@100 MHz;基于TSMC 130 nm工艺节点进行逻辑综合,加速器的动态功耗为33 mW,面积为90 764.2μm^(2),能效比高达2 793 GOPS/W,比FPGA加速器方案提高了约100倍。该加速器低功耗、低成本的特性,有利于实现嵌入式系统在目标检测、人脸识别等机器视觉领域的广泛应用。 展开更多
关键词 卷积神经网络 并行计算 流水线 硬件加速器 专用集成电路
下载PDF
面向小型边缘计算的深度可分离神经网络模型与硬件加速器设计
20
作者 孟群康 李强 +5 位作者 赵峰 庄莉 王秋琳 陈锴 罗军 常胜 《计算机应用研究》 CSCD 北大核心 2024年第3期861-865,879,共6页
神经网络参数量和运算量的扩大,使得在资源有限的硬件平台上流水线部署神经网络变得更加困难。基于此,提出了一种解决深度学习模型在小型边缘计算平台上部署困难的方法。该方法基于应用于自定义数据集的深度可分离网络模型,在软件端使... 神经网络参数量和运算量的扩大,使得在资源有限的硬件平台上流水线部署神经网络变得更加困难。基于此,提出了一种解决深度学习模型在小型边缘计算平台上部署困难的方法。该方法基于应用于自定义数据集的深度可分离网络模型,在软件端使用迁移学习、敏感度分析和剪枝量化的步骤进行模型压缩,在硬件端分析并设计了适用于有限资源FPGA的流水线硬件加速器。实验结果表明,经过软件端的网络压缩优化,这种量化部署模型具有94.60%的高准确率,16.64 M的较低的单次推理定点数运算量和0.079 M的参数量。此外,经过硬件资源优化后,在国产FPGA开发板上进行流水线部署,推理帧率达到了366 FPS,计算能效为8.57 GOPS/W。这一研究提供了一种在小型边缘计算平台上高性能部署深度学习模型的解决方案。 展开更多
关键词 边缘计算 深度可分离卷积 流水线部署 硬件加速器 FPGA
下载PDF
上一页 1 2 21 下一页 到第
使用帮助 返回顶部