期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于FPGA的Faster-RCNN改进算法实现目标检测 被引量:2
1
作者 胡晶晶 《现代计算机》 2021年第30期82-87,共6页
为实现较小目标低分辨率的精确实时测量,提出了基于Faster-RCNN目标检测的改进算法,通过结合特征提取阶段的较浅层卷积神经网络的小感受野目标特征,实现目标检测的精细化。同时将模型的全连接层替换为卷积层,结合FPGA优良的并行处理性能... 为实现较小目标低分辨率的精确实时测量,提出了基于Faster-RCNN目标检测的改进算法,通过结合特征提取阶段的较浅层卷积神经网络的小感受野目标特征,实现目标检测的精细化。同时将模型的全连接层替换为卷积层,结合FPGA优良的并行处理性能,实现算法的加速处理,并在Small Object Dataset[13]数据集上进行实验验证,取得了较优的性能,与改进前的算法相比,准确度和速度都有较大提升,将提出的目标检测方法应用到实际的中小目标低分辨率识别定位场景是可行的。 展开更多
关键词 改进的Faster-Rcnn FPGA cnn加速 中小目标检测 低分辨率
下载PDF
一种低功耗高效率CNN加速器设计和实现 被引量:1
2
作者 廖裕民 《现代计算机》 2019年第24期82-87,共6页
提出一套通用低功耗高效率的CNN加速电路结构。在该CNN加速电路结构中,提出一种双寄存器组的高效率网络层配置方法,该方法相较于常见的CNN层间配置方法,可以大幅减少运算模块的等待空闲时间,从而大幅提升整体网络的运算效率。此外,提出... 提出一套通用低功耗高效率的CNN加速电路结构。在该CNN加速电路结构中,提出一种双寄存器组的高效率网络层配置方法,该方法相较于常见的CNN层间配置方法,可以大幅减少运算模块的等待空闲时间,从而大幅提升整体网络的运算效率。此外,提出一种针对稀疏矩阵进行低功耗优化的卷积运算方法,该方法针对大量CNN运算过程中数据稀疏性矩阵运算特点,设计针对性的功耗优化和运算结构。该结构可以有效地降低卷积神经网络运算过程中的运算数量和运算过程中消耗的功耗。所提出的通用低功耗高效率的CNN加速电路可以快速完成各种卷积神经网络加速处理运算,具有可重构、工作效率高、低功耗的特点。该电路结构在FPGA上完成验证,可以正确完成CNN加速运算。 展开更多
关键词 cnn加速 可重构 低功耗 硬件实现
下载PDF
基于片上系统的可配置卷积神经网络加速器的设计与实现
3
作者 张立国 杨红光 +1 位作者 金梅 申前 《高技术通讯》 CAS 北大核心 2024年第7期744-754,共11页
针对现阶段卷积神经网络(CNN)加速器的设计只能部署在单一现场可编程门阵列(FPGA)平台、不支持硬件平台升级迭代的问题,设计了一种基于片上系统(SoC)的可配置CNN加速器。该加速器具备以下2个特点:(1)在电路设计中将数据位宽、中间缓存... 针对现阶段卷积神经网络(CNN)加速器的设计只能部署在单一现场可编程门阵列(FPGA)平台、不支持硬件平台升级迭代的问题,设计了一种基于片上系统(SoC)的可配置CNN加速器。该加速器具备以下2个特点:(1)在电路设计中将数据位宽、中间缓存空间大小、乘法器阵列(MAC)并行度作为一种可选配置参数,通过调整资源使用量,使得该加速器能够适配不同FPGA硬件;(2)提出了动态数据复用的策略,通过对比数据传输过程中不同复用方式下的总参数量差异,动态地选择复用方法,以减少数据传输的等待时间,提高乘法器阵列利用率。该方案在ZCU104板卡上进行了实验,实验结果表明,当数据位宽选择8、乘法器阵列并行度选择1024、核心运算模块工作在180 MHz时,卷积运算阵列峰值吞吐量为180 GOPs,功耗为3.75 W,能效比达到47.97 GOPs·W^(-1),对于VGG16网络,其卷积层的平均乘法器阵列利用率达到84.37%。 展开更多
关键词 卷积神经网络(cnn) 现场可编程门阵列(FPGA) cnn加速 可配置 异构加速
下载PDF
面向CNN加速器的一种建模与优化设计方法研究
4
作者 祁玉琼 张明喆 +1 位作者 吴海彬 叶笑春 《高技术通讯》 CAS 2022年第8期773-788,共16页
本文提出了一种卷积神经网络(CNN)加速器性能与能耗通用评估模型(CNNGModel)。CNNGModel通过CNN加速器中不同结构的具体设计,可以估计该加速器处理不同任务时需要的时间与能耗。在硬件工程师使用硬件描述语言实现该加速器前,通过CNNGMo... 本文提出了一种卷积神经网络(CNN)加速器性能与能耗通用评估模型(CNNGModel)。CNNGModel通过CNN加速器中不同结构的具体设计,可以估计该加速器处理不同任务时需要的时间与能耗。在硬件工程师使用硬件描述语言实现该加速器前,通过CNNGModel可以提前判断当前CNN加速器的设计是否符合应用需求,从而减少后续不必要的工作量。在实验部分,首先设计并实现了3个CNN加速器;其次分析对比CNNGModel、模拟器VTA以及仿真综合3种方式得到的每个加速器在处理不同CNN时的多项结果,其中对于处理时间的估计,CNNGModel与仿真综合的差距低至3.0%,对于功率,差距则低至6.5%;最后依据CNNGModel,从能耗和性能两方面给出了多项CNN加速器优化策略。 展开更多
关键词 卷积神经网络(cnn) cnn加速 性能与能耗通用评估模型(cnnGModel) cnn加速器优化策略
下载PDF
卷积神经网络加速器中SEU的评估与加固研究
5
作者 陈凯 陈鑫 +1 位作者 张颖 张智维 《电子器件》 CAS 北大核心 2023年第2期386-390,共5页
AI加速器在空间探索应用时需要考虑到空间辐射环境下SEE引发的软错误。在AI加速器设计过程中,需要对其SEE容错能力和可靠性进行评估,本文对Lenet-5的加速器进行了SEU故障注入,提出了一种从网络结构与电路模块映射的角度进行统计评估的... AI加速器在空间探索应用时需要考虑到空间辐射环境下SEE引发的软错误。在AI加速器设计过程中,需要对其SEE容错能力和可靠性进行评估,本文对Lenet-5的加速器进行了SEU故障注入,提出了一种从网络结构与电路模块映射的角度进行统计评估的方法。实验结果证明,在神经网络中,由于AI加速器计算数据大的特点,发生在权重和特征图的SEU错误在传播过程中有可能会被池化层屏蔽掉,SEU错误发生在靠近输出的层级比靠近输入的层级更容易导致识别准确率的下降。此外,实验还发现,在加速器电路模块映射中,负责产生使能信号和地址控制信号的控制单元CTRL比处理单元PE和存储单元MEM更容易被SEU错误所影响,严重时会影响加速器的正常运行。最后本文针对评估结果,进行了STMR加固措施对CTRL进行了加固,相比于FTMR,极大地减少了面积开销。 展开更多
关键词 cnn加速 Lenet-5 单粒子效应 故障注入
下载PDF
基于FPGA的SoC接口在CNN加速器中的研究 被引量:4
6
作者 夏冰洁 王琴 《电子设计工程》 2021年第12期6-8,13,共4页
卷积神经网络计算的显著特点在于计算的数据量大、计算过程繁杂、数据流动复杂,基于这些特点,为了实现一种较为高效的卷积神经网络数据传输,设计了一条从外围存储设备中读写数据,进入计算模块的通路。以“SPIFlash-DDR-计算模块”为主... 卷积神经网络计算的显著特点在于计算的数据量大、计算过程繁杂、数据流动复杂,基于这些特点,为了实现一种较为高效的卷积神经网络数据传输,设计了一条从外围存储设备中读写数据,进入计算模块的通路。以“SPIFlash-DDR-计算模块”为主要数据通路,并引入PingPong读写操作进行数据流优化,结合Vivado仿真平台进行综合分析,最终实现了100 MHz时钟频率的数据通路,并给出了每层卷积数据大致的输入时间。 展开更多
关键词 SoC接口 DMA接口设计 cnn加速 FPGA
下载PDF
数据集与网络结构对基于FPGA的CNN加速器的抗软错误性能的影响
7
作者 折夏煜 刘玉宏 +4 位作者 王杨圣 郭刚 王海滨 王亮 韩光洁 《小型微型计算机系统》 CSCD 北大核心 2023年第11期2510-2515,共6页
卷积神经网络(Convolutional Neural Networks,CNN)凭借其优越的并行处理能力,在医疗健康、无人驾驶、人脸识别等领域得到了广泛应用.现场可编程门阵列(Field Programmable Gate Array,FPGA)的灵活性使其适于CNN的硬件实现.然而随着工... 卷积神经网络(Convolutional Neural Networks,CNN)凭借其优越的并行处理能力,在医疗健康、无人驾驶、人脸识别等领域得到了广泛应用.现场可编程门阵列(Field Programmable Gate Array,FPGA)的灵活性使其适于CNN的硬件实现.然而随着工艺尺寸减小,软错误对FPGA的影响变得不容忽视.为了更好地研究基于FPGA的CNN异构加速器的可靠性,对其在关键任务中的设计给出参考性指导,提出了不同深度和宽度的网络拓扑,并对基于其设计的加速器进行了大量故障注入实验.通过分析实验中数据集、网络深度、宽度和资源开销对软错误恢复能力的影响,得出以下结论:使用高复杂度的数据集和增加网络深度会使CNN加速器抗软错误性能降低;而网络宽度的增加虽然会增大开销,但加速器并未因此获得更高的错误率,可靠性反而有所提升. 展开更多
关键词 cnn加速 FPGA 软错误 故障注入
下载PDF
一种基于FPGA的高性能卷积神经网络加速器的设计与实现 被引量:3
8
作者 曹学成 廖湘萍 +2 位作者 李盈盈 丁永林 李炜 《智能物联技术》 2021年第5期11-17,共7页
近年来,随着人工智能技术的发展,卷积神经网络(CNN)作为深度学习技术中的常用算法,在计算机视觉、语音识别及自然语言处理等诸多领域得到了广泛的应用。可编程门阵列(FPGA)因其高并行度和高灵活性等优势常被用于CNN的加速。基于此,本文... 近年来,随着人工智能技术的发展,卷积神经网络(CNN)作为深度学习技术中的常用算法,在计算机视觉、语音识别及自然语言处理等诸多领域得到了广泛的应用。可编程门阵列(FPGA)因其高并行度和高灵活性等优势常被用于CNN的加速。基于此,本文对高性能CNN加速器的设计进行研究。文中采用DSP的级联、卷积核数据的“乒-乓”结构,以及多通道并行、特征图及卷积核数据的复用等方法,以期在资源受限的FPGA平台中为CNN的计算提供高性能加速。实验结果显示,本文的设计方法使用了较少的LUT资源,在Virtex7 VX690T上的峰值运算性能达到1.6TOPs,对VGG16网络加速时吞吐量达到1.334TOPs,具有较高的计算性能和较少的资源消耗。 展开更多
关键词 卷积神经网络 FPGA DSP级联 cnn加速
下载PDF
高性能人脸识别加速器优化设计及FPGA实现 被引量:3
9
作者 吴进 张伟华 +1 位作者 席萌 代巍 《计算机工程与应用》 CSCD 北大核心 2020年第22期48-54,共7页
计算机视觉的快速发展对嵌入式产品的系统性能要求越来越高,传统的现场可编程门阵列(Field Programmable Gate Array,FPGA)平台存在计算吞吐未能很好匹配内存带宽,通用处理器对卷积神经网络(Convolutional Neural Network,CNN)的实现效... 计算机视觉的快速发展对嵌入式产品的系统性能要求越来越高,传统的现场可编程门阵列(Field Programmable Gate Array,FPGA)平台存在计算吞吐未能很好匹配内存带宽,通用处理器对卷积神经网络(Convolutional Neural Network,CNN)的实现效率不高,未能满足性能要求等问题。针对以上设计瓶颈,使用经典的LeNet-5神经网络模型,在Xilinx ZC706嵌入式开发平台上设计了一个高性能的人脸识别神经网络加速器,在高层次综合(High Level Synthesis,HLS)工具的基础上通过存储优化、定点量化、运算优化等方法对神经网络模型进行优化改进,实现了7层的CNN加速器。实验结果表明,CNN加速器的工作频率为200 MHz,相较于CPU,加速器实现了126倍加速,相较于GPU速度提升10倍以上,并且功耗仅为2.62 W。 展开更多
关键词 cnn加速 现场可编程门阵列(FPGA) 高层次综合(HLS) 存储优化 定点量化
下载PDF
基于3D可扩展PE阵列CNN加速器的设计
10
作者 苏梓培 杨鑫 +1 位作者 陈弟虎 粟涛 《计算机工程与科学》 CSCD 北大核心 2021年第3期389-397,共9页
卷积神经网络具有参数大、运算量大的特点,当将其具体应用在移动端设备时,需要在满足帧率(速度)的前提下,尽量减少功耗与芯片面积。考虑满足现有移动端网络的兼容性、性能和面积等因素,设计一个基于3D可扩展PE阵列的CNN加速器。该加速... 卷积神经网络具有参数大、运算量大的特点,当将其具体应用在移动端设备时,需要在满足帧率(速度)的前提下,尽量减少功耗与芯片面积。考虑满足现有移动端网络的兼容性、性能和面积等因素,设计一个基于3D可扩展PE阵列的CNN加速器。该加速器兼容3×3卷积、3×3深度可分离卷积、1×1卷积和全连接层,其PE阵列能根据具体应用的网络和硬件约束,设定3个维度上最优的并行度参数,以达到更优的性能。该CNN加速器在512个PE下运行yolo-v2达到76.52 GOPS、74.72%的性能效率,在512个PE下运行mobile-net-v1达到78.05 GOPS、76.22%的性能效率。最后应用CNN加速器构建了一个实时目标检测系统,将yolo-lite网络部署至XILINX Zynq-7000 SoC ZC706硬件开发平台上,其CNN运算性能达到了53.65 fps。 展开更多
关键词 cnn加速 三维PE阵列 目标检测 SOC
下载PDF
一种2D权值固定数据流架构的研究
11
作者 程智 杨靓 +1 位作者 王硕 娄冕 《微电子学与计算机》 2021年第2期30-33,共4页
随着人工智能算法的发展,卷积神经网络(CNN)在图像、音频等方面的应用越来越广泛,CNN算法的计算量也越来越大.权值固定数据流(WS)将权值固定在寄存器中,是一种最大化利用卷积重用和filter重用的数据流.不过当前的权值固定数据流结构存... 随着人工智能算法的发展,卷积神经网络(CNN)在图像、音频等方面的应用越来越广泛,CNN算法的计算量也越来越大.权值固定数据流(WS)将权值固定在寄存器中,是一种最大化利用卷积重用和filter重用的数据流.不过当前的权值固定数据流结构存在建立流水线时间过长的问题.本文研究了一种去除PE(Process Element)行之间的FIFO,用加法器连接PE行的2D权值固定数据流结构.这种2D权值固定的数据流结构计算AlexNet时减少了近2.7倍建立流水线时间,并且能够灵活地调整卷积步长. 展开更多
关键词 卷积神经网络 权值固定 数据流 cnn加速 流水线
下载PDF
基于Winograd算法的可重构卷积神经网络加速器 被引量:3
12
作者 袁子昂 倪伟 冉敬楠 《电子科技》 2022年第12期35-42,共8页
神经网络被广泛应用于模式识别、预测分析、数据拟合等方面,是人工智能的重要基础。神经网络卷积计算量大且网络参数量多,导致了计算时间长且数据访存压力大等问题。针对以上问题,文中基于Winograd算法对卷积计算进行加速,设计了优化的... 神经网络被广泛应用于模式识别、预测分析、数据拟合等方面,是人工智能的重要基础。神经网络卷积计算量大且网络参数量多,导致了计算时间长且数据访存压力大等问题。针对以上问题,文中基于Winograd算法对卷积计算进行加速,设计了优化的硬件计算结构,提高了数据的复用效率和计算并行度。相较于滑窗卷积,文中所提加速器的计算效率提升了4.352倍。在卷积核梯度计算方面,该加速器采用优化的数据分配方式,减少了数据搬移且满足了多个PE并行计算的数据需求,与CPU相比性能提升了23倍。实验表明,该加速器在VGG-9网络模型下的卷积计算吞吐率可达192.55 GFLOPS,在训练后对CIFAR-10数据集的识别率为76.54%。 展开更多
关键词 cnn硬件加速 Winograd FPGA 可重构 卷积加速 多路并行 图像识别 VGG网络
下载PDF
基于BP算法的片上学习CNN硬件加速器 被引量:2
13
作者 王飞 张多利 +2 位作者 汪杨 王泽中 宋宇鲲 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2021年第8期1059-1064,共6页
为了适应便携式应用场合卷积神经网络(convolutional neural network,CNN)硬件加速器片上学习功能的需要,文章设计了一种多核并行运算的CNN硬件加速器,利用运算器内嵌缓存结构与运算过程分割和数据复用,减少运算器和存储器之间的数据交... 为了适应便携式应用场合卷积神经网络(convolutional neural network,CNN)硬件加速器片上学习功能的需要,文章设计了一种多核并行运算的CNN硬件加速器,利用运算器内嵌缓存结构与运算过程分割和数据复用,减少运算器和存储器之间的数据交互,提高CNN运算的并行度,提升训练和推理过程的效率。该架构包含1组二维运算阵列和激活函数运算模块,以及相应的数据分配器和指令存储器;以1个16单元的CNN加速器设计为例,验证了所设计CNN加速器架构运行多种CNN模型时的性能和运算准确性。实验结果表明,文中提出的加速器架构与Intel9400F CPU相比,最大误差为8.0437×10^(-6),识别精度下降0.63%,运行速度提高7.67倍。 展开更多
关键词 卷积神经网络(cnn)加速 片上学习 现场可编程门阵列(FPGA) TOEPLITZ矩阵
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部