期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
嵌入式神经网络加速器及SoC芯片 被引量:7
1
作者 易冬柏 陈恒 何乐年 《仪器仪表学报》 EI CAS CSCD 北大核心 2021年第7期155-163,共9页
为了提高人工智能加速器的运算效率和功耗效率,提出了一种新的卷积神经网络(CNN)加速器结构,并实现了神经网络存算一体的方法。首先,设计出一种神经网络架构,其具有高度并行计算以及乘加器(MAC)单元高效运行的特性。其次,为了降低功耗... 为了提高人工智能加速器的运算效率和功耗效率,提出了一种新的卷积神经网络(CNN)加速器结构,并实现了神经网络存算一体的方法。首先,设计出一种神经网络架构,其具有高度并行计算以及乘加器(MAC)单元高效运行的特性。其次,为了降低功耗和面积,采用了对称的静态随机存储器(SRAM)阵列和可调数据流向结构,实现多层网络在SRAM中高效计算,减少了访问外部存储器次数,降低了功耗,提高运算效率。通过中芯国际40 nm工艺,完成了系统芯片(SoC)设计、流片与测试。结果表明运算速度在500 MHz下,算力可达288 GOPS;全速运行功耗89.4 mW;面积1.514 mm^(2);算力功耗比3.22 TOPS/W;40 nm算力面积比为95.1 GOPS/mm^(2)。与已有文献的相比,算力功耗至少提升4.54%,算力面积至少提升134%,对于嵌入式场景应用较适合。 展开更多
关键词 人工智能 加速器 卷积神经网络 边缘侧 卷积神经处理器
下载PDF
基于FPGA的卷积神经网络设计与实现 被引量:7
2
作者 蒋林 王喜娟 +2 位作者 刘镇弢 谢晓燕 衡茜 《微电子学与计算机》 CSCD 北大核心 2018年第8期132-136,共5页
卷积神经网络(Convolutional Neural Network,CNN)在各种计算机视觉应用中取得了巨大成功.本文研究了卷积神经网络的并行结构,基于网络计算的多种并行特征,提出了CNN前向传播过程在FPGA并行计算的架构.实验结果表明,在110MHz的工作频率... 卷积神经网络(Convolutional Neural Network,CNN)在各种计算机视觉应用中取得了巨大成功.本文研究了卷积神经网络的并行结构,基于网络计算的多种并行特征,提出了CNN前向传播过程在FPGA并行计算的架构.实验结果表明,在110MHz的工作频率下,该结构可使FPGA的峰值运算速度达到0.48GOP/s,相较ARM Mali-T628GPU平台实现23.5倍的加速比. 展开更多
关键词 卷积神经网络 现场可编程门阵列 阵列处理器 并行性
下载PDF
面向图像识别的深度学习VLIW处理器设计 被引量:2
3
作者 李林 张盛兵 吴鹃 《西北工业大学学报》 EI CAS CSCD 北大核心 2020年第1期216-224,共9页
为了适应航空航天领域高分辨率图像识别和本地化高效处理的需求,解决现有研究中计算并行性不足的问题,在对深度卷积神经网络模型各层计算优化的基础上,设计了一款可扩展的多处理器簇的深度学习超长指令字(VLIW)处理器体系结构。设计中... 为了适应航空航天领域高分辨率图像识别和本地化高效处理的需求,解决现有研究中计算并行性不足的问题,在对深度卷积神经网络模型各层计算优化的基础上,设计了一款可扩展的多处理器簇的深度学习超长指令字(VLIW)处理器体系结构。设计中采用了特征图和神经元的并行处理,基于VLIW的指令级并行,多处理器簇的数据级并行以及流水线技术。FPGA原型系统测试结果表明,该处理器可有效完成图像分类和目标检测应用;当工作频率为200 MHz时,处理器的峰值性能可以达到128 GOP/s;针对选取的测试基准,该处理器的计算速度至少是CPU的12倍,是GPU的7倍;对比软件框架运行结果,处理器的测试精度的平均误差不超过1%。 展开更多
关键词 图像识别 深度学习 卷积神经网络 超长指令字(VLIW) 处理器 可扩展
下载PDF
基于FPGA的卷积神经网络动态加载SOC设计 被引量:2
4
作者 许永全 冯玉田 《计算机技术与发展》 2020年第7期1-5,共5页
机器视觉是人工智能与现代工业应用结合的结果,通过机器视觉将目标物品转换成具有特定含义的数字信号,进而根据信号的信息测试目标物品并控制现场设备的动作,实现使用机器代替人的目标。文中设计了一种基于FPGA的SOC软硬件结合的系统,... 机器视觉是人工智能与现代工业应用结合的结果,通过机器视觉将目标物品转换成具有特定含义的数字信号,进而根据信号的信息测试目标物品并控制现场设备的动作,实现使用机器代替人的目标。文中设计了一种基于FPGA的SOC软硬件结合的系统,解决了以卷积神经网络为基础的机器学习算法在实际工业应用的具体问题。该系统在FPGA内部例化了双核MicroBlaze处理器,集成了DLA(deep learning accelerator)卷积神经网络硬件算法核心,能够实时高速采集图像和实时分析处理;同时还设计了一套软件系统,帮助算法工程师实现自己的网络模型。针对复杂多变的现场应用,设计了一套支持网络动态加载的系统环境,提高了在机器视觉领域的适用性,尤其适用于以卷积神经网络为基础的工业自动化领域,如机器视觉检测、结构光扫描测量、机器人引导等。实验结果表明,系统在充分发挥FPGA计算速度优势的同时,简化了应用工程师的设计过程,有效降低了实际应用的实施难度。 展开更多
关键词 机器视觉 FPGA 卷积神经网络 SOC系统 MICROBLAZE处理器
下载PDF
神经网络训练处理器的浮点运算优化架构
5
作者 张立博 李昌伟 +2 位作者 齐伟 王刚 戚鲁凤 《计算机测量与控制》 2023年第6期176-182,共7页
针对神经网络训练加速器中存在权重梯度计算效率低的问题,设计了一种高性能卷积神经网络(CNN)训练处理器的浮点运算优化架构;在分析CNN训练架构基本原理的基础上,提出了包括32 bit、24 bit、16 bit和混合精度的训练优化架构,从而找到适... 针对神经网络训练加速器中存在权重梯度计算效率低的问题,设计了一种高性能卷积神经网络(CNN)训练处理器的浮点运算优化架构;在分析CNN训练架构基本原理的基础上,提出了包括32 bit、24 bit、16 bit和混合精度的训练优化架构,从而找到适用于低能耗且更小尺寸边缘设备的最佳浮点格式;通过现场可编程门阵列(FPGA)验证了加速器引擎可用于MNIST手写数字数据集的推理和训练,利用24 bit自定义浮点格式与16 bit脑浮点格式相结合构成混合卷积24 bit浮点格式的准确率可达到93%以上;运用台积电55 nm芯片实现优化混合精度加速器,训练每幅图像的能耗为8.51μJ。 展开更多
关键词 卷积神经网络 浮点运算 加速器 权重梯度 处理器
下载PDF
基于FPGA的稀疏化卷积神经网络加速器 被引量:4
6
作者 狄新凯 杨海钢 《计算机工程》 CAS CSCD 北大核心 2021年第7期189-195,204,共8页
为消除卷积神经网络前向计算过程中因模型参数的稀疏性而出现的无效运算,基于现场可编程门阵列(FPGA)设计针对稀疏化神经网络模型的数据流及并行加速器。通过专用逻辑模块在输入通道方向上筛选出特征图矩阵和卷积滤波器矩阵中的非零点,... 为消除卷积神经网络前向计算过程中因模型参数的稀疏性而出现的无效运算,基于现场可编程门阵列(FPGA)设计针对稀疏化神经网络模型的数据流及并行加速器。通过专用逻辑模块在输入通道方向上筛选出特征图矩阵和卷积滤波器矩阵中的非零点,将有效数据传递给由数字信号处理器组成的阵列做乘累加操作。在此基础上,对所有相关的中间结果经加法树获得最终输出特征图点,同时在特征图宽度、高度和输出通道方向上做粗颗粒度并行并寻找最佳的设计参数。在Xilinx器件上进行实验验证,结果表明,该设计实现VGG16卷积层综合性能达到678.2 GOPS,性能功耗比为69.45 GOPS/W,其性能与功耗指标较基于FPGA的稠密网络加速器和稀疏网络加速器有较大提升。 展开更多
关键词 卷积神经网络 稀疏性 现场可编程门阵列 并行加速器 数字信号处理器 加法树
下载PDF
基于RISC-V的卷积神经网络专用指令集处理器 被引量:4
7
作者 廖汉松 吴朝晖 李斌 《计算机工程》 CAS CSCD 北大核心 2021年第7期196-204,共9页
针对x86和ARM商用架构CPU因专利、授权导致定制成本过高和灵活性不够的问题,面向物联网领域提出一种基于RISC-V开源指令集的卷积神经网络(CNN)专用指令集处理器。通过自定义拓展指令调用加速器对轻量化CNN中的卷积和池化操作进行加速,... 针对x86和ARM商用架构CPU因专利、授权导致定制成本过高和灵活性不够的问题,面向物联网领域提出一种基于RISC-V开源指令集的卷积神经网络(CNN)专用指令集处理器。通过自定义拓展指令调用加速器对轻量化CNN中的卷积和池化操作进行加速,提高终端设备能效。在此过程中,配置CNN各层信息控制加速器进行分组运算,以适应不同大小的输入数据,同时调整加速器的数据通路,对耗时操作进行单独或结合运算,以适应不同的轻量化网络。FPGA平台验证结果表明,该处理器在100 MHz工作频率下推理Squeeze Net网络,耗时约40.89 ms,功耗为1.966 W,较手机处理器单核计算速度更快,与AMD Ryzen7 3700X、NVIDIA RTX2070 Super和Qualcomm Snapdragon 835平台相比,其消耗资源少、功耗低,在性能功耗比上也具有优势。 展开更多
关键词 RISC-V指令集 卷积神经网络 领域专用架构 专用指令集处理器 硬件加速
下载PDF
基于微型计算机和神经网络的果蔬识别 被引量:3
8
作者 吴衡 董忠 《宁夏大学学报(自然科学版)》 CAS 2021年第1期39-44,共6页
在微型计算机上使用深度卷积神经网络实现果蔬自动识别的复杂图像识别任务,并构造了具有人工智能技术的电子秤系统.采用深度可分离卷积和反向残差网络设计构成的深度神经卷积网络,极大减少了模型的运算量并保持了较高的识别精度,适合硬... 在微型计算机上使用深度卷积神经网络实现果蔬自动识别的复杂图像识别任务,并构造了具有人工智能技术的电子秤系统.采用深度可分离卷积和反向残差网络设计构成的深度神经卷积网络,极大减少了模型的运算量并保持了较高的识别精度,适合硬件资源有限的微型计算机.神经网络经过训练、调参、剪枝优化后,图像识别准确率达到91.9%,推理延时小于1.5 s.这种人工智能系统可以代替人工操作让顾客进行自主购物,适合在无人超市或者避免聚集接触的环境下使用. 展开更多
关键词 深度卷积神经网络 微型计算机 人工智能 图像识别 神经网络微调
下载PDF
基于近存储计算的手写数字识别实时检测阵列结构设计
9
作者 霍紫晴 山蕊 +2 位作者 冯雅妮 高旭 冯煜 《光电子.激光》 CAS CSCD 北大核心 2022年第12期1315-1322,共8页
卷积神经网络(convolutional neural network, CNN)作为传统神经网络的改进,已经得到了广泛的应用。然而,在CNN性能提升的同时其模型的规模不断扩大,对存储及算力的要求越来越高,基于冯·诺依曼体系结构的处理器难以达到令人满意的... 卷积神经网络(convolutional neural network, CNN)作为传统神经网络的改进,已经得到了广泛的应用。然而,在CNN性能提升的同时其模型的规模不断扩大,对存储及算力的要求越来越高,基于冯·诺依曼体系结构的处理器难以达到令人满意的高处理性能。为了提升系统性能,近存储计算(near memory computing, NMC)成为了一个具有发展前景的研究方向。本文利用一种支持NMC的可重构阵列处理器实现手写数字识别,并行地实现了卷积运算;同时利用共享缓存阵列结构,减少片外存储的频繁访问。实验结果表明,在110 MHz的工作频率下,执行单个5×5卷积运算的计算速度提升了75.00%,可以在9 960μs内实现一个手写数字的识别。 展开更多
关键词 卷积神经网络(CNN) 手写数字识别 可重构阵列处理器 近存储计算(NMC) 共享缓存阵列
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部