期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
脉冲神经网络:模型、学习算法与应用 被引量:20
1
作者 程龙 刘洋 《控制与决策》 EI CSCD 北大核心 2018年第5期923-937,共15页
脉冲神经网络是目前最具有生物解释性的人工神经网络,是类脑智能领域的核心组成部分.首先介绍各类常用的脉冲神经元模型以及前馈和循环型脉冲神经网络结构;然后介绍脉冲神经网络的时间编码方式,在此基础上,系统地介绍脉冲神经网络的学... 脉冲神经网络是目前最具有生物解释性的人工神经网络,是类脑智能领域的核心组成部分.首先介绍各类常用的脉冲神经元模型以及前馈和循环型脉冲神经网络结构;然后介绍脉冲神经网络的时间编码方式,在此基础上,系统地介绍脉冲神经网络的学习算法,包括无监督学习和监督学习算法,其中监督学习算法按照梯度下降算法、结合STDP规则的算法和基于脉冲序列卷积核的算法3大类别分别展开详细介绍和总结;接着列举脉冲神经网络在控制领域、模式识别领域和类脑智能研究领域的应用,并在此基础上介绍各国脑计划中,脉冲神经网络与神经形态处理器相结合的案例;最后分析脉冲神经网络目前所存在的困难和挑战. 展开更多
关键词 脉冲神经网络 脉冲神经元模型 学习算法 STDP规则 类脑智能 神经形态处理器
原文传递
开关磁阻电机神经网络无位置传感器控制 被引量:18
2
作者 蒯松岩 张旭隆 +1 位作者 王其虎 张能 《电机与控制学报》 EI CSCD 北大核心 2011年第8期18-22,共5页
针对现有开关磁阻电机(SRM)的转子位置传感器使得系统成本和复杂度提高、坚固性和可靠性降低的问题,研究了SRM无位置传感器DSP控制实现。建立了开关磁阻电机位置检测神经网络模型,并给出了提出对象的学习算法和训练步骤。采用TMS320F281... 针对现有开关磁阻电机(SRM)的转子位置传感器使得系统成本和复杂度提高、坚固性和可靠性降低的问题,研究了SRM无位置传感器DSP控制实现。建立了开关磁阻电机位置检测神经网络模型,并给出了提出对象的学习算法和训练步骤。采用TMS320F2812 DSP实现神经网络在线训练算法,开发完成了一台15kW三相12/8极无位置传感器SRD样机。实验结果表明,无位置传感器SRD具有较好的动态特性和较高精确度,系统最大位置检测误差≤2°。 展开更多
关键词 神经网络 开关磁阻电动机 无位置传感器 数字信号处理器
下载PDF
硬件加速神经网络综述 被引量:17
3
作者 陈桂林 马胜 郭阳 《计算机研究与发展》 EI CSCD 北大核心 2019年第2期240-253,共14页
人工神经网络目前广泛应用于人工智能的应用当中,如语音助手、图像识别和自然语言处理等.随着神经网络愈加复杂,计算量也急剧上升,传统的通用芯片在处理复杂神经网络时受到了带宽和能耗的限制,人们开始改进通用芯片的结构以支持神经网... 人工神经网络目前广泛应用于人工智能的应用当中,如语音助手、图像识别和自然语言处理等.随着神经网络愈加复杂,计算量也急剧上升,传统的通用芯片在处理复杂神经网络时受到了带宽和能耗的限制,人们开始改进通用芯片的结构以支持神经网络的有效处理.此外,研发专用加速芯片也成为另一条加速神经网络处理的途径.与通用芯片相比,它能耗更低,性能更高.通过介绍目前通用芯片和专用芯片对神经网络所作的支持,了解最新神经网络硬件加速平台设计的创新点和突破口.具体来说,主要概述了神经网络的发展,讨论各类通用芯片为支持神经网络所作的改进,其中包括支持低精度运算和增加一个加速神经网络处理的计算模块.然后从运算结构和存储结构的角度出发,归纳专用芯片在体系结构上所作的定制设计,另外根据神经网络中各类数据的重用总结了各个神经网络加速器所采用的数据流.最后通过对已有加速芯片的优缺点分析,给出了神经网络加速器未来的设计趋势和挑战. 展开更多
关键词 神经网络 通用芯片 专用加速芯片 体系结构
下载PDF
基于DSP的永磁同步电动机智能速度控制器研究 被引量:2
4
作者 王成元 杨俊友 +3 位作者 崔皆凡 夏加宽 周美文 刘耀 《沈阳工业大学学报》 EI CAS 1999年第5期401-404,共4页
在讨论模糊神经网络控制原理的基础上,按照永磁同步电动机控制系统的要求,在完全解耦前提下对模糊神经网络速度控制器进行了分析与设计.采用数字信号处理器(DSP)TMS320F240作为数字单元,利用其优越的运算能力和方便的外围硬件设... 在讨论模糊神经网络控制原理的基础上,按照永磁同步电动机控制系统的要求,在完全解耦前提下对模糊神经网络速度控制器进行了分析与设计.采用数字信号处理器(DSP)TMS320F240作为数字单元,利用其优越的运算能力和方便的外围硬件设备组成永磁同步电动机数字控制系统. 展开更多
关键词 永磁电机 速度控制器 DSP 同步电机
下载PDF
基于FPGA的卷积神经网络设计与实现 被引量:7
5
作者 蒋林 王喜娟 +2 位作者 刘镇弢 谢晓燕 衡茜 《微电子学与计算机》 CSCD 北大核心 2018年第8期132-136,共5页
卷积神经网络(Convolutional Neural Network,CNN)在各种计算机视觉应用中取得了巨大成功.本文研究了卷积神经网络的并行结构,基于网络计算的多种并行特征,提出了CNN前向传播过程在FPGA并行计算的架构.实验结果表明,在110MHz的工作频率... 卷积神经网络(Convolutional Neural Network,CNN)在各种计算机视觉应用中取得了巨大成功.本文研究了卷积神经网络的并行结构,基于网络计算的多种并行特征,提出了CNN前向传播过程在FPGA并行计算的架构.实验结果表明,在110MHz的工作频率下,该结构可使FPGA的峰值运算速度达到0.48GOP/s,相较ARM Mali-T628GPU平台实现23.5倍的加速比. 展开更多
关键词 卷积神经网络 现场可编程门阵列 阵列处理器 并行性
下载PDF
一种面向VLSI实现的手写体数字识别系统 被引量:6
6
作者 路伟 石秉学 李志坚 《电子学报》 EI CAS CSCD 北大核心 1997年第5期29-34,共6页
本文介绍一种面向VLSI实现的手写体数字识别系统,其中采用汉明神经网络从模式中提取局部特征,然后对提取出的特征图进行压缩,最后由模糊逻辑识别器根据压缩的特征图对输入模式进行识别.为了在不增加特征集的情况下提高特征提取... 本文介绍一种面向VLSI实现的手写体数字识别系统,其中采用汉明神经网络从模式中提取局部特征,然后对提取出的特征图进行压缩,最后由模糊逻辑识别器根据压缩的特征图对输入模式进行识别.为了在不增加特征集的情况下提高特征提取性能,在系统设计时提出了四种新的技术,如具有多阈值的改进汉明神经网络结构等.在模糊逻辑识别器的设计中,提出了两种新的处理技术.实验表明该系统对手写字符的变形和位移等有较强的处理能力,该系统直接映射一种VLSI结构,易于实现单芯片集成. 展开更多
关键词 手写体 数字识别 VLSI 神经网络
下载PDF
一种通用神经网络处理机设计及其VLSI集成化讨论 被引量:3
7
作者 魏允 王守觉 +1 位作者 王丽艳 鲁华祥 《电子学报》 EI CAS CSCD 北大核心 1995年第5期7-11,共5页
本文讨论了通用神经网络处理机的性能要求以及全模拟量处理、全数字量处理和数字模拟混合处理等各种处理方式的优缺点,设计了一种数字模拟混合处理的通用神经网络处理机结构。这种结构在当前VLSI集成工艺的条件下,具有较高的性能... 本文讨论了通用神经网络处理机的性能要求以及全模拟量处理、全数字量处理和数字模拟混合处理等各种处理方式的优缺点,设计了一种数字模拟混合处理的通用神经网络处理机结构。这种结构在当前VLSI集成工艺的条件下,具有较高的性能价格比。 展开更多
关键词 神经网络 数字模拟 混合处理 处理机
下载PDF
NM-SpMM:面向国产异构向量处理器的半结构化稀疏矩阵乘算法
8
作者 姜晶菲 何源宏 +2 位作者 许金伟 许诗瑶 钱希福 《计算机工程与科学》 CSCD 北大核心 2024年第7期1141-1150,共10页
深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产... 深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产异构向量处理器FT-M7032为智能模型处理中的数据并行和指令并行开发提供了较大空间。针对N∶M半结构化稀疏模型计算稀疏模式多样性,提出了一种面向FT-M7032的可灵活配置的稀疏矩阵乘算法NM-SpMM。NM-SpMM设计了一种高效的压缩偏移地址稀疏编码格式COA,避免了半结构化参数配置对稀疏数据访存计算的影响。基于COA编码,NM-SpMM对不同维度稀疏矩阵计算进行了细粒度优化。在FT-M7032单核上的实验结果表明,相较于稠密矩阵乘,NM-SpMM能获得1.73~21.00倍的加速,相较于采用CuSPARSE稀疏计算库的NVIDIA V100 GPU,能获得0.04~1.04倍的加速。 展开更多
关键词 深度神经网络 图形处理器 向量处理器 稀疏矩阵乘 流水线
下载PDF
插损鲁棒性的全复值光学神经网络
9
作者 陈慧彬 汤凯飞 游振宇 《中国光学(中英文)》 EI CAS CSCD 北大核心 2024年第4期834-841,共8页
基于马赫-曾德尔干涉仪(Mach-Zehnder Interferometer,MZI)级联拓扑结构的线性光学处理器被证明是实现光学神经网络(Optical Neural Network,ONN)的重要途径,但还有不少实际问题有待解决。针对芯片制造、测试过程中可能导致的相位误差... 基于马赫-曾德尔干涉仪(Mach-Zehnder Interferometer,MZI)级联拓扑结构的线性光学处理器被证明是实现光学神经网络(Optical Neural Network,ONN)的重要途径,但还有不少实际问题有待解决。针对芯片制造、测试过程中可能导致的相位误差和插入损耗等问题,通过实验和理论仿真分析了几种基于MZI结构的可重构光学处理器。发现可以通过单个N×N的Clements阵列结构来实现任意酉矩阵的权重,构建稀疏连接的全复值光学神经网络,将光学深度大大降低,以实现较高的插入损耗鲁棒性。此外,对于多层光学神经网络来说,由于构建该任意酉矩阵的自由度有限,故在每一层Clements结构前面加一个相移器层,有助于将分类数据映射到更高的数据维度,能使神经网络更快速的收敛。 展开更多
关键词 光学神经网络 MZI阵列 可重构光学处理器
下载PDF
Artificial Neural Network Maximum Power Point Tracker for Solar Electric Vehicle 被引量:3
10
作者 Theodore Amissah OCRAN 曹军义 +1 位作者 曹秉刚 孙兴华 《Tsinghua Science and Technology》 SCIE EI CAS 2005年第2期204-208,共5页
This paper proposes an artificial neural network maximum power point tracker (MPPT) for solar electric vehicles. The MPPT is based on a highly efficient boost converter with insulated gate bipolar transis- tor (IGBT... This paper proposes an artificial neural network maximum power point tracker (MPPT) for solar electric vehicles. The MPPT is based on a highly efficient boost converter with insulated gate bipolar transis- tor (IGBT) power switch. The reference voltage for MPPT is obtained by artificial neural network (ANN) with gradient descent momentum algorithm. The tracking algorithm changes the duty-cycle of the converter so that the PV-module voltage equals the voltage corresponding to the MPPT at any given insolation, tempera- ture, and load conditions. For fast response, the system is implemented using digital signal processor (DSP). The overall system stability is improved by including a proportional-integral-derivative (PID) controller, which is also used to match the reference and battery voltage levels. The controller, based on the information sup- plied by the ANN, generates the boost converter duty-cycle. The energy obtained is used to charge the lith- ium ion battery stack for the solar vehicle. The experimental and simulation results show that the proposed scheme is highly efficient. 展开更多
关键词 artificial neural network maximum power point tracker (MPPT) photovoltaic module digital signal processor solar electric vehicle
原文传递
基于循环神经网络的多核处理器层次化存储技术
11
作者 辛明勇 祝健杨 +2 位作者 徐长宝 姚浩 刘德宏 《电子设计工程》 2023年第22期121-124,129,共5页
目前的多核处理器层次化存储技术同步性差、抗冗余度低,不能满足海量数据的分层存储要求,因此基于循环神经网络研究了一种新的多核处理器层次化存储技术。引入卷积神经算法完善数据存储功能,针对数据存储过程、数据库设计以及存储节点... 目前的多核处理器层次化存储技术同步性差、抗冗余度低,不能满足海量数据的分层存储要求,因此基于循环神经网络研究了一种新的多核处理器层次化存储技术。引入卷积神经算法完善数据存储功能,针对数据存储过程、数据库设计以及存储节点的选择进行了深层次的优化设计,从而有效提升数据的存储效率和存储稳定性。实验结果表明,该非对称多核处理器的同步性误差低于0.1,平均同步误差为0.04,能够避免96%的数据重复,抗数据冗余度高,对多核处理器的发展和应用具有积极作用。 展开更多
关键词 循环神经网络 多核处理器 层次化存储 存储技术
下载PDF
神经网络训练处理器的浮点运算优化架构
12
作者 张立博 李昌伟 +2 位作者 齐伟 王刚 戚鲁凤 《计算机测量与控制》 2023年第6期176-182,共7页
针对神经网络训练加速器中存在权重梯度计算效率低的问题,设计了一种高性能卷积神经网络(CNN)训练处理器的浮点运算优化架构;在分析CNN训练架构基本原理的基础上,提出了包括32 bit、24 bit、16 bit和混合精度的训练优化架构,从而找到适... 针对神经网络训练加速器中存在权重梯度计算效率低的问题,设计了一种高性能卷积神经网络(CNN)训练处理器的浮点运算优化架构;在分析CNN训练架构基本原理的基础上,提出了包括32 bit、24 bit、16 bit和混合精度的训练优化架构,从而找到适用于低能耗且更小尺寸边缘设备的最佳浮点格式;通过现场可编程门阵列(FPGA)验证了加速器引擎可用于MNIST手写数字数据集的推理和训练,利用24 bit自定义浮点格式与16 bit脑浮点格式相结合构成混合卷积24 bit浮点格式的准确率可达到93%以上;运用台积电55 nm芯片实现优化混合精度加速器,训练每幅图像的能耗为8.51μJ。 展开更多
关键词 卷积神经网络 浮点运算 加速器 权重梯度 处理器
下载PDF
基于深度神经网络的高速信道自适应均衡器 被引量:3
13
作者 翦杰 罗章 +2 位作者 赖明澈 肖立权 徐炜遐 《计算机工程与科学》 CSCD 北大核心 2022年第4期605-610,共6页
高速串行接口是提高高性能互连网络带宽的关键技术,而信道均衡器则是提高信号完整性的核心部件。利用现代数字信号处理(DSP)结构,提出了基于深度神经网络(DNN)的高速信道均衡研究方法,此方法在面向未来50 GB以上的高速信道时,克服了传... 高速串行接口是提高高性能互连网络带宽的关键技术,而信道均衡器则是提高信号完整性的核心部件。利用现代数字信号处理(DSP)结构,提出了基于深度神经网络(DNN)的高速信道均衡研究方法,此方法在面向未来50 GB以上的高速信道时,克服了传统判决反馈均衡器(DFE)的判决速度受限于反馈回路的固有缺陷问题。仿真结果表明,在采用PAM4编码方式,高速信道波特率为28 GB,信道损耗为15 dB,或者波特率为56 GB,信道损耗为30 dB时,与传统的15阶FFE组合2阶DFE的均衡器结构相比,本文所提出的3层DNN结构,具有更好的均衡效果,以及更快的均衡收敛速度。 展开更多
关键词 深度神经网络 快速串行链路 数字信号处理器 均衡器
下载PDF
嵌入式处理器动态分支预测机制研究与设计 被引量:4
14
作者 黄伟 王玉艳 章建雄 《计算机工程》 CAS CSCD 北大核心 2008年第21期163-165,共3页
针对嵌入式处理器的特定应用环境,通过对传统神经网络算法的改进,结合定制的分支目标缓冲,提出一种复合式动态分支预测机制。该机制基于全局索引方式,对BTB结构进行定制设计,实现对循环逻辑中最后一条分支指令的精确预测。实验结果表明... 针对嵌入式处理器的特定应用环境,通过对传统神经网络算法的改进,结合定制的分支目标缓冲,提出一种复合式动态分支预测机制。该机制基于全局索引方式,对BTB结构进行定制设计,实现对循环逻辑中最后一条分支指令的精确预测。实验结果表明,该动态分支预测机制能降低硬件复杂度,提高预测精度。 展开更多
关键词 复合分支预测 神经网络 分支目标缓冲 嵌入式处理器 SimpleScalar模拟
下载PDF
一种神经网络并行处理器的体系结构 被引量:3
15
作者 钱艺 李占才 +1 位作者 李昂 王沁 《小型微型计算机系统》 CSCD 北大核心 2007年第10期1902-1906,共5页
神经网络处理系统所能实现神经网络模型的种类越多其通用性越好,应用范围就越广泛.提出了一种神经网络并行处理器的体系结构,能以较高的并行度实现典型的前馈网络-BP网络和典型的反馈网络-Hopfield网络的算法.该处理器以SIMD(Single Ins... 神经网络处理系统所能实现神经网络模型的种类越多其通用性越好,应用范围就越广泛.提出了一种神经网络并行处理器的体系结构,能以较高的并行度实现典型的前馈网络-BP网络和典型的反馈网络-Hopfield网络的算法.该处理器以SIMD(Single Instruction Multiple Data)为主要计算结构,并结合这两种网络算法的特点设计了一维脉动阵列和全联通的互连网络,能够方便灵活地实现处理单元之间的数据共享.实验结果表明该体系结构有效地提高了神经网络的运行速度. 展开更多
关键词 SIMD 脉动阵列 神经网络 处理器
下载PDF
基于模糊神经网络的二维PSD非线性修正算法 被引量:3
16
作者 徐聪 佃松宜 杨杰超 《电子测量技术》 2017年第2期50-54,共5页
为了减小二维位置敏感探测器(2D-PSD)的非线性误差,研究了一种基于模糊神经网络的2D-PSD非线性修正算法。基于调制光源法采集到2D-PSD光敏面上可靠的光点位置信号后,采用T-S型模糊神经网络近似表示光点位置信号与光点位置坐标之间的映射... 为了减小二维位置敏感探测器(2D-PSD)的非线性误差,研究了一种基于模糊神经网络的2D-PSD非线性修正算法。基于调制光源法采集到2D-PSD光敏面上可靠的光点位置信号后,采用T-S型模糊神经网络近似表示光点位置信号与光点位置坐标之间的映射,将该映射嵌入到ARM处理器中实现2D-PSD的在线修正计算。采用该模糊神经网络非线性修正算法后,2D-PSD的非线性误差从±0.4mm减小到±0.15mm,实验结果表明基于模糊神经网络非线性修正算法对有效性。 展开更多
关键词 模糊神经网络 二维位置敏感探测器 非线性修正算法 调制光源法 ARM处理器
下载PDF
基于FPGA的卷积神经网络动态加载SOC设计 被引量:2
17
作者 许永全 冯玉田 《计算机技术与发展》 2020年第7期1-5,共5页
机器视觉是人工智能与现代工业应用结合的结果,通过机器视觉将目标物品转换成具有特定含义的数字信号,进而根据信号的信息测试目标物品并控制现场设备的动作,实现使用机器代替人的目标。文中设计了一种基于FPGA的SOC软硬件结合的系统,... 机器视觉是人工智能与现代工业应用结合的结果,通过机器视觉将目标物品转换成具有特定含义的数字信号,进而根据信号的信息测试目标物品并控制现场设备的动作,实现使用机器代替人的目标。文中设计了一种基于FPGA的SOC软硬件结合的系统,解决了以卷积神经网络为基础的机器学习算法在实际工业应用的具体问题。该系统在FPGA内部例化了双核MicroBlaze处理器,集成了DLA(deep learning accelerator)卷积神经网络硬件算法核心,能够实时高速采集图像和实时分析处理;同时还设计了一套软件系统,帮助算法工程师实现自己的网络模型。针对复杂多变的现场应用,设计了一套支持网络动态加载的系统环境,提高了在机器视觉领域的适用性,尤其适用于以卷积神经网络为基础的工业自动化领域,如机器视觉检测、结构光扫描测量、机器人引导等。实验结果表明,系统在充分发挥FPGA计算速度优势的同时,简化了应用工程师的设计过程,有效降低了实际应用的实施难度。 展开更多
关键词 机器视觉 FPGA 卷积神经网络 SOC系统 MICROBLAZE处理器
下载PDF
基于HPI的神经网络图像匹配多处理机系统 被引量:1
18
作者 石争浩 冯亚宁 +1 位作者 张遂南 黄士坦 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2004年第11期1129-1132,共4页
针对嵌入式图像匹配计算特点 ,采用TMS32 0C6X系列处理器作为并行神经处理单元 ,设计了一种基于TMS32 0C6X系列处理器HPI(Host Port Interface)互连的神经网络图像匹配多处理机系统 ,在这种并行计算系统中 ,包括一个主控计算单元和三个... 针对嵌入式图像匹配计算特点 ,采用TMS32 0C6X系列处理器作为并行神经处理单元 ,设计了一种基于TMS32 0C6X系列处理器HPI(Host Port Interface)互连的神经网络图像匹配多处理机系统 ,在这种并行计算系统中 ,包括一个主控计算单元和三个并行神经计算单元 ,主控计算单元通过HPI接口与各个神经匹配处理单元直接连接 ,通过HPI接口 ,主控计算单元可以直接访问各个神经元的片上和片外存储器 ,实现实时图像数据的直接转发和神经元中间运算结果的读取 .理论分析表明 ,该设计可有效优化神经计算结构 ,提高图像匹配的实时性 . 展开更多
关键词 图像匹配 神经网络 多处理机 HPI(Host-Port-Interface)
下载PDF
二维矩阵卷积在向量处理器中的设计与实现 被引量:1
19
作者 张军阳 郭阳 《国防科技大学学报》 EI CAS CSCD 北大核心 2018年第3期69-75,共7页
为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数... 为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案。针对矩阵卷积中数据难以复用的问题,提出根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率。针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案。设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、GPU、TI6678、FT-matrix2000平台进行了性能对比与分析。实验结果表明:FT-matrix2000相比CPU最高可加速238倍,相比TI6678可加速21倍,相比GPU可加速663 805倍。 展开更多
关键词 卷积神经网络 向量处理器 多核实现 矩阵卷积
下载PDF
基于位串行计算的动态精度神经网络处理器
20
作者 郝一帆 支天 杜子东 《高技术通讯》 CAS 2022年第9期881-893,共13页
针对当前神经网络动态精度计算系统在周期性的模型重训练和动态精度切换的过程中会引入大量的计算和访存开销问题,提出了基于串行位计算的动态精度神经网络处理器(DPNN),其可支持任意规模、任意精度的神经网络模型;支持以非重训练的方... 针对当前神经网络动态精度计算系统在周期性的模型重训练和动态精度切换的过程中会引入大量的计算和访存开销问题,提出了基于串行位计算的动态精度神经网络处理器(DPNN),其可支持任意规模、任意精度的神经网络模型;支持以非重训练的方式对模型数据精度进行细粒度调整,并消除了动态精度切换时因权值bit位重叠造成的重复计算与访存。实验结果表明,相较于自感知神经网络系统(SaNNs)的最新进展之一MinMaxNN,DPNN可使计算量平均降低1.34~2.52倍,访存量降低1.16~1.93倍;相较于代表性的bit串行计算神经网络处理器Stripes,DPNN使性能提升2.57倍、功耗节省2.87倍、面积减少1.95倍。 展开更多
关键词 神经网络处理器 动态精度计算 位串行计算
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部