期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
硬件加速神经网络综述 被引量:18
1
作者 陈桂林 马胜 郭阳 《计算机研究与发展》 EI CSCD 北大核心 2019年第2期240-253,共14页
人工神经网络目前广泛应用于人工智能的应用当中,如语音助手、图像识别和自然语言处理等.随着神经网络愈加复杂,计算量也急剧上升,传统的通用芯片在处理复杂神经网络时受到了带宽和能耗的限制,人们开始改进通用芯片的结构以支持神经网... 人工神经网络目前广泛应用于人工智能的应用当中,如语音助手、图像识别和自然语言处理等.随着神经网络愈加复杂,计算量也急剧上升,传统的通用芯片在处理复杂神经网络时受到了带宽和能耗的限制,人们开始改进通用芯片的结构以支持神经网络的有效处理.此外,研发专用加速芯片也成为另一条加速神经网络处理的途径.与通用芯片相比,它能耗更低,性能更高.通过介绍目前通用芯片和专用芯片对神经网络所作的支持,了解最新神经网络硬件加速平台设计的创新点和突破口.具体来说,主要概述了神经网络的发展,讨论各类通用芯片为支持神经网络所作的改进,其中包括支持低精度运算和增加一个加速神经网络处理的计算模块.然后从运算结构和存储结构的角度出发,归纳专用芯片在体系结构上所作的定制设计,另外根据神经网络中各类数据的重用总结了各个神经网络加速器所采用的数据流.最后通过对已有加速芯片的优缺点分析,给出了神经网络加速器未来的设计趋势和挑战. 展开更多
关键词 神经网络 通用芯片 专用加速芯片 体系结构
下载PDF
Implementing a 1GHz Four-Issue Out-of-Order Execution Microprocessor in a Standard Cell ASIC Methodology 被引量:14
2
作者 胡伟武 赵继业 +3 位作者 钟石强 杨旭 Elio Guidetti 吴永强 《Journal of Computer Science & Technology》 SCIE EI CSCD 2007年第1期1-14,共14页
This paper introduces the microarchitecture and physical implementation of the Godson-2E processor, which is a four-issue superscalar RISC processor that supports the 64-bit MIPS instruction set. The adoption of the a... This paper introduces the microarchitecture and physical implementation of the Godson-2E processor, which is a four-issue superscalar RISC processor that supports the 64-bit MIPS instruction set. The adoption of the aggressive out-of-order execution and memory hierarchy techniques help Godson-2E to achieve high performance. The Godson-2E processor has been physically designed in a 7-metal 90nm CMOS process using the cell-based methodology with some bitsliced manual placement and a number of crafted cells and macros. The processor can be run at 1GHz and achieves a SPEC CPU2000 rate higher than 500. 展开更多
关键词 general-purpose processor superscalar pipeline out-of-order execution non-blocking cache physical design synthesis flow bit-sliced placement crafted cell performance evaluation
原文传递
DSP处理器和通用处理器的比较 被引量:1
3
作者 岳虹 沈立 +1 位作者 戴葵 王志英 《计算机科学》 CSCD 北大核心 2005年第3期166-168,206,共4页
随着嵌入式系统的广泛应用,其应用程序的功能变得越来越强大和复杂,从而要求嵌入式处理器系统既能有效支持运算密集型的应用,又能有效支持控制密集型的应用。数字信号处理器(DSPs)能够有效进行运算密集型的实时计算;另一方面,通用微处理... 随着嵌入式系统的广泛应用,其应用程序的功能变得越来越强大和复杂,从而要求嵌入式处理器系统既能有效支持运算密集型的应用,又能有效支持控制密集型的应用。数字信号处理器(DSPs)能够有效进行运算密集型的实时计算;另一方面,通用微处理器(GPPs)则对控制密集型的应用提供有效的支持。本文从DSP处理器和通用微处理器的功能出发,讨论了两者在指令集、体系结构及存储器结构等方面的异同,同时对两者的性能也进行了评测和比较。结果表明,DSP处理器和通用微处理器都很难同时高效支持运算密集型的应用和控制密集型的应用。将两者体系结构进行融合,研究开发融合型高性能微处理器,是解决该问题的有效途。 展开更多
关键词 DSP处理器 通用处理器 嵌入式系统 运算密集型 控制密集型 指令集 体系结构
下载PDF
DSP技术的最新发展及其应用现状 被引量:22
4
作者 魏晓云 陈杰 曾云 《半导体技术》 CAS CSCD 北大核心 2003年第9期18-21,共4页
概述了数字信号处理(DSP)技术的发展过程,分析比较了DSP处理器与通用微处理器(GPP)的异同;介绍了DSP的最新发展和应用现状;对数字信号处理技术的发展前景和趋势作了预测。
关键词 DSP技术 数字信号处理 通用微处理器 GPP 应用现状 发展前景
下载PDF
基于双DSP的电力电子变换器通用控制平台 被引量:6
5
作者 鲁挺 赵争鸣 +1 位作者 张颖超 袁立强 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第10期1541-1544,共4页
为了满足多种电力电子变换器对其控制平台的不同要求,缩短开发时间,实现控制平台硬件的通用化和软件的模块化,在基于双定点数字信号处理器(DSP)TMS320LF2407的大容量变换器专用控制平台的基础上,提出了电力电子变换通用控制平台的设计... 为了满足多种电力电子变换器对其控制平台的不同要求,缩短开发时间,实现控制平台硬件的通用化和软件的模块化,在基于双定点数字信号处理器(DSP)TMS320LF2407的大容量变换器专用控制平台的基础上,提出了电力电子变换通用控制平台的设计目标。描述了基于定点和浮点DSP(TMS320F2812和TMS320VC33)的通用控制平台各单元的设计方法。介绍了基于MATLAB实时工具箱(RTW)的调试方法。实验结果验证了设计和调试方法的正确性和可行性,该通用控制平台达到了设计目标。 展开更多
关键词 电力电子变换器 控制平台 通用性 数字信号处理器(DSP) 实时代码生成工具箱(RTW)
原文传递
High Performance General-Purpose Microprocessors: Past and Future 被引量:5
6
作者 胡伟武 侯锐 +1 位作者 肖俊华 章隆宾 《Journal of Computer Science & Technology》 SCIE EI CSCD 2006年第5期631-640,共10页
It can be observed from looking backward that processor architecture is improved through spirally shifting from simple to complex and from complex to simple. Nowadays we are facing another shifting from complex to sim... It can be observed from looking backward that processor architecture is improved through spirally shifting from simple to complex and from complex to simple. Nowadays we are facing another shifting from complex to simple, and new innovative architecture will emerge to utilize the continuously increasing transistor budgets. The growing importance of wire delays, changing workloads, power consumption, and design/verification complexity will drive the forthcoming era of Chip Multiprocessors (CMPs). Furthermore, typical CMP projects both from industries and from academics are investigated. Through going into depths for some primary theoretical and implementation problems of CMPs, the great challenges and opportunities to future CMPs are presented and discussed. Finally, the Godson series microprocessors designed in China are introduced. 展开更多
关键词 high performance general-purpose microprocessor instruction level parallelism data level parallelism thread level parallelism chip multiprocessors Godson processor
原文传递
基于GPGPU的海量山地地形数据的实时绘制算法 被引量:3
7
作者 王春 马纯永 陈戈 《计算机应用》 CSCD 北大核心 2009年第8期2105-2108,共4页
针对山地地形海量数据的特点,基于GPU的GeometricalClipmap算法,应用简化的工作流程,结合GPGPU技术,采用了一种更为合理的高程数据组织交换模式,通过引入高程误差数据巧妙地解决不同分辨率之间的裂缝问题,并对高分辨率的遥感影像作为地... 针对山地地形海量数据的特点,基于GPU的GeometricalClipmap算法,应用简化的工作流程,结合GPGPU技术,采用了一种更为合理的高程数据组织交换模式,通过引入高程误差数据巧妙地解决不同分辨率之间的裂缝问题,并对高分辨率的遥感影像作为地形纹理的实现方法加以补充,进而实现可应用于虚拟现实系统的海量地形数据的实时可视化。 展开更多
关键词 基于GPU的通用计算 几何体剪切图 山地地形 海量数据
下载PDF
基于通用可重构处理器的反馈移位寄存器优化设计研究 被引量:3
8
作者 张海洋 杜学绘 +1 位作者 任志宇 陈宇涵 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2017年第2期133-141,共9页
为探索通用可重构处理器(general-purpose reconfigurable processor,GReP)在序列密码算法中的研究与应用,本文对基于反馈移位寄存器(feedback shift register,FSR)的序列密码算法进行特征分析,结合GReP架构特性,提出掩码抽位式反馈函... 为探索通用可重构处理器(general-purpose reconfigurable processor,GReP)在序列密码算法中的研究与应用,本文对基于反馈移位寄存器(feedback shift register,FSR)的序列密码算法进行特征分析,结合GReP架构特性,提出掩码抽位式反馈函数计算模型,以A5算法为例,对算法中对性能影响大、复用性高且具有可重构性的关键部件提出并行化、流水化的优化设计方法,实现了算法的基于GReP的可重构优化.实验表明,基于GReP通用可重构处理器架构的A5算法可重构设计,比在Intel Atom 230平台上的吞吐率提高近一倍,GReP通用可重构处理器在提高序列密码算法处理能力与执行效率方面具有明显优势. 展开更多
关键词 通用可重构处理器 反馈移位寄存器 A5算法 序列密码算法优化
原文传递
An FFT Performance Model for Optimizing General-Purpose Processor Architecture
9
作者 李玲 陈云霁 +2 位作者 刘道福 钱诚 胡伟武 《Journal of Computer Science & Technology》 SCIE EI CSCD 2011年第5期875-889,共15页
General-purpose processor (GPP) is an important platform for fast Fourier transform (FFT),due to its flexibility,reliability and practicality.FFT is a representative application intensive in both computation and m... General-purpose processor (GPP) is an important platform for fast Fourier transform (FFT),due to its flexibility,reliability and practicality.FFT is a representative application intensive in both computation and memory access,optimizing the FFT performance of a GPP also benefits the performances of many other applications.To facilitate the analysis of FFT,this paper proposes a theoretical model of the FFT processing.The model gives out a tight lower bound of the runtime of FFT on a GPP,and guides the architecture optimization for GPP as well.Based on the model,two theorems on optimization of architecture parameters are deduced,which refer to the lower bounds of register number and memory bandwidth.Experimental results on different processor architectures (including Intel Core i7 and Godson-3B) validate the performance model.The above investigations were adopted in the development of Godson-3B,which is an industrial GPP.The optimization techniques deduced from our performance model improve the FFT performance by about 40%,while incurring only 0.8% additional area cost.Consequently,Godson-3B solves the 1024-point single-precision complex FFT in 0.368 μs with about 40 Watt power consumption,and has the highest performance-per-watt in complex FFT among processors as far as we know.This work could benefit optimization of other GPPs as well. 展开更多
关键词 fast Fourier transform (FFT) general-purpose processor (GPP) performance prediction model vector unit DMA
原文传递
基于ADSP21161的通用雷达信号处理机的模块化设计
10
作者 王大庆 苏涛 庄德靖 《火控雷达技术》 2005年第1期68-71,84,共5页
介绍一种基于 ADSP2 1 1 61的信号处理模块。模块内四片 ADSP2 1 1 61采用共享总线结构 ,外加大容量的 SDRAM用作存储 ,双向 FIFO用来缓冲数据 ,除此之外 ,它还有多个通信口可以与模块外的设备进行通信。此模块具有可重构性和可扩展性 ... 介绍一种基于 ADSP2 1 1 61的信号处理模块。模块内四片 ADSP2 1 1 61采用共享总线结构 ,外加大容量的 SDRAM用作存储 ,双向 FIFO用来缓冲数据 ,除此之外 ,它还有多个通信口可以与模块外的设备进行通信。此模块具有可重构性和可扩展性 ,对此模块进行简单的扩展或适当增加此模块的数目即可满足不同的雷达信号处理要求。 展开更多
关键词 通用雷达信号处理机 ADSP21161 模块化设计 数据缓冲 总线结构
下载PDF
空时二维雷达信号处理机的系统设计
11
作者 王宗谦 苏涛 吴顺君 《火控雷达技术》 2007年第1期71-74,88,共5页
针对雷达信号处理算法复杂、数据量大、数据传输速度高的特点,本文介绍一种基于ADSP-TS101通用信号处理板的设计,并以此处理板构成了空时二维雷达信号处理信号机。此处理板具有可重构性和可扩展性,简单的扩展或适当增加此模块的数目即... 针对雷达信号处理算法复杂、数据量大、数据传输速度高的特点,本文介绍一种基于ADSP-TS101通用信号处理板的设计,并以此处理板构成了空时二维雷达信号处理信号机。此处理板具有可重构性和可扩展性,简单的扩展或适当增加此模块的数目即可满足不同的雷达信号处理要求。 展开更多
关键词 通用雷达信号处理机 ADSP—TS101 STAP
下载PDF
位图连接索引服务机制研究
12
作者 张延松 苏明川 +1 位作者 张宇 王方舟 《计算机工程与应用》 CSCD 北大核心 2015年第5期107-115,共9页
位图连接索引是数据仓库中一种有效的优化表间连接操作性能的索引机制。在大内存分析处理应用场景下,位图连接索引不仅需要权衡索引的内存和CPU开销,还需要进一步考虑处理器平台所带来的性能收益和数据访问延迟。提出了基于服务的位图... 位图连接索引是数据仓库中一种有效的优化表间连接操作性能的索引机制。在大内存分析处理应用场景下,位图连接索引不仅需要权衡索引的内存和CPU开销,还需要进一步考虑处理器平台所带来的性能收益和数据访问延迟。提出了基于服务的位图连接索引管理机制,其主要特点体现在三个方面:独立于数据库的自管理索引机制;基于存储空间约束的TOP K关键字位图连接索引机制;处理器敏感(processor-conscious)的位图连接索引技术。索引服务将索引从数据库中内置的数据结构变成数据库外的索引服务层,通过对用户查询负载的分析模块和索引服务管理模块改变传统的由数据库管理员人工管理索引的模式,同时借助于协处理器和内存云技术提高索引服务的性能和灵活性。实验测试结果表明,索引服务机制能够有效地提高索引存储和访问效率,在通用GPU的强大并行处理能力的支持下,位图连接索引服务的性能和数据库整体查询处理性能都得到了显著的提升。 展开更多
关键词 位图连接索引 通用图形处理器(GPGPU) 关键字位图连接索引 处理器敏感位图连接索引
下载PDF
基于SimpleScalar的龙芯CPU模拟器Sim-Godson 被引量:25
13
作者 张福新 章隆兵 胡伟武 《计算机学报》 EI CSCD 北大核心 2007年第1期68-73,共6页
现代高性能通用处理器的设计越来越复杂,模拟器在处理器设计中所起的作用越来越大.龙芯2号是中国科学院计算技术研究所研制的高性能通用处理器.最早开发的龙芯2号的模拟器ICT-Godson是信号级模拟器,它模拟了处理器的所有细节,十分准确,... 现代高性能通用处理器的设计越来越复杂,模拟器在处理器设计中所起的作用越来越大.龙芯2号是中国科学院计算技术研究所研制的高性能通用处理器.最早开发的龙芯2号的模拟器ICT-Godson是信号级模拟器,它模拟了处理器的所有细节,十分准确,但速度和灵活性有较大限制.文章基于SimpleScalar工具集,设计并实现了龙芯2号的模拟器Sim-Godson.Sim-Godson具有高速度和高灵活性的优点,且准确性也很高.在3.0GHz的Pentium4微机上,Sim-Godson速度约为500K指令/s.大部份测试程序在Sim-Godson上的IPC(Instruction PerCycle)与ICT-Godson相差不到5%,达到了很高的准确性.Sim-Godson在龙芯2号的性能分析工作中发挥了重要作用. 展开更多
关键词 模拟器 龙芯2号处理器 SIMPLESCALAR 通用处理器 高性能处理器
下载PDF
适用于机载环境的智能计算处理器分析研究 被引量:6
14
作者 文鹏程 白林亭 +1 位作者 高泽 程陶然 《航空科学技术》 2020年第10期81-86,共6页
近年来,以深度学习为代表的人工智能技术在民用领域飞速发展。在航空应用方面,人工智能技术将发挥重要的作用。人工智能技术在航空领域的应用,必须要考虑机载环境的约束和限制,尤其对智能计算处理器更是有着严格的要求。综合考虑人工智... 近年来,以深度学习为代表的人工智能技术在民用领域飞速发展。在航空应用方面,人工智能技术将发挥重要的作用。人工智能技术在航空领域的应用,必须要考虑机载环境的约束和限制,尤其对智能计算处理器更是有着严格的要求。综合考虑人工智能技术的机载应用场景、计算特性和算力需求,通过分析研究通用处理器以及智能专用处理器的架构和适用性,基于异构融合的设计思想,提出了一条可行的技术实施路线,为机载智能应用提供计算支撑服务。 展开更多
关键词 航空人工智能 机载智能应用 OODA 智能计算 智能专用处理器 通用处理器
下载PDF
网络处理器体系结构及应用现状和发展趋势
15
作者 王海涛 刘化君 《吉首大学学报(自然科学版)》 CAS 2006年第2期54-57,共4页
网络处理器同时兼有硬件高速性和软件灵活性的优点,能够较好解决网络性能瓶颈,适应各种新型的网络协议,具有良好的应用前景.笔者介绍了网络处理器的体系结构和功能特点,详细阐述了当前开展的研究工作和各种实际应用领域并展望了网络处... 网络处理器同时兼有硬件高速性和软件灵活性的优点,能够较好解决网络性能瓶颈,适应各种新型的网络协议,具有良好的应用前景.笔者介绍了网络处理器的体系结构和功能特点,详细阐述了当前开展的研究工作和各种实际应用领域并展望了网络处理器未来的发展方向. 展开更多
关键词 网络处理器 因特网 通用处理器 专用集成电路 精简指令集电路
下载PDF
网络处理器现状及其应用和挑战
16
作者 王海涛 刘化君 《电视技术》 北大核心 2005年第5期35-38,共4页
说明了网络处理器出现的背景,阐述了网络处理器的体系结构。详细介绍了网络处理器的功能技术特点和产品现状,探讨了网络处理器的各种实际应用。指出了网络处理器设计面临的问题和挑战。
关键词 网络处理器 因特网:通用处理器 专用集成电路 精简指令集电路
下载PDF
FPGA与通用处理器同步数据传输接口的设计 被引量:2
17
作者 胡强 《电子技术应用》 北大核心 2014年第8期14-16,共3页
针对FPGA与通用处理器之间数据通信的方式,提出了基于包含SDRAM控制器的通用处理器与FPGA实现同步数据传输的方法。该方法通过在FPGA内部构建同步输入/输出接口STI(Synchronous Transmission Interface),将FPGA模拟为包含SDRAM控制器的... 针对FPGA与通用处理器之间数据通信的方式,提出了基于包含SDRAM控制器的通用处理器与FPGA实现同步数据传输的方法。该方法通过在FPGA内部构建同步输入/输出接口STI(Synchronous Transmission Interface),将FPGA模拟为包含SDRAM控制器的通用处理器的外接SDRAM存储器,从而实现FPGA与通用处理器之间的同步数据传输。经理论分析和实际电路验证表明,对于FPGA与通用处理器之间的数据通信,在不增加任何硬件成本的前提下,采用该方法较传统异步传输方法传输速率得到显著的提升。 展开更多
关键词 FPGA 通用处理器 SDRAM 数据传输
下载PDF
Reinventing Memory System Design for Many-Accelerator Architecture
18
作者 王颖 张磊 +1 位作者 韩银和 李华伟 《Journal of Computer Science & Technology》 SCIE EI CSCD 2014年第2期273-280,共8页
The many-accelerator architecture, mostly composed of general-purpose cores and accelerator-like function units (FUs), becomes a great alternative to homogeneous chip multiprocessors (CMPs) for its superior power-... The many-accelerator architecture, mostly composed of general-purpose cores and accelerator-like function units (FUs), becomes a great alternative to homogeneous chip multiprocessors (CMPs) for its superior power-efficiency. However, the emerging many-accelerator processor shows a much more complicated memory accessing pattern than general purpose processors (GPPs) because the abundant on-chip FUs tend to generate highly-concurrent memory streams with distinct locality and bandwidth demand. The disordered memory streams issued by diverse accelerators exhibit a mutual- interference behavior and cannot be efficiently handled by the orthodox main memory interface that provides an inflexible data fetching mode. Unlike the traditional DRAM memory, our proposed Aggregation Memory System (AMS) can function adaptively to the characterized memory streams from different FUs, because it provides the FUs with different data fetching sizes and protects their locality in memory access by intelligently interleaving their data to memory devices through sub-rank binding. Moreover, AMS can batch the requests without sub-rank conflict into a read burst with our optimized memory scheduling policy. Experimental results from trace-based simulation show both conspicuous performance boost and energy saving brought by AMS. 展开更多
关键词 many-accelerator chip multiprocessor MEMORY general purpose processor
原文传递
Proto-Perf:快速精确的通用处理器原型系统性能评估方法 被引量:1
19
作者 郭辉 黄立波 +2 位作者 郑重 隋兵才 王永文 《计算机工程与科学》 CSCD 北大核心 2021年第4期579-585,共7页
性能验证及评估是通用处理器设计实现过程中最重要且必须实施的关键步骤之一。高效的通用处理器原型系统性能评估方法不仅可以帮助处理器设计人员在处理器设计阶段尽早地定位性能设计缺陷,而且还可以在设计流片前验证处理器能否达到性... 性能验证及评估是通用处理器设计实现过程中最重要且必须实施的关键步骤之一。高效的通用处理器原型系统性能评估方法不仅可以帮助处理器设计人员在处理器设计阶段尽早地定位性能设计缺陷,而且还可以在设计流片前验证处理器能否达到性能设计预期。然而,对处理器原型系统进行完整的性能测试需要运行较长的时间,这样巨大的时间开销导致设计人员无法及时进行性能设计分析,进而导致处理器原型系统的性能评估成为整个项目的瓶颈。提出了一种快速精确的通用处理器原型系统性能评估方法Proto-Perf。Proto-Perf性能评估方法使用动态程序分析方法和基本块聚合技术抽取测试程序的特征程序片段进行测试,显著地缩短了性能测试时间。实验结果表明,相比于完整运行SPEC CPU2006 REF数据规模测试程序获得的性能数据,使用Proto-Perf测试得到的性能数据的绝对误差平均达到1.53%,其中最高达到7.86%。并且,对于实验中的每个程序,使用Proto-Perf方法进行测试的时间都明显缩短。 展开更多
关键词 性能评估 验证 FPGA原型系统 通用处理器
下载PDF
国产通用处理器密码算法指令实现研究
20
作者 陈子钰 何军 郭翔宇 《计算机工程与科学》 CSCD 北大核心 2022年第7期1162-1170,共9页
介绍了国际主流密码算法AES和SHA,综述了当前主流通用处理器架构的密码算法指令发展现状。为提高国产通用处理器在密码安全领域的性能,设计了面向国产通用处理器的AES和SHA密码算法扩展指令集,实现了能全流水执行的AES和SHA密码算法指... 介绍了国际主流密码算法AES和SHA,综述了当前主流通用处理器架构的密码算法指令发展现状。为提高国产通用处理器在密码安全领域的性能,设计了面向国产通用处理器的AES和SHA密码算法扩展指令集,实现了能全流水执行的AES和SHA密码算法指令执行部件,并进行了实现评估和优化。该密码算法指令执行部件的工作频率达2.0 GHz,总面积为17644μm 2,总功耗为59.62 mW,相比软件采用原有通用指令实现,对AES密码算法的最小加速比为8.90倍,对SHA密码算法的最小加速比为4.47倍,在指令全流水执行时可达19.30倍,显著地改善了处理器执行AES和SHA密码算法的性能,有望应用于国产通用处理器并进一步提升国产通用处理器芯片在密码安全应用领域的竞争力。此外,该密码算法指令部件还可以封装成专门用于支持密码算法的IP,应用在密码安全领域的专用芯片中。 展开更多
关键词 通用处理器 AES SHA 密码算法 密码算法指令 处理器性能
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部