期刊文献+
共找到100篇文章
< 1 2 5 >
每页显示 20 50 100
Microarchitecture of the Godson-2 Processor 被引量:52
1
作者 Wei-WuHu Fu-XinZhang Zu-SongLi 《Journal of Computer Science & Technology》 SCIE EI CSCD 2005年第2期243-249,共7页
The Godson project is the first attempt to design high performancegeneral-purpose microprocessors in China. This paper introduces the microarchitecture of theGodson-2 processor which is a 64-bit, 4-issue, out-of-order... The Godson project is the first attempt to design high performancegeneral-purpose microprocessors in China. This paper introduces the microarchitecture of theGodson-2 processor which is a 64-bit, 4-issue, out-of-order execution RISC processor that implementsthe 64-bit MIPS-like instruction set. The adoption of the aggressive out-of-order executiontechniques (such as register mapping, branch prediction, and dynamic scheduling) and cachetechniques (such as non-blocking cache, load speculation, dynamic memory disambiguation) helps theGodson-2 processor to achieve high performance even at not so high frequency. The Godson-2 processorhas been physically implemented on a 6-metal 0.18 μm CMOS technology based on the automaticplacing and routing flow with the help of some crafted library cells and macros. The area of thechip is 6,700 micrometers by 6,200 micrometers and the clock cycle at typical corner is 2.3 ns. 展开更多
关键词 superscalar pipeline out-of-order execution branch prediction registerrenaming dynamic scheduling non-blocking cache load speculation
原文传递
我国水产品中农药扑草净残留超标的警示分析 被引量:29
2
作者 李庆鹏 秦达 +4 位作者 崔文慧 郭芹 项丽霞 靳婧 哈益明 《食品安全质量检测学报》 CAS 2014年第1期108-112,共5页
由于我国水产品中扑草净频频超标,日本加强对我国水产品的命令检查,出现了严重的贸易壁垒。本文通过对国内外扑草净残留限量标准的现状、扑草净在我国的使用情况、日本对扑草净残留的研究进行分析,综合评价了扑草净超标对我国水产品出... 由于我国水产品中扑草净频频超标,日本加强对我国水产品的命令检查,出现了严重的贸易壁垒。本文通过对国内外扑草净残留限量标准的现状、扑草净在我国的使用情况、日本对扑草净残留的研究进行分析,综合评价了扑草净超标对我国水产品出口的影响。通过分析,本文建议重点开展对鱼类、贝类及虾类等产品中扑草净含量的风险评估,为制定水产品中扑草净限量标准提供科学依据;同时强化对鱼类、贝类、虾类等产品中农药扑草净含量的监测,避免高残留产品冲击国内市场。 展开更多
关键词 水产品 扑草净残留 限量标准 超标
下载PDF
单芯片多处理器的性能优势 被引量:11
3
作者 黄光奇 周兴铭 《计算机工程与科学》 CSCD 2001年第1期35-38,64,共5页
本文以一个面积为 30 0 mm2左右的芯片设计为目标 ,描述了三种不同的芯片结构 :一种超标量结构 ,两种单芯片多处理器结构。模拟结果表明 ,由于超标量技术本身的局限性 ,单芯片多处理器结构相对于超标量结构具有明显的性能优势 ,对并行... 本文以一个面积为 30 0 mm2左右的芯片设计为目标 ,描述了三种不同的芯片结构 :一种超标量结构 ,两种单芯片多处理器结构。模拟结果表明 ,由于超标量技术本身的局限性 ,单芯片多处理器结构相对于超标量结构具有明显的性能优势 ,对并行性的开发更加有效。 展开更多
关键词 单芯片多处理器 超标量 执行时间 集成电路 微处理器
下载PDF
Implementing a 1GHz Four-Issue Out-of-Order Execution Microprocessor in a Standard Cell ASIC Methodology 被引量:14
4
作者 胡伟武 赵继业 +3 位作者 钟石强 杨旭 Elio Guidetti 吴永强 《Journal of Computer Science & Technology》 SCIE EI CSCD 2007年第1期1-14,共14页
This paper introduces the microarchitecture and physical implementation of the Godson-2E processor, which is a four-issue superscalar RISC processor that supports the 64-bit MIPS instruction set. The adoption of the a... This paper introduces the microarchitecture and physical implementation of the Godson-2E processor, which is a four-issue superscalar RISC processor that supports the 64-bit MIPS instruction set. The adoption of the aggressive out-of-order execution and memory hierarchy techniques help Godson-2E to achieve high performance. The Godson-2E processor has been physically designed in a 7-metal 90nm CMOS process using the cell-based methodology with some bitsliced manual placement and a number of crafted cells and macros. The processor can be run at 1GHz and achieves a SPEC CPU2000 rate higher than 500. 展开更多
关键词 general-purpose processor superscalar pipeline out-of-order execution non-blocking cache physical design synthesis flow bit-sliced placement crafted cell performance evaluation
原文传递
一种新的Cache优化方法──部分Cache局部性方法 被引量:9
5
作者 李明 唐志敏 《计算机学报》 EI CSCD 北大核心 1997年第1期1-8,共8页
Cache的性能优化在高性能计算中起着非常重要的作用.传统的cache优化方法(如分块方法)存在着一些缺陷.而RISC和超标量等技术的引入为cache的优化提供了新的途径.本文在分析RISC处理器的特点的基础上,提出... Cache的性能优化在高性能计算中起着非常重要的作用.传统的cache优化方法(如分块方法)存在着一些缺陷.而RISC和超标量等技术的引入为cache的优化提供了新的途径.本文在分析RISC处理器的特点的基础上,提出了“部分cache局部性”方法.实践表明,该方法有很好的优化效果,且易于实现. 展开更多
关键词 CACHE 访存局部性 RISC 超标量 分块方法
下载PDF
基于RISC-V的超标量处理器的ROB压缩方法
6
作者 王洁 付丹阳 《计算机工程与科学》 CSCD 北大核心 2024年第7期1185-1192,共8页
RISC-V指令集具有灵活可扩展的优势,向量扩展是其扩展指令集之一。在实现向量扩展时需要将向量指令拆分成多条微指令,如果每条微指令都占用一项重排序缓存(ROB),会存在一定的信息冗余,并且会减少CPU中并行执行的指令(in-flight指令)数量... RISC-V指令集具有灵活可扩展的优势,向量扩展是其扩展指令集之一。在实现向量扩展时需要将向量指令拆分成多条微指令,如果每条微指令都占用一项重排序缓存(ROB),会存在一定的信息冗余,并且会减少CPU中并行执行的指令(in-flight指令)数量,影响处理器性能。基于指令与微指令在ROB中的存储解耦方法,使用一个新的队列(RAB)存储每条微指令的目的寄存器的重命名映射关系等信息,每项ROB只存储其对应指令拆分的微指令的公共信息,ROB与RAB分别控制指令与微指令的提交与回滚,减少了存储信息冗余,缓解了由向量指令拆分的微指令过多导致的in-flight指令数量减少问题。在上述方法的基础上,同时实现了标量指令的ROB压缩,在ROB项数不变的情况下,增加了in-flight指令的最大数量。最终的仿真结果表明,此方法有效提高了处理器性能。 展开更多
关键词 RISC-V 超标量 处理器 ROB压缩
下载PDF
超标量微处理器研究与应用 被引量:4
7
作者 邓正宏 康慕宁 罗旻 《微电子学与计算机》 CSCD 北大核心 2004年第9期59-63,共5页
首先介绍了超标量体系结构的基础,深入研究了超标量体系结构的基本特点和性能分析,详细地探讨了超标量体系中遇到的数据相关和结构相关的问题以及解决相关问题的Tomasulo算法及计分牌算法。在文章的最后,简单的讨论了动态转移预测和重... 首先介绍了超标量体系结构的基础,深入研究了超标量体系结构的基本特点和性能分析,详细地探讨了超标量体系中遇到的数据相关和结构相关的问题以及解决相关问题的Tomasulo算法及计分牌算法。在文章的最后,简单的讨论了动态转移预测和重排序缓冲机制。 展开更多
关键词 超标量 微处理器
下载PDF
DSP体系结构发展综述 被引量:1
8
作者 宋文娜 徐东君 陈亮 《微电子学与计算机》 2023年第4期1-7,共7页
数字信号处理器(Digital Signal Processor,DSP)是一种用于数字信号处理的专用微处理器,在通信、自动化、雷达、航空航天等领域具有重要应用价值.本文系统阐述了DSP体系结构的发展过程和现状,介绍了主要生产厂商的DSP产品及其性能;总结... 数字信号处理器(Digital Signal Processor,DSP)是一种用于数字信号处理的专用微处理器,在通信、自动化、雷达、航空航天等领域具有重要应用价值.本文系统阐述了DSP体系结构的发展过程和现状,介绍了主要生产厂商的DSP产品及其性能;总结了DSP芯片的主要结构特点;分析了现有DSP体系结构设计中提升数据级和指令级并行性的主要技术,包括哈佛结构、硬件乘法器、SIMD、VLIW和超标量等.结合新时代DSP应用需求,本文提出了DSP体系结构研究的三个发展方向:(1)通过增加数据和指令并行性,向超高性能DSP发展,提升矢量、标量并行能力,支持张量计算,集成面向神经网络算子的专用控制通路和功能单元,提升AI计算处理能力;(2)从指令系统入手,将变长指令集与超标量技术结合,在实现指令并行的同时,结合可适应神经网络算法扩展的计算流控制指令,提升AI算法映射能力,同时降低代码密度,减小存储压力和取指带宽,降低成本,提升边缘智能实时处理应用能力;(3)兼容面向稀疏神经网络的压缩和并发访问的分布式存储结构,提升边缘智能片上部署能力和网络层多通道并行计算能力. 展开更多
关键词 哈佛结构 硬件乘法器 SIMD结构 VLIW技术 超标量
下载PDF
SMA:前瞻性多线程体系结构 被引量:4
9
作者 肖刚 周兴铭 +1 位作者 徐明 邓鹍 《计算机学报》 EI CSCD 北大核心 1999年第6期582-590,共9页
提出了一种新的ILP处理器体系结构——前瞻性多线程体系结构,简称SMA.它结合了前瞻性执行机制和多线程执行机制,以整个线程为步长进行前瞻性执行,多个线程并行执行并且共享处理器硬件资源.这样,处理器既通过组合每个线程的... 提出了一种新的ILP处理器体系结构——前瞻性多线程体系结构,简称SMA.它结合了前瞻性执行机制和多线程执行机制,以整个线程为步长进行前瞻性执行,多个线程并行执行并且共享处理器硬件资源.这样,处理器既通过组合每个线程的指令窗口形成一个大的动态指令窗口,开发出程序中更大的ILP,又利用多线程执行机制屏蔽各种长延迟操作,达到较高的资源利用率;介绍了SMA执行模型,并讨论了SMA处理器的实现和其中的关键技术.这些关键技术包括:线程控制、分布式寄存器重命名、指令发射执行、中断处理和处理器对编译优化的要求.性能分析结果表明SMA处理器可以适应各种不同类型的程序,以达到高性能,如果采用较好的编译支持和线程预测算法。 展开更多
关键词 前瞻性执行 多线程 SMA 体系结构 微处理器
下载PDF
处理器值预测技术研究
10
作者 黄立波 杨凌 +5 位作者 杨乾明 马胜 王永文 隋兵才 沈立 徐炜遐 《电子学报》 EI CAS CSCD 北大核心 2023年第12期3591-3618,共28页
当今的处理器性能与存储器带宽和延迟严重失衡的问题限制了计算系统的整体性能,而存储器的性能对制程工艺不敏感,在后摩尔时代下很难再通过集成电路制造工艺的迭代获得处理器性能收益,因此人们更多地想通过体系结构的创新获得更高性能... 当今的处理器性能与存储器带宽和延迟严重失衡的问题限制了计算系统的整体性能,而存储器的性能对制程工艺不敏感,在后摩尔时代下很难再通过集成电路制造工艺的迭代获得处理器性能收益,因此人们更多地想通过体系结构的创新获得更高性能的计算系统.处理器值预测技术是一种能在无需改变存储系统情况下有效缓解存储墙问题的解决方案,其通过预测性地打破数据真相关进而让更多的指令可以在乱序处理器中并行执行,而无需等待由于访存等操作造成的长周期指令执行.近年来,值预测在各个方面都有了实质性的进步,但现如今还没有商用处理器使用这一技术,这主要是由于值预测技术的使用还面临许多挑战:现有的处理器的流水线架构不能直接使用值预测技术;值预测所需的预测值传递机制需要额外的硬件资源开销;值预测器巨大的存储开销让其很难在片上实现;由于值预测错误时的性能惩罚大,因此预测准确率较低的值预测器会降低处理器性能.针对这些问题,本文以值预测技术为中心,围绕值预测技术相关的流水线架构、值预测器结构和错误恢复机制三个方面分别详细论述了国内外研究成果以及其对于各个问题挑战的解决策略.最后,本文对当今的处理器值预测技术进行了总结并对未来的研究方向进行了展望. 展开更多
关键词 值预测 数据依赖 处理器 流水线 存储墙 超标量
下载PDF
混合架构通用数字信号处理器设计 被引量:4
11
作者 王旭 付家为 何虎 《计算机工程与设计》 北大核心 2017年第1期70-74,共5页
针对嵌入式设备对高性能数字信号处理器低功耗的需求,结合超标量处理器与超长指令字处理器各自的优点,提出一种将两种架构进行融合的单核处理器设计方法,取代ARM+DSP异构架构。充分发挥两者优势,降低处理器的功耗和面积,提高处理器在数... 针对嵌入式设备对高性能数字信号处理器低功耗的需求,结合超标量处理器与超长指令字处理器各自的优点,提出一种将两种架构进行融合的单核处理器设计方法,取代ARM+DSP异构架构。充分发挥两者优势,降低处理器的功耗和面积,提高处理器在数字信号处理方面的性能;支持ARM指令集,顺序超标量模式的双发射和超长指令字模式的六发射能够极大提高地指令并行度。利用DSPStone基准测试程序对处理器进行测试验证,测试结果表明,混合架构的处理器性能平均提升了19.4%,最高提升了38.2%。 展开更多
关键词 超标量 超长指令字 混合架构 指令并行度 流水线
下载PDF
高效多分支预测器设计与实现
12
作者 杨凌 周锦文 +5 位作者 王京 兰孟桥 丁梓坚 杨实 王永文 黄立波 《计算机科学与探索》 CSCD 北大核心 2023年第8期1842-1851,共10页
分支预测是保证处理器性能的重要技术,尤其在当今广泛应用的超标量处理器中,分支预测器的各项属性极大地影响着处理器的整体性能、功耗和面积。为了在超标量处理器中获得具有较高性价比的分支预测器,尝试使用了TAGE预测器对取指宽度内... 分支预测是保证处理器性能的重要技术,尤其在当今广泛应用的超标量处理器中,分支预测器的各项属性极大地影响着处理器的整体性能、功耗和面积。为了在超标量处理器中获得具有较高性价比的分支预测器,尝试使用了TAGE预测器对取指宽度内的所有分支进行预测,并利用分支预测竞赛平台对预测器的理想性能进行了评估,发现其预测能力是足以满足预测条件的。但在实践过程中发现多分支取指时分支预测器和分支目标缓存内均会存在冲突的情况,这严重影响了预测器的性能。为了解决以上问题,在单个TAGE分支预测器的基础上增加了额外的预测通路,独立地保存和预测额外的分支指令信息。并利用硬件描述语言在超标量处理器中实现了这一预测器,同时将其与单个TAGE分支预测器进行了嵌入式处理器常用基准程序dhrystone、coremark和embench的性能对比实验。实验结果表明,优化后的分支预测器性能提高了14.1个百分点,而存储开销只增加了9.06%。最后通过实验数据分析,发现这一方案不仅有利于额外的分支指令预测,而且可以通过更加准确的分支历史信息获取实现更加准确的单分支取指预测。 展开更多
关键词 分支预测 TAGE 嵌入式 超标量 处理器
下载PDF
兼容MIPS指令集的超标量微处理器ALU设计 被引量:2
13
作者 杨通辉 杨洪斌 吴悦 《计算机工程与应用》 CSCD 北大核心 2005年第35期92-94,97,共4页
文章介绍了一种兼容MIPS指令系统的32位超标量微处理器IP核(简称BSR03)的设计。重点讨论了其中的32位先行进位ALU的设计,以及对补码数与无符号数算术运算的溢出、进位、借位、比较等问题的处理方法。BSR03采用自顶向下的层次设计方法,用... 文章介绍了一种兼容MIPS指令系统的32位超标量微处理器IP核(简称BSR03)的设计。重点讨论了其中的32位先行进位ALU的设计,以及对补码数与无符号数算术运算的溢出、进位、借位、比较等问题的处理方法。BSR03采用自顶向下的层次设计方法,用VH DL语言进行描述,用Active-H DL6.1进行仿真、验证,用synplify pro7.1进行综合,该设计符合预定的结果。 展开更多
关键词 微处理器 ALU 超标量
下载PDF
专用指令分组密码微处理器体系结构研究 被引量:3
14
作者 于学荣 刘元锋 戴紫彬 《微计算机信息》 北大核心 2007年第03X期84-85,99,共3页
本文以分组密码算法为研究对象,结合微处理器体系结构的特点,研究能够高效灵活实现多种分组密码算法的处理器体系结构。论文通过分析现有分组密码算法结构特点,从实现方式的灵活性和高性能角度出发,提出了一种基于专用指令集的分组密码... 本文以分组密码算法为研究对象,结合微处理器体系结构的特点,研究能够高效灵活实现多种分组密码算法的处理器体系结构。论文通过分析现有分组密码算法结构特点,从实现方式的灵活性和高性能角度出发,提出了一种基于专用指令集的分组密码微处理器的设计思路,并给出了分组密码微处理器的运算单元设计方案及整体系统架构。 展开更多
关键词 分组密码 专用指令集密码微处理器 流水线 超标量体系结构 指令级并行
下载PDF
MICROTHREAD BASED (MTB) COARSE GRAINED FAULT TOLERANCE SUPERSCALAR PROCESSOR ARCHITECTURE 被引量:3
15
作者 Fu Zhongchuan Chen Hongsong Cui Gang 《Journal of Electronics(China)》 2006年第3期461-466,共6页
Fault tolerance in microprocessor systems has become a popular topic of architecture research. Much work has been done at different levels to accomplish reliability against soft errors, and some fault tolerance archit... Fault tolerance in microprocessor systems has become a popular topic of architecture research. Much work has been done at different levels to accomplish reliability against soft errors, and some fault tolerance architectures have been proposed. But little attention is paid to the thread level superscalar fault tolerance. This letter introduces microthread concept into superscalar processor fault tolerance domain, and puts forward a novel fault tolerance architecture, namely, MicroThread Based (MTB) coarse grained transient fault tolerance superscalar processor architecture, then discusses some detailed implementations. 展开更多
关键词 Microthread Basic block Coarse grained fault tolerance superscalar processor
下载PDF
32位RISC微处理器中分支预测器的硬件实现 被引量:3
16
作者 汪永威 樊晓桠 黄小平 《计算机应用研究》 CSCD 北大核心 2009年第2期419-421,共3页
提出了一种基于Bi-mode和分支路径历史的动态分支预测器,并在西北工业大学自主设计的"龙腾R2"微处理器中得以FPGA硬件实现,提出的分支预测器对条件分支可以进行准确地预测,具有延迟小、功耗低的特点。
关键词 分支预测 超标量 分支历史
下载PDF
多线程体系结构现状及发展 被引量:2
17
作者 肖刚 徐明 周兴铭 《计算机科学》 CSCD 北大核心 1998年第4期70-76,共7页
一、引言多线程体系结构结合了数据流结构和传统的冯氏控制流结构,既保持了指令执行的高性能,又实现了处理器的高效率,是一种通用而高效的延迟隐藏技术。早期的多线程体系结构可以追朔到CI)巳6600和HEP,现今的多线程处理器中的很多技术... 一、引言多线程体系结构结合了数据流结构和传统的冯氏控制流结构,既保持了指令执行的高性能,又实现了处理器的高效率,是一种通用而高效的延迟隐藏技术。早期的多线程体系结构可以追朔到CI)巳6600和HEP,现今的多线程处理器中的很多技术都可以在它们那里找到踪迹。 展开更多
关键词 计算机 体系结构 多线程体系结构
下载PDF
前瞻性执行超标量处理器的性能分析模型 被引量:1
18
作者 肖刚 周兴铭 《计算机研究与发展》 EI CSCD 北大核心 1999年第4期494-499,共6页
前瞻性执行技术是一种提高超标量处理器性能的有效技术,为了分析前瞻性执行的超标量处理器的性能潜力,文中对其建立了一个性能分析模型.此分析模型由结构冲突模型、数据和控制冲突模型两部分构成,具有很好的可实现性.文中利用此模... 前瞻性执行技术是一种提高超标量处理器性能的有效技术,为了分析前瞻性执行的超标量处理器的性能潜力,文中对其建立了一个性能分析模型.此分析模型由结构冲突模型、数据和控制冲突模型两部分构成,具有很好的可实现性.文中利用此模型对9个Benchmark程序对不同的硬件配置进行了性能分析研究。 展开更多
关键词 超标量 前瞻性执行 MARKOV过程 微处理器
下载PDF
32位嵌入式CPU的微体系结构设计 被引量:3
19
作者 马鹏 卢景芬 龚令侃 《计算机工程》 CAS CSCD 北大核心 2008年第B09期136-138,共3页
介绍一款自主设计的嵌入式CPU的微体系结构,给出流水线的设计、分支预测的策略、乱序执行指令的顺序提交、精确异常等议题。提出了CPU内5个执行单元的功能,以及CPU的存储子系统。目前该CPU的前端设计已经完成并通过了FPGA验证。
关键词 微体系结构 超标量技术 分支预测 精确异常
下载PDF
Trace Software Pipelining
20
作者 王剑 AndreasKrall 《Journal of Computer Science & Technology》 SCIE EI CSCD 1995年第6期481-490,共10页
Global software pipelining is a complex but efficient compilation technique to exploit instruction-level parallelism for loops with branches. This paper presents a novel global software pipelining technique, called Th... Global software pipelining is a complex but efficient compilation technique to exploit instruction-level parallelism for loops with branches. This paper presents a novel global software pipelining technique, called Thace Software Pipelining,targeted to the instruction-level parallel processors such as Very Long Instruc-tion Word (VLIW) and superscalar machines. Thace software pipelining applies a global code scheduling technique to compact the original loop body. The re-sulting loop is called a trace software pipelined (TSP) code. The trace softwrae pipelined code can be directly executed with special architectural support or call be transformed into a globally software pipelined loop for the current VLIW and superscalar processors. Thus, exploiting parallelism across all iterations of a loop can be completed through compacting the original loop body with any global code scheduling technique. This makes our new technique very promis-ing in practical compilers. Finally, we also present the preliminary experimental results to support our new approach. 展开更多
关键词 Instruction-level parallelism fine-grain parallelism software pipelining loop scheduling Very Long Instruction Word (VLIW) superscalar processor
原文传递
上一页 1 2 5 下一页 到第
使用帮助 返回顶部