期刊文献+
共找到70篇文章
< 1 2 4 >
每页显示 20 50 100
以基本块为单位的非顺序指令预取 被引量:4
1
作者 沈立 戴葵 王志英 《计算机工程与科学》 CSCD 2003年第4期94-98,共5页
取指令能力的高低对微处理器的性能有很大影响。指令预取技术能够有效地降低指令Cache的访问失效率,提高微处理器的取指令能力,进而提高微处理器的性能。本文提出了一种由分支指令指导的、以基本块为单位的非顺序指令预取技术,每次预取... 取指令能力的高低对微处理器的性能有很大影响。指令预取技术能够有效地降低指令Cache的访问失效率,提高微处理器的取指令能力,进而提高微处理器的性能。本文提出了一种由分支指令指导的、以基本块为单位的非顺序指令预取技术,每次预取将一个完整的基本块读入指令Cache。这种方法使用静态策略分析程序行为,实现所需的硬件复杂度低。模拟结果显示,该方法能够有效地提高指令Cache访问的命中率。 展开更多
关键词 微处理器 指令处理模块 基本块 非顺序指令预取 执行模块
下载PDF
基于记录缓冲的低功耗指令Cache方案 被引量:5
2
作者 马志强 季振洲 胡铭曾 《计算机研究与发展》 EI CSCD 北大核心 2006年第4期744-751,共8页
现代微处理器大多采用片上Cache来缓解主存储器与中央处理器(CPU)之间速度的巨大差异,但Cache也成为处理器功耗的主要来源,尤其是其中大部分功耗来自于指令Cache.采用缓冲器可以过滤掉大部分的指令Cache访问,从而降低功耗,但仍存在相当... 现代微处理器大多采用片上Cache来缓解主存储器与中央处理器(CPU)之间速度的巨大差异,但Cache也成为处理器功耗的主要来源,尤其是其中大部分功耗来自于指令Cache.采用缓冲器可以过滤掉大部分的指令Cache访问,从而降低功耗,但仍存在相当程度不必要的存储体访问,据此提出了一种基于记录缓冲的低功耗指令Cache结构RBC.通过记录缓冲器和对存储体的改造,RBC能够过滤大部分不必要的存储体访问,有效地降低了Cache的功耗.对10个SPEC2000标准测试程序的仿真结果表明,与传统基于缓冲器的Cache结构相比,在仅牺牲6.01%处理器性能和3.75%面积的基础上,该方案可以节省24.33%的指令Cache功耗. 展开更多
关键词 低功耗 指令cache 缓冲器 CPU
下载PDF
带Cache和精确中断响应的CPU设计 被引量:5
3
作者 刘秋菊 李飞 刘书伦 《实验室研究与探索》 CAS 北大核心 2012年第3期68-74,95,共8页
提出了带Cache和精确中断响应的CPU设计方案,实现指令集MIPS中选取15条指令作为本CPU的基本指令。采用基本5步流水线CPU设计,给出了指令Cache、数据Cache和精确中断响应的设计与实现。测试结果表明,该方案符合设计要求。
关键词 5步流水线 指令cache 精确中断响应 CPU设计
下载PDF
一种基于流水线的指令CACHE优化设计 被引量:3
4
作者 田芳芳 樊晓桠 +1 位作者 靖朝鹏 靳战鹏 《微电子学与计算机》 CSCD 北大核心 2006年第1期93-96,共4页
在现代微处理器的设计中,CACHE是整个微处理器性能的决定性因素。本文详细介绍了32位RISC微处理器“龙腾”R2中指令CACHE的体系结构,着重研究了其设计和实现问题。为了提高性能,采用了预取技术和流水线技术来优化设计,仿真结果表明得到... 在现代微处理器的设计中,CACHE是整个微处理器性能的决定性因素。本文详细介绍了32位RISC微处理器“龙腾”R2中指令CACHE的体系结构,着重研究了其设计和实现问题。为了提高性能,采用了预取技术和流水线技术来优化设计,仿真结果表明得到了预期的效果。 展开更多
关键词 指令cache 流水线 存储子系统
下载PDF
指令cache体系结构级功耗控制策略研究 被引量:4
5
作者 周宏伟 张民选 《电子学报》 EI CAS CSCD 北大核心 2008年第11期2107-2112,共6页
随着工艺尺寸缩小及处理器频率提高,功耗问题已成为当代微处理器设计面临的主要挑战.传统的指令cache(I-Cache)功耗控制策略一般只单独降低指令cache的动态或者静态功耗.提出的两种改进的功耗控制策略,基于昏睡指令cache体系结构,能够... 随着工艺尺寸缩小及处理器频率提高,功耗问题已成为当代微处理器设计面临的主要挑战.传统的指令cache(I-Cache)功耗控制策略一般只单独降低指令cache的动态或者静态功耗.提出的两种改进的功耗控制策略,基于昏睡指令cache体系结构,能够更有效地同时降低指令cache的动态和静态功耗.一种称作"使用双预测端口路预测器的多路路预测策略",另一种称作"基于分阶段访问cache的按需唤醒预测策略",分别用于处理器前端流水线级数保持不变和可以增加额外前端流水线级数两种情形.实验结果表明:与传统的策略相比,提出的两种策略具有更优的能量效率,可以在不显著影响处理器性能的前提下,更有效地降低指令cache和处理器的功耗. 展开更多
关键词 指令 cache 功耗 体系结构
下载PDF
一种带Cache的嵌入式CPU的设计与实现 被引量:4
6
作者 东野长磊 戚梅 《微型机与应用》 2010年第14期17-19,22,共4页
基于FPGA平台实现了嵌入式RISC CPU的设计。根据项目要求,实现指令集为MIPSCPU指令集的一个子集,分析指令处理过程,构建了嵌入式CPU的5级数据通路。分析了流水线产生的相关性问题,采用数据前推技术和软件编译结合的解决方案。给出了控... 基于FPGA平台实现了嵌入式RISC CPU的设计。根据项目要求,实现指令集为MIPSCPU指令集的一个子集,分析指令处理过程,构建了嵌入式CPU的5级数据通路。分析了流水线产生的相关性问题,采用数据前推技术和软件编译结合的解决方案。给出了控制单元、运算单元、指令Cache的实现与设计。在FPGA平台上实现并验证了CPU的设计。 展开更多
关键词 嵌入式CPU 流水线 数据相关 指令cache
下载PDF
CASA:A New IFU Architecture for Power-Efficient Instruction Cache and TLB Designs
7
作者 孙含欣 杨鲲鹏 +2 位作者 赵雨来 佟冬 程旭 《Journal of Computer Science & Technology》 SCIE EI CSCD 2008年第1期141-153,共13页
The instruction fetch unit (IFU) usually dissipates a considerable portion of total chip power. In traditional IFU architectures, as soon as the fetch address is generated, it needs to be sent to the instruction cac... The instruction fetch unit (IFU) usually dissipates a considerable portion of total chip power. In traditional IFU architectures, as soon as the fetch address is generated, it needs to be sent to the instruction cache and TLB arrays for instruction fetch. Since limited work can be done by the power-saving logic after the fetch address generation and before the instruction fetch, previous power-saving approaches usually suffer from the unnecessary restrictions from traditional IFU architectures. In this paper, we present CASA, a new power-aware IFU architecture, which effectively reduces the unnecessary restrictions on the power-saving approaches and provides sufficient time and information for the power-saving logic of both instruction cache and TLB. By analyzing, recording, and utilizing the key information of the dynamic instruction flow early in the front-end pipeline, CASA brings the opportunity to maximize the power efficiency and minimize the performance overhead. Compared to the baseline configuration, the leakage and dynamic power of instruction cache is reduced by 89.7% and 64.1% respectively, and the dynamic power of instruction TLB is reduced by 90.2%. Meanwhile the performance degradation in the worst case is only 0.63%. Compared to previous state-of-the-art power-saving approaches, the CASA-based approach saves IFU power more effectively, incurs less performance overhead and achieves better scalability. It is promising that CASA can stimulate further work on architectural solutions to power-efficient IFU designs. 展开更多
关键词 computer architecture instruction cache instruction TLB instruction fetch unit power-efficient design dynamic voltage scaling
原文传递
基于指令Cache和寄存器压力的循环展开优化 被引量:2
8
作者 王翠霞 韩林 刘浩浩 《计算机工程与科学》 CSCD 北大核心 2022年第12期2111-2119,共9页
循环展开是一种常用的编译优化技术,能够有效减少循环开销,提升指令级并行程度和数据局部性,提升循环的执行效能。然而,过度的循环展开会造成指令Cache溢出,增大寄存器压力,循环展开次数太少又会浪费潜在的性能提升机会,因此寻找恰当的... 循环展开是一种常用的编译优化技术,能够有效减少循环开销,提升指令级并行程度和数据局部性,提升循环的执行效能。然而,过度的循环展开会造成指令Cache溢出,增大寄存器压力,循环展开次数太少又会浪费潜在的性能提升机会,因此寻找恰当的展开因子是研究循环展开问题的核心。基于GCC开源编译器,面向循环展开问题开展深入的分析与研究,针对指令Cache和寄存器资源对循环展开的影响,提出了一种基于指令Cache和寄存器压力的循环展开因子计算方法,并在GCC编译器中实现了该计算方法。申威和海光平台上的实验结果显示,相较于目前GCC中存在的其它展开因子计算方法,所提出的方法可以获得更为有效的循环展开因子,提升了程序性能。在SPEC CPU 2006测试集上的平均性能分别提升了2.7%和3.1%,在NPB-3.3.1测试集上的分别为5.4%和6.1%。 展开更多
关键词 编译优化 循环展开 展开因子 指令cache 寄存器压力
下载PDF
基于BWDSP指令Cache的PLRU替换算法研究 被引量:3
9
作者 洪兴勇 洪一 《电子技术应用》 北大核心 2013年第1期27-30,共4页
通过BWDSP模拟器对目前常用的几种替换算法和大小不同的指令Cache块进行仿真实验得出不同缺失率。实验结果表明,所提出的PLRU替换算法性能高于LRU、LFU、FIFO替换算法,并使BWDSP整体性能提高到为其他三种替换算法的1.12倍左右。
关键词 BWDSP 指令cache 替换算法 PLRU
下载PDF
指令Cache优化中代码重排技术研究 被引量:2
10
作者 张定飞 赵克佳 黄春 《计算机工程与应用》 CSCD 北大核心 2006年第7期28-30,68,共4页
代码重排技术是提高指令Cache命中率、提升程序性能的一种重要优化方法。文章介绍了代码重排的几种主要技术,并从排序粒度、实现时机、冲突考虑、算法代价等方面对代码重排技术进行了深入的分析与比较。
关键词 指令cache 代码重排 过程分裂
下载PDF
一种并行指令Cache的设计与实现 被引量:2
11
作者 刘宗林 马卓 +1 位作者 鲁建壮 唐涛 《微电子学与计算机》 CSCD 北大核心 2007年第12期147-149,共3页
为提高通用微处理器的执行效率,研究了高性能指令Cache的体系结构和设计方法。设计了高速并行指令Cache的系统架构,将Cache体访问与线形地址到物理地址的地址转换并行操作,成功实现一个时钟周期内完成地址转换和指令读出的设计目标。详... 为提高通用微处理器的执行效率,研究了高性能指令Cache的体系结构和设计方法。设计了高速并行指令Cache的系统架构,将Cache体访问与线形地址到物理地址的地址转换并行操作,成功实现一个时钟周期内完成地址转换和指令读出的设计目标。详细设计了Cache体和TLB的逻辑结构,并对相关设计参数进行了精心规划,并在设计中采用了奇偶校验逻辑增加了芯片的可靠性。此结构应用于JX微处理器流片成功,并工作可靠正确。 展开更多
关键词 X86结构 指令cache TLB 替换策略
下载PDF
支持指令预取的多核缓存WCET分析方法 被引量:3
12
作者 安立奎 韩丽艳 《计算机工程》 CAS CSCD 北大核心 2018年第10期85-94,100,共11页
为确保硬实时任务满足时间截止期,需要分析硬实时任务的支持指令预取缓存,而现有方法多数仅限于单级指令缓存,不能用于嵌入式多核下支持指令预取的多级缓存分析。为此,在基于组缓存划分的多核模型下,通过对抽象解释的缓存分析模型进行... 为确保硬实时任务满足时间截止期,需要分析硬实时任务的支持指令预取缓存,而现有方法多数仅限于单级指令缓存,不能用于嵌入式多核下支持指令预取的多级缓存分析。为此,在基于组缓存划分的多核模型下,通过对抽象解释的缓存分析模型进行指令预取语义扩展,提出一种支持指令预取的多核缓存分析方法。实验结果表明,该方法安全性较高,能够提高多核下硬实时任务的预取缓存性能。 展开更多
关键词 嵌入式多核 硬实时任务 最差情况执行时间 指令预取 缓存划分
下载PDF
众核处理器的流水线紧耦合指令循环缓存设计 被引量:2
13
作者 张昆 过锋 +1 位作者 郑方 谢向辉 《计算机研究与发展》 EI CSCD 北大核心 2017年第4期813-820,共8页
能效比是未来高性能计算机需要解决的重要问题.众核处理器作为高性能计算机的重要实现手段,其微结构的优化设计对能效比提升尤为关键.提出了1种面向众核处理器的流水线紧耦合的指令循环缓存设计,以较小的L0指令缓存提供更加高能效的指... 能效比是未来高性能计算机需要解决的重要问题.众核处理器作为高性能计算机的重要实现手段,其微结构的优化设计对能效比提升尤为关键.提出了1种面向众核处理器的流水线紧耦合的指令循环缓存设计,以较小的L0指令缓存提供更加高能效的指令取指.作为体系结构研究同硬件可实现性紧密结合的1次尝试,设计始终考虑了硬件实现代价这一关键约束.为了控制L0指令缓存对流水线性能的影响,指令缓存采用了循环出口预取技术,以此保证指令缓存提供的低功耗的指令取指能够最终转化为流水线能效比的提升.在gem5模拟器上实现了对指令循环缓存的模拟.对SPEC2006的测试结果表明,在不影响流水线性能的前提下,设计的典型配置可以减少27%的指令取指功耗以及31.5%的流水线前段部件动态功耗. 展开更多
关键词 循环缓存 众核处理器 能效比 旨令缓存 结构优化
下载PDF
基于预缓冲机制的低功耗指令Cache 被引量:2
14
作者 王冶 张盛兵 王党辉 《计算机工程》 CAS CSCD 2012年第1期268-269,272,共3页
为降低微处理器中片上Cache的能耗,设计一种基于预缓冲机制的指令Cache。通过预缓冲控制部件的预测,使处理器需要的指令尽可能在缓冲区命中,从而避免访问指令Cache所造成的功耗。对7个测试程序的仿真结果表明,预缓冲机制能节省23.23%的... 为降低微处理器中片上Cache的能耗,设计一种基于预缓冲机制的指令Cache。通过预缓冲控制部件的预测,使处理器需要的指令尽可能在缓冲区命中,从而避免访问指令Cache所造成的功耗。对7个测试程序的仿真结果表明,预缓冲机制能节省23.23%的处理器功耗,程序执行性能平均提升7.53%。 展开更多
关键词 微处理器 低功耗 指令cache 预缓冲 SimpleScalar仿真器
下载PDF
基于SRAM和STT-RAM的混合指令Cache设计
15
作者 皇甫晓妍 樊晓桠 黄小平 《计算机工程与应用》 CSCD 北大核心 2015年第12期43-48,共6页
随着工艺尺寸减小,传统基于SRAM的片上Cache的漏电流功耗成指数增长,阻碍了片上Cache容量的增加。基于牺牲者Cache的原理,利用SRAM写速度快,STT-RAM的非易失性、高密度、极低漏电流功耗等特性设计了一种基于SRAM和STT-RAM的混合型指令Ca... 随着工艺尺寸减小,传统基于SRAM的片上Cache的漏电流功耗成指数增长,阻碍了片上Cache容量的增加。基于牺牲者Cache的原理,利用SRAM写速度快,STT-RAM的非易失性、高密度、极低漏电流功耗等特性设计了一种基于SRAM和STT-RAM的混合型指令Cache。通过实验证明,该混合型指令Cache与传统基于SRAM的指令Cache相比,在不增加指令Cache面积的情况下,增加了指令Cache容量,并显著提高了指令Cache的命中率。 展开更多
关键词 自旋转移力矩随机存储器(STT-RAM) 指令cache 混合cache
下载PDF
Reducing Power and Energy Consumption of Nonvolatile Microcontrollers with Transparent On-Chip Instruction Cache 被引量:1
16
作者 Dahoo Kim Itaru Hida +2 位作者 Eric Shun Fukuda Tetsuya Asai Masato Motomura 《Circuits and Systems》 2014年第11期253-264,共12页
Demands for low-energy microcontrollers have been increasing in recent years. Since most microcontrollers achieve user programmability by integrating nonvolatile (NV) memories such as flash memories for storing their ... Demands for low-energy microcontrollers have been increasing in recent years. Since most microcontrollers achieve user programmability by integrating nonvolatile (NV) memories such as flash memories for storing their programs, the large power consumption required in accessing an NV memory has become a major problem. This problem becomes critical when the power supply voltage of NV microcontrollers is decreased. We can solve this problem by introducing an instruction cache, thus reducing the access frequency of the NV memory. Unlike general-purpose microprocessors, microcontrollers used for real-time applications in embedded systems must accurately calculate program execution time prior to its execution. Therefore, we introduce a “transparent” instruction cache, which does not change the existing NV microcontroller’s cycle-level execution time, for reducing power and energy consumption, but not for improving the processing speed. We have conducted detailed microar chitecture design based on the architecture of a major industrial microcontroller, and we evaluated power and energy consumption for several benchmark programs. Our evaluation shows that the proposed instruction cache can successfully reduce energy consumption in a fairly wide range of practical NV microcontroller configurations. 展开更多
关键词 Embedded System MICROCONTROLLER instruction cache NONVOLATILE Low-Power Design
下载PDF
网络处理器高频指令对的组合设计与分析
17
作者 陈红松 季振洲 +1 位作者 胡铭曾 季毅 《小型微型计算机系统》 CSCD 北大核心 2006年第2期339-342,共4页
网络处理器是专门为网络处理而设计的处理器,其指令集是软硬件的界面,指令集的设计对性能有较大的影响.本文提出了一种针对高频率指令对-HFIP的组合优化方法,该方法充分利用了网络处理器基准程序里指令执行过程中的动态相关性,开发了sim... 网络处理器是专门为网络处理而设计的处理器,其指令集是软硬件的界面,指令集的设计对性能有较大的影响.本文提出了一种针对高频率指令对-HFIP的组合优化方法,该方法充分利用了网络处理器基准程序里指令执行过程中的动态相关性,开发了simplescalar模拟器的指令格式里未使用的空位作为新指令的扩展域.采用量化的方法对实验结果进行分析,模拟结果显示该方法合理有效,在提高网络处理器性能的同时有效降低指令cache的功耗,实现性能/功耗的权衡. 展开更多
关键词 网络处理器 指令集 高频率指令对 指令cache
下载PDF
共享指令缓存XOR散列索引的研究与设计 被引量:2
18
作者 刘骁 唐勇 +1 位作者 郑方 丁亚军 《计算机学报》 EI CSCD 北大核心 2019年第11期2499-2511,共13页
SPMD(Single Program Multiple Data)是高性能领域的主要工作模式之一,该模式下邻近核心执行相同的程序块,但根据处理数据或控制流的差异,临近核心的指令流并不完全相同.L1 ICache(Instruction Cache)共享技术通过将邻近核心的L1 ICach... SPMD(Single Program Multiple Data)是高性能领域的主要工作模式之一,该模式下邻近核心执行相同的程序块,但根据处理数据或控制流的差异,临近核心的指令流并不完全相同.L1 ICache(Instruction Cache)共享技术通过将邻近核心的L1 ICache共享,能有效利用众核处理器SPMD工作模式的特点,同时能缓解片上资源紧张的问题.但共享结构会带来访问冲突,对性能有不利影响.本文基于排队网络对共享ICache的访问冲突进行了理论分析,该理论分析依据核心对共享ICache体的访问特性进行建模,避免了直接抽象物理节点导致的模型访存特性模糊问题.根据理论推导的指令缓存性能损失原因,本文设计了面向共享L1 ICache的低访问冲突XOR散列函数.函数的设计综合考虑搜索了代价和工程实现复杂性,在保证散列线性空间随机散列能力的前提下,对附加延迟、功耗开销进行控制.该散列函数基于异或操作,通过调整ICache排队网络模型的节点转换概率,降低了共享L1 ICache的访问冲突.实验结果表明,在指令缓存总容量为32 KB的四核心簇上,使用XOR散列的共享L1 ICache结构较私有L1 ICache结构性能平均优化11%,较使用低位交错策略的共享L1 ICache结构性能平均优化8%,较使用面向跨步访存散列策略的共享L1 ICache结构性能平均优化3.2%. 展开更多
关键词 单程序多数据流模型 指令缓存 众核处理器 排队网络模型 XOR散列函数
下载PDF
基于对称多处理机的指令Cache验证策略研究 被引量:1
19
作者 谭坚 李岱峰 +1 位作者 王俊 王丽一 《计算机应用与软件》 CSCD 北大核心 2013年第11期231-234,共4页
指令Cache作为高性能计算机系统中指令代码的高速缓冲,在整个系统中占有重要地位,其正确性验证工作很有必要。针对对称多处理机结构的一级和二级指令Cache验证提出多种验证策略,对各种验证策略造成指令Cache的颠簸效果进行实验和分析,... 指令Cache作为高性能计算机系统中指令代码的高速缓冲,在整个系统中占有重要地位,其正确性验证工作很有必要。针对对称多处理机结构的一级和二级指令Cache验证提出多种验证策略,对各种验证策略造成指令Cache的颠簸效果进行实验和分析,并且试图将各种验证策略综合成一个完备的验证系统,从而保证指令Cache设计的正确性。 展开更多
关键词 指令cache 验证策略 完备
下载PDF
基于标志编码的指令Cache低功耗方法 被引量:1
20
作者 李泉泉 龚晓华 郭二辉 《微电子学与计算机》 CSCD 北大核心 2016年第12期30-33,共4页
针对嵌入式处理器中指令Cache功耗显著的问题,提出了一种基于标志编码的低功耗指令Cache设计方法.通过增加一个容量很小的标志缓冲器来保存内核地址中的标志位,并利用位宽较小的标志编码存储器取代传统指令Cache结构中位宽较大的标志存... 针对嵌入式处理器中指令Cache功耗显著的问题,提出了一种基于标志编码的低功耗指令Cache设计方法.通过增加一个容量很小的标志缓冲器来保存内核地址中的标志位,并利用位宽较小的标志编码存储器取代传统指令Cache结构中位宽较大的标志存储器来存储标志缓冲器中每一行对应的编码数据,减小了指令Cache的面积,从而降低了每次访问指令Cache的功耗.实验结果表明,本文提出的指令Cache结构相比传统指令Cache结构功耗降低了11.76%,面积减小了10.04%. 展开更多
关键词 标志编码 低功耗 指令cache 嵌入式处理器
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部