期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
存内计算芯片研究进展及应用 被引量:5
1
作者 郭昕婕 王光燿 王绍迪 《电子与信息学报》 EI CSCD 北大核心 2023年第5期1888-1898,共11页
随着数据快速增长,冯诺依曼架构内存墙成为计算性能进一步提升的关键瓶颈。新型存算一体架构(包括存内计算(IMC)架构与近存计算(NMC)架构),有望打破冯诺依曼架构瓶颈,大幅提高算力和能效。该文介绍了存算一体芯片的发展历程、研究现状... 随着数据快速增长,冯诺依曼架构内存墙成为计算性能进一步提升的关键瓶颈。新型存算一体架构(包括存内计算(IMC)架构与近存计算(NMC)架构),有望打破冯诺依曼架构瓶颈,大幅提高算力和能效。该文介绍了存算一体芯片的发展历程、研究现状以及基于各类存储器介质(如传统存储器DRAM,SRAM和Flash和新型非易失性存储器ReRAM,PCM,MRAM,FeFET等)的存内计算基本原理、优势与面临的问题。然后,以知存科技WTM2101量产芯片为例,重点介绍了存算一体芯片的电路结构与应用现状。最后,分析了存算一体芯片未来的发展前景与面临的挑战。 展开更多
关键词 存算一体 存储墙 功耗墙 存内计算 近存计算 冯诺依曼架构瓶颈
下载PDF
端侧智能存算一体芯片概述 被引量:8
2
作者 郭昕婕 王绍迪 《微纳电子与智能制造》 2019年第2期72-82,共11页
现代电子设备朝着智能化、轻量化、便携化快速发展,但是智能大数据处理挑战与冯·诺依曼计算架构瓶颈成为当前电子信息领域的关键矛盾之一;同时,器件尺寸微缩(摩尔定律失效)带来的功耗与可靠性问题进一步加剧了该矛盾的快速恶化。... 现代电子设备朝着智能化、轻量化、便携化快速发展,但是智能大数据处理挑战与冯·诺依曼计算架构瓶颈成为当前电子信息领域的关键矛盾之一;同时,器件尺寸微缩(摩尔定律失效)带来的功耗与可靠性问题进一步加剧了该矛盾的快速恶化。近年来以数据为中心的新型计算架构,例如存算一体芯片技术,受到人们的广泛关注,尤其在端侧智能场景。但是,基于端侧设备在资源、时延、成本、功耗等诸多因素的考虑,业界对存算一体芯片提出了苛刻的要求。因此,存算一体介质与计算范式尤为重要。同时,器件—芯片—算法—应用跨层协同对存算一体芯片的产业化应用与生态构建非常关键。概述了端侧智能存算一体芯片的需求、现状、主流方向、应用前景与挑战等。 展开更多
关键词 端侧智能 存算一体 存储墙 冯·诺依曼计算架构瓶颈
下载PDF
大数据时代——从冯·诺依曼到计算存储融合 被引量:8
3
作者 邱赐云 李礼 +1 位作者 张欢 吴佳 《计算机科学》 CSCD 北大核心 2018年第B11期71-75,共5页
海量数据的出现和硬件计算能力的提升,催生了第三次人工智能的发展热潮,大数据时代来临。首先,分析了拥有冯·诺依曼体系结构的计算机在大数据时代遭遇的存储墙、带宽墙和功耗高问题,引出为适应和满足大数据处理需求的计算机体系结... 海量数据的出现和硬件计算能力的提升,催生了第三次人工智能的发展热潮,大数据时代来临。首先,分析了拥有冯·诺依曼体系结构的计算机在大数据时代遭遇的存储墙、带宽墙和功耗高问题,引出为适应和满足大数据处理需求的计算机体系结构的发展趋势;接着,分析计算机体系结构层面的计算存储融合技术、软硬件结构、offloading算法的设计思路与技术特点,以及在商业系统中的应用,为高性能计算、数据中心建设和智能SSD产品设计等提供启发意义;分析微观层面基于硅穿孔的3D堆叠封装技术和最新的产业动态;最后,阐述代表计算存储一体化发展目标的类脑计算和最新的研究进展。 展开更多
关键词 计算存储融合 存储墙 近端数据处理 3D堆叠 智能固态硬盘
下载PDF
异构多核SoC处理器内部存储架构优化 被引量:4
4
作者 张玄 张多利 宋宇鲲 《电子科技》 2022年第9期44-51,共8页
异构多核技术的发展使微处理器的性能有了较大提升,而处理器与外部存储器之间的带宽差异限制了处理器的性能发挥,“存储墙”问题日益严重。针对一种用于高密度计算的异构多核SoC系统,文中提出了一套存储设计方案。该方案通过复用一些长... 异构多核技术的发展使微处理器的性能有了较大提升,而处理器与外部存储器之间的带宽差异限制了处理器的性能发挥,“存储墙”问题日益严重。针对一种用于高密度计算的异构多核SoC系统,文中提出了一套存储设计方案。该方案通过复用一些长时间闲置的本地空闲存储资源作为二级共享缓存来增加访存带宽,减少访问外部存储频率。分布式高速共享二级缓存结合多路并行访问外部存储的层次化存储结构,缓解了系统处理数据与外部存储器间的速度差异,提高了数据的存取效率,优化了系统的性能。综合资源消耗和计算效率,文中所提设计相比普通二级缓存节约了69.36%的片上SRAM资源,相比无缓存结构提高了41.2%的加速比,整体任务计算时间平均减少了约40.6%。 展开更多
关键词 异构多核 存储墙 复用 多路并行 层次化存储 二级缓存 分布式 外部存储器
下载PDF
多核处理器非一致Cache体系结构延迟优化技术研究综述 被引量:4
5
作者 黄安文 高军 张民选 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期118-124,共7页
非一致Cache体系结构(non-uniform cache architecture,NUCA)为解决多核处理器(chip multi-processor)"存储墙"难题提供了新的设计思路.重点关注面向CMP的NUCA延迟优化技术,在介绍若干典型NUCA模型的基础上,分析大容量Cache... 非一致Cache体系结构(non-uniform cache architecture,NUCA)为解决多核处理器(chip multi-processor)"存储墙"难题提供了新的设计思路.重点关注面向CMP的NUCA延迟优化技术,在介绍若干典型NUCA模型的基础上,分析大容量Cache环境下共享/私有机制中的延迟-容量权衡问题,讨论映射、迁移、复制和搜索等数据管理机制在多核环境下的优缺点.最后,针对基于片上网络(network-on-chip,NoC)互连结构的可扩展CMP体系结构,从NUCA模型优化、数据管理和一致性维护机制3个方面讨论和预测未来CMP NUCA延迟优化领域的发展趋势及面临的挑战性问题. 展开更多
关键词 非一致Cache体系结构 多核处理器 片上网络 存储墙 延迟优化
下载PDF
Reevaluating Data Stall Time with the Consideration of Data Access Concurrency
6
作者 刘宇航 孙贤和 《Journal of Computer Science & Technology》 SCIE EI CSCD 2015年第2期227-245,共19页
Data access delay has become the prominent performance bottleneck of high-end computing systems. The key to reducing data access delay in system design is to diminish data stall time. Memory locality and concurrency a... Data access delay has become the prominent performance bottleneck of high-end computing systems. The key to reducing data access delay in system design is to diminish data stall time. Memory locality and concurrency are the two essential factors influencing the performance of modern memory systems. However, existing studies in reducing data stall time rarely focus on utilizing data access concurrency because the impact of memory concurrency on overall memory system performance is not well understood. In this study, a pair of novel data stall time models, the L-C model for the combined effort of locality and concurrency and the P-M model for the effect of pure miss on data stall time, are presented. The models provide a new understanding of data access delay and provide new directions for performance optimization. Based on these new models, a summary table of advanced cache optimizations is presented. It has 38 entries contributed by data concurrency while only has 21 entries contributed by data locality, which shows the value of data concurrency. The L-C and P-M models and their associated results and opportunities introduced in this study are important and necessary for future data-centric architecture and algorithm design of modern computing systems. 展开更多
关键词 memory wall data stall time memory concurrency concurrent average memory access time (C-AMAT)
原文传递
多核处理器共享Cache的划分算法
7
作者 吕海玉 罗广 +1 位作者 朱嘉炜 张凤登 《电子科技》 2024年第9期27-33,共7页
针对多核处理器性能优化问题,文中深入研究多核处理器上共享Cache的管理策略,提出了基于缓存时间公平性与吞吐率的共享Cache划分算法MT-FTP(Memory Time based Fair and Throughput Partitioning)。以公平性和吞吐率两个评价性指标建立... 针对多核处理器性能优化问题,文中深入研究多核处理器上共享Cache的管理策略,提出了基于缓存时间公平性与吞吐率的共享Cache划分算法MT-FTP(Memory Time based Fair and Throughput Partitioning)。以公平性和吞吐率两个评价性指标建立数学模型,并分析了算法的划分流程。仿真实验结果表明,MT-FTP算法在系统吞吐率方面表现较好,其平均IPC(Instructions Per Cycles)值比UCP(Use Case Point)算法高1.3%,比LRU(Least Recently Used)算法高11.6%。MT-FTP算法对应的系统平均公平性比LRU算法的系统平均公平性高17%,比UCP算法的平均公平性高16.5%。该算法实现了共享Cache划分公平性并兼顾了系统的吞吐率。 展开更多
关键词 片上多核处理器 内存墙 划分 公平性 吞吐率 共享CACHE 缓存时间 集成计算机
下载PDF
基于CMP的指针数据预取方法 被引量:4
8
作者 朱会东 黄永丽 宋宝卫 《计算机工程》 CAS CSCD 北大核心 2011年第6期71-73,共3页
针对现代计算机系统中的存储墙问题,提出一种适合于链式数据结构的数据预取方法——纯遍历推送方法。采用基于共享高速缓存的多核处理器平台CMP上的多线程技术,在主程序运行时分离出一个推送线程,由其将主线程需要的数据提前预取至处理... 针对现代计算机系统中的存储墙问题,提出一种适合于链式数据结构的数据预取方法——纯遍历推送方法。采用基于共享高速缓存的多核处理器平台CMP上的多线程技术,在主程序运行时分离出一个推送线程,由其将主线程需要的数据提前预取至处理器共享高速缓存中以隐藏主线程的存储器延迟。实验结果证明该方法在CMP架构下对以链式结构为主的内存受限程序的性能有一定的改进。 展开更多
关键词 存储墙 链式数据结构 多核多线程 数据预取
下载PDF
基于ESCA系统的层次化显式访存机制研究 被引量:2
9
作者 饶金理 吴丹 +4 位作者 陈攀 董冕 邓承诺 戴葵 邹雪城 《计算机工程》 CAS CSCD 北大核心 2011年第22期24-27,34,共5页
针对高性能混合计算系统中的存储墙问题,在分析其计算模式特点及传统访存机制局限性的基础上,提出适用于混合计算系统的层次化显式存储访问机制,并基于ESCA多核处理器系统进行实现和评测。实验结果显示,针对核心应用程序DGEMM,延迟隐藏... 针对高性能混合计算系统中的存储墙问题,在分析其计算模式特点及传统访存机制局限性的基础上,提出适用于混合计算系统的层次化显式存储访问机制,并基于ESCA多核处理器系统进行实现和评测。实验结果显示,针对核心应用程序DGEMM,延迟隐藏能够占据整体运行时间的56%,并获得1.5倍的加速比,能弥补计算与存储访问间的速度差异,提高系统计算效率。 展开更多
关键词 混合计算 存储墙 多核处理器 ESCA系统 层次化显示存储访问 延迟隐藏
下载PDF
基于RRAM双交叉阵列结构的三值存内逻辑电路设计
10
作者 刘维祎 孙亚男 何卫锋 《电子科技》 2022年第4期8-13,共6页
在RRAM交叉阵列结构中实现逻辑运算可以较好地解决传统冯诺依曼架构中的存储墙问题。三值逻辑相比于传统的二值逻辑,具有更少的逻辑操作数目和更快的运算速度。文中提出了一种基于RRAM双交叉阵列结构的三值存内逻辑电路设计,其中三值逻... 在RRAM交叉阵列结构中实现逻辑运算可以较好地解决传统冯诺依曼架构中的存储墙问题。三值逻辑相比于传统的二值逻辑,具有更少的逻辑操作数目和更快的运算速度。文中提出了一种基于RRAM双交叉阵列结构的三值存内逻辑电路设计,其中三值逻辑电路的输入与输出均通过多值RRAM的阻值表示。该结构支持两种三值逻辑门和一种二值逻辑门以提升计算速度。实验结果显示,相比于传统的二值存内逻辑电路设计,三值存内逻辑电路加法器可以减少68.84%的操作步数。相比于传统的IMPLY逻辑电路设计,三值存内逻辑电路加法器可以降低33.05%的能耗。 展开更多
关键词 三值存内逻辑 存储墙 阻变存储器 RRAM交叉阵列 多值单元 混合CMOS-MLC 三值加法器 碳纳米晶体管
下载PDF
十亿晶体管处理器体系结构研究
11
作者 温璞 杨学军 《计算机工程与科学》 CSCD 2007年第7期80-84,共5页
半导体工艺技术的飞速发展促使单芯片内集成有更多的晶体管资源。如何利用丰富的片上资源,已成为处理器体系结构研究的一个重点。本文综述了目前关于十亿晶体管处理器结构的研究现状,认为在缓解当前处理器面临的存储墙问题、功耗问题、... 半导体工艺技术的飞速发展促使单芯片内集成有更多的晶体管资源。如何利用丰富的片上资源,已成为处理器体系结构研究的一个重点。本文综述了目前关于十亿晶体管处理器结构的研究现状,认为在缓解当前处理器面临的存储墙问题、功耗问题、线延迟问题以及充分利用片上资源等方面,PIM结构是一种有效的途径,而与向量结构相结合则更能体现PIM结构的高带宽、低延迟优势。 展开更多
关键词 十亿晶体管结构 存储墙 向量处理 Processor-in-memory
下载PDF
非易失存算一体化材料与器件系统的研究进展
12
作者 高世凡 赵毅 《功能材料与器件学报》 CAS 2021年第6期487-493,共7页
随着电路功耗在物联网和高性能计算中逐渐成为瓶颈,架构侧的创新变得更为重要。存算一体化架构代表了一种将原有的数字计算在数字和模拟间重新分配以提高计算能效的思路。为实现这一目标,需要构造一套模拟计算的基础设施,包括针对模拟... 随着电路功耗在物联网和高性能计算中逐渐成为瓶颈,架构侧的创新变得更为重要。存算一体化架构代表了一种将原有的数字计算在数字和模拟间重新分配以提高计算能效的思路。为实现这一目标,需要构造一套模拟计算的基础设施,包括针对模拟特性进行优化的存储器以及模拟计算电路。其中,基于非易失存储器的技术路线具有较低的静态功耗,从而能够充分利用存算一体化高能效的特点。本文将从上述角度介绍非易失存算一体化架构的基本原理、核心技术的研究现状、在神经网络等场景的应用开发以及对于下一步发展的展望。 展开更多
关键词 存算一体化 模拟计算 读写分离 存储墙 计算墙
原文传递
处理器值预测技术研究
13
作者 黄立波 杨凌 +5 位作者 杨乾明 马胜 王永文 隋兵才 沈立 徐炜遐 《电子学报》 EI CAS CSCD 北大核心 2023年第12期3591-3618,共28页
当今的处理器性能与存储器带宽和延迟严重失衡的问题限制了计算系统的整体性能,而存储器的性能对制程工艺不敏感,在后摩尔时代下很难再通过集成电路制造工艺的迭代获得处理器性能收益,因此人们更多地想通过体系结构的创新获得更高性能... 当今的处理器性能与存储器带宽和延迟严重失衡的问题限制了计算系统的整体性能,而存储器的性能对制程工艺不敏感,在后摩尔时代下很难再通过集成电路制造工艺的迭代获得处理器性能收益,因此人们更多地想通过体系结构的创新获得更高性能的计算系统.处理器值预测技术是一种能在无需改变存储系统情况下有效缓解存储墙问题的解决方案,其通过预测性地打破数据真相关进而让更多的指令可以在乱序处理器中并行执行,而无需等待由于访存等操作造成的长周期指令执行.近年来,值预测在各个方面都有了实质性的进步,但现如今还没有商用处理器使用这一技术,这主要是由于值预测技术的使用还面临许多挑战:现有的处理器的流水线架构不能直接使用值预测技术;值预测所需的预测值传递机制需要额外的硬件资源开销;值预测器巨大的存储开销让其很难在片上实现;由于值预测错误时的性能惩罚大,因此预测准确率较低的值预测器会降低处理器性能.针对这些问题,本文以值预测技术为中心,围绕值预测技术相关的流水线架构、值预测器结构和错误恢复机制三个方面分别详细论述了国内外研究成果以及其对于各个问题挑战的解决策略.最后,本文对当今的处理器值预测技术进行了总结并对未来的研究方向进行了展望. 展开更多
关键词 值预测 数据依赖 处理器 流水线 存储墙 超标量
下载PDF
程序局部性的量化分析 被引量:1
14
作者 刘扬 安虹 +2 位作者 邓博斌 毛梦捷 刘玉 《计算机工程》 CAS CSCD 2013年第1期67-70,75,共5页
给出与平台无关的局部性量化方法,从空间局部性和时间局部性2个角度,量化SPEC2000测试基准程序,以及这些程序的数据段、代码段和堆栈段。时间和空间局部性组成的二维局部性分布直观地展示了基准测试程序的局部性。实验结果表明,程序数... 给出与平台无关的局部性量化方法,从空间局部性和时间局部性2个角度,量化SPEC2000测试基准程序,以及这些程序的数据段、代码段和堆栈段。时间和空间局部性组成的二维局部性分布直观地展示了基准测试程序的局部性。实验结果表明,程序数据局部性主要由堆段的局部性决定,堆段的局部性最差,栈的局部性最优。 展开更多
关键词 存储墙 局部性 重用距离 时间局部性 空间局部性 缓存
下载PDF
基于数据表精简算法的超越函数访存优化方法 被引量:1
15
作者 孟虹松 郭绍忠 +2 位作者 许谨晨 王磊 张乾坤 《信息工程大学学报》 2019年第3期328-334,共7页
高性能计算机平台的超越函数由于采用查表与多项式结合算法,性能深受“存储墙”问题的影响,函数绝大部分执行时间消耗集中于访存操作。为有效解决此问题,提出基于数据表精简算法的超越函数访存优化方法。将该方法应用于Mlib基础数学库,... 高性能计算机平台的超越函数由于采用查表与多项式结合算法,性能深受“存储墙”问题的影响,函数绝大部分执行时间消耗集中于访存操作。为有效解决此问题,提出基于数据表精简算法的超越函数访存优化方法。将该方法应用于Mlib基础数学库,对库中的超越函数进行测试。测试结果表明,该方法能够有效对超越函数进行访存优化,函数性能平均提升55.06%,验证该访存优化方法的高效性和实用性。 展开更多
关键词 存储墙问题 超越函数 访存优化 数据表精简 转指令
下载PDF
基于经验搜索的多级存储层次优化 被引量:1
16
作者 陆平静 车永刚 王正华 《计算机工程与应用》 CSCD 北大核心 2006年第34期67-69,共3页
存储墙是影响单机性能优化的重要因素,其缓解依赖于对程序进行存储优化。论文提出基于经验搜索的多级存储层次优化方法,将优化多级存储层次问题转化为对优化参数的经验搜索问题,并基于遗传算法选择全局最优解。实验表明,该技术可以自适... 存储墙是影响单机性能优化的重要因素,其缓解依赖于对程序进行存储优化。论文提出基于经验搜索的多级存储层次优化方法,将优化多级存储层次问题转化为对优化参数的经验搜索问题,并基于遗传算法选择全局最优解。实验表明,该技术可以自适应不同应用程序,大大降低存储访问时间,降低存储因素对程序性能的影响,从而有效地缓解存储墙问题。 展开更多
关键词 存储墙 经验搜索 优化参数 自适应
下载PDF
基于流访问特征的多级硬件预取 被引量:1
17
作者 贾迅 翁志强 胡向东 《计算机工程》 CAS CSCD 北大核心 2016年第1期51-55,共5页
硬件数据预取技术将处理器可能访问的数据提前装入Cache中,使得处理器访存时尽量命中Cache,提升系统性能。但现有研究和应用主要对一级Cache进行预取,预取的数据可能在使用前无法及时装入Cache,从而降低硬件预取对系统性能的提升效果。... 硬件数据预取技术将处理器可能访问的数据提前装入Cache中,使得处理器访存时尽量命中Cache,提升系统性能。但现有研究和应用主要对一级Cache进行预取,预取的数据可能在使用前无法及时装入Cache,从而降低硬件预取对系统性能的提升效果。针对上述问题,以流访问特征的预取为基础,提出一种同时对多级Cache进行预取的方法,并对流访问特征的预取进行实现。基于SPEC CPU2000测试程序集的实验结果表明,与仅对一级Cache进行预取相比,对多级Cache同时进行预取可以将整数程序的性能平均提升2.11%,最高提升11.19%,浮点程序的性能平均提升3.08%,最高提升12.77%。 展开更多
关键词 存储墙 流访问 处理器 多级Cache 硬件预取
下载PDF
高带宽存储器测试技术研究
18
作者 钟伟军 吴迪 孔宪伟 《信息技术与标准化》 2022年第7期28-32,36,共6页
针对高带宽存储器(HBM)测试工程化实现的技术难题,重点研究了HBM的基本结构,分析了测试难点,从测试流程和测试项两个角度对比了DDR SDRAM与HBM两者的差异,并总结了底层逻辑硅片测试、TSV连接性测试、堆叠物理层测试和性能测试等HBM测试... 针对高带宽存储器(HBM)测试工程化实现的技术难题,重点研究了HBM的基本结构,分析了测试难点,从测试流程和测试项两个角度对比了DDR SDRAM与HBM两者的差异,并总结了底层逻辑硅片测试、TSV连接性测试、堆叠物理层测试和性能测试等HBM测试所包含的核心技术。提出了HBM测试中关键实施步骤及其技术要求,为制定HBM产品工程化量产测试方案提供了参考。 展开更多
关键词 高带宽存储器 存储墙 硅通孔技术 微凸点 已知合格堆叠硅片
下载PDF
渗透缓存命中率诱导的缓存区域动态分配机制研究
19
作者 李灵枝 胡九川 +2 位作者 叶笑春 范东睿 严龙 《软件导刊》 2020年第4期1-8,共8页
为解决计算机体系结构性能瓶颈——存储墙问题,在依赖硬件技术和体系结构创新的同时,还需优化程序算法。传统算法主要以时间和空间复杂度作为衡量指标,未考虑计算机存储结构设置。延迟避免和延迟容忍机制是解决"存储墙"问题... 为解决计算机体系结构性能瓶颈——存储墙问题,在依赖硬件技术和体系结构创新的同时,还需优化程序算法。传统算法主要以时间和空间复杂度作为衡量指标,未考虑计算机存储结构设置。延迟避免和延迟容忍机制是解决"存储墙"问题的新途径。借助一种新型缓存结构——渗透缓存可缓解该问题。利用延迟容忍机制,通过研究渗透缓存模型在处理器片上数据调配方式,提出一种依据历史访存命中率变化情况动态调控渗透缓存容量机制(以下简称动态渗透机制)。通过改进数据在渗透缓存上的调配策略,使缓存容量动态适应程序的数据特征,经过调整得出命中率更高的缓存结构配置方案。阐述了动态渗透机制原理与仿真实验模型架构。仿真实验结果表明,在SPLASH-2的部分测试集下,与传统缓存命中率相比较,平均提高了7.629%;以动态渗透机制得出的缓存容量配置方案命中率比传统缓存平均提高31.003%。即在缓存结构改进的动态渗透机制下,访存命中率得到提高,从而缓解了"存储墙"问题。 展开更多
关键词 渗透缓存 存储墙 动态缓存分区 缓存容量
下载PDF
面向多线程应用的片上多核处理器私有LLC优化
20
作者 吴建宇 彭蔓蔓 《计算机工程》 CAS CSCD 北大核心 2015年第1期316-321,共6页
片上多核处理器已逐渐取代传统超标量处理器成为集成电路设计的主流结构,但芯片的存储墙问题依旧是设计的一个难题。CMP通过大容量的末级高速缓存来缓解访存压力。在软件编程模式向多线程并行方式转变的背景下,针对多线程应用在多核处... 片上多核处理器已逐渐取代传统超标量处理器成为集成电路设计的主流结构,但芯片的存储墙问题依旧是设计的一个难题。CMP通过大容量的末级高速缓存来缓解访存压力。在软件编程模式向多线程并行方式转变的背景下,针对多线程应用在多核处理器上的Cache访问特征,提出一种面向私有末级Cache的优化算法,通过硬件缓冲器记录处理器访存地址,从而实现共享数据在Cache间的传递机制,有效降低Cache失效开销。实验结果表明,在硬件开销不超过Cache部件0.1%的情况下,测试用例平均加速比为1.13。 展开更多
关键词 片上多核处理器 存储墙 末级Cache 失效开销 缓冲器
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部