期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
BOSS系统中排重技术的性能优化及方案实现
1
作者 陈勇 郑永爱 《计算机工程与设计》 CSCD 北大核心 2014年第6期2029-2036,共8页
为解决业务运营支撑系统(business operating support system,BOSS)系统中排重的性能问题,提出了优化方案。在研究了传统排重和其它排重的基础上,根据排重的业务特点,提出放弃使用商业数据库而采用文件加内存的优化方案。运用数据分割... 为解决业务运营支撑系统(business operating support system,BOSS)系统中排重的性能问题,提出了优化方案。在研究了传统排重和其它排重的基础上,根据排重的业务特点,提出放弃使用商业数据库而采用文件加内存的优化方案。运用数据分割思想提高并行处理度,采用B树批量插入方式维护历史信息,对其进行了性能分析;内存中采用节点信息表建立索引,实现了指针压缩,减少了缓存失配和TLB失配;采用独特的事务一致检查点技术简化实现了事务机制。模拟数据测试结果表明,在不占用更多内存的情况下,在一个进程中优化方案性能较传统方案提高了56%。 展开更多
关键词 排重 数据分割 B树批量插入 缓存失配 事务一致
下载PDF
CSA-Tree:一种改进的高维主存索引树 被引量:3
2
作者 梁俊杰 冯玉才 《计算机学报》 EI CSCD 北大核心 2007年第3期415-423,共9页
主存技术的不断进步,使得主存多媒体数据库的实现成为可能.研究表明,主存多媒体数据库系统性能深受处理器缓存未命中的影响,缓存感知型主存索引是提高数据检索效率的有效手段.针对SA-Tree不适用于主存存取的缺点,提出它的变体CSA-Tree.C... 主存技术的不断进步,使得主存多媒体数据库的实现成为可能.研究表明,主存多媒体数据库系统性能深受处理器缓存未命中的影响,缓存感知型主存索引是提高数据检索效率的有效手段.针对SA-Tree不适用于主存存取的缺点,提出它的变体CSA-Tree.CSA-Tree利用PCA降维技术,将树的各层节点采用不同的维度表示,这样不仅提高了缓存空间的利用率,还降低了CPU负载,从而提高了索引查询效率.大量实验证明,CSA-Tree在主存环境中具有良好的高维数据检索性能. 展开更多
关键词 高维主存索引 L2-cache未命中 距离计算 KNN查询 主成分分析
下载PDF
TigerSHARC Ts201中Cache的原理及应用
3
作者 刘学 李少谦 《通讯和计算机(中英文版)》 2005年第12期61-64,共4页
本文详细论述了TigerSHARC Ts201中cache的结构和运行原理,并给出了在DSP复位后对cache进行初始化和打开cache使其处于工作状态的汇编程序,最后通过常用的FFT程序使用cache前后DSP所消耗的时间显示了cache在提高DSP性能方面起到的重... 本文详细论述了TigerSHARC Ts201中cache的结构和运行原理,并给出了在DSP复位后对cache进行初始化和打开cache使其处于工作状态的汇编程序,最后通过常用的FFT程序使用cache前后DSP所消耗的时间显示了cache在提高DSP性能方面起到的重要作用。 展开更多
关键词 cache DSP cache miss cache MIT 存储器
下载PDF
基于并行存储优化的矩阵乘法运算
4
作者 吴猛 刘振 《电脑知识与技术》 2010年第01X期693-695,共3页
该文就数值运算中常见的矩阵乘法运算的实现算法展开讨论,从时间和空间不同角度分析矩阵乘法运算中影响性能的主要因素,改良了原有算法,提出了基于存储优先的数据访问方式,并结合当今比较热门的并行运算机制,提高了矩阵乘积运算的... 该文就数值运算中常见的矩阵乘法运算的实现算法展开讨论,从时间和空间不同角度分析矩阵乘法运算中影响性能的主要因素,改良了原有算法,提出了基于存储优先的数据访问方式,并结合当今比较热门的并行运算机制,提高了矩阵乘积运算的速度。 展开更多
关键词 矩阵 复杂度 cache miss 并行运算 存储 SHARED MEMORY
下载PDF
一种Runahead执行的改进算法
5
作者 刘德峰 谢伦国 《计算机工程与科学》 CSCD 北大核心 2009年第A01期84-87,共4页
Runahead执行技术能够显著地提高计算机系统的存储级并行,而无需对处理器结构做出较大改动。但Runahead执行处理器要比传统处理器多执行很多指令,最多是正常执行指令数的三倍以上,大大增加了处理器的功耗。本文通过分析发现Runahead执... Runahead执行技术能够显著地提高计算机系统的存储级并行,而无需对处理器结构做出较大改动。但Runahead执行处理器要比传统处理器多执行很多指令,最多是正常执行指令数的三倍以上,大大增加了处理器的功耗。本文通过分析发现Runahead执行在预执行阶段会执行大量的无效指令,据此提出一种减少无效指令的方法来提高Runa-head执行处理器的效率。通过实验分析,在性能影响较小的情况下,该方法最多可以减少50%的Runahead执行处理器在预执行阶段执行的无效指令。 展开更多
关键词 Runahead执行 存储级并行 cache不命中 检查点
下载PDF
针对KASLR的Linux计时攻击方法
6
作者 丛眸 张平 王宁 《计算机工程》 CAS CSCD 北大核心 2021年第8期177-182,共6页
针对开启内核地址空间布局随机化(KASLR)防护的Linux系统,提出一种基于CPU预取指令的Cache计时攻击方法。Intel CPU的预取指令在预取未映射到物理地址的数据时会发生Cache失效,导致消耗的CPU时钟周期比已映射到物理地址的数据要长。根... 针对开启内核地址空间布局随机化(KASLR)防护的Linux系统,提出一种基于CPU预取指令的Cache计时攻击方法。Intel CPU的预取指令在预取未映射到物理地址的数据时会发生Cache失效,导致消耗的CPU时钟周期比已映射到物理地址的数据要长。根据这一特点,通过rdtscp指令获取CPU时钟周期消耗,利用计时攻击绕过KASLR技术防护,从而准确获取内核地址映射的Offset。实验结果表明,该攻击方法能够绕过Linux操作系统的KASLR防护,获得准确的内核地址映射位置,并且避免引起大量Cache失效。 展开更多
关键词 内核地址空间布局随机化 预取指令 计时攻击 内核 cache失效
下载PDF
基于PNX1300 DSP平台的视频编码器优化实现
7
作者 白琳 罗玉平 《中国科学技术大学学报》 CAS CSCD 北大核心 2006年第11期1148-1152,共5页
视频压缩算法在向DSP(digital signal processing)平台上移植时,大多存在程序结构设计不合理、数据结构冗余等问题,因而会导致缓存命中率下降、DSP的利用率降低.针对这些问题,通过对cache miss、指令跳转等降低DSP效率的不利因素的分析,... 视频压缩算法在向DSP(digital signal processing)平台上移植时,大多存在程序结构设计不合理、数据结构冗余等问题,因而会导致缓存命中率下降、DSP的利用率降低.针对这些问题,通过对cache miss、指令跳转等降低DSP效率的不利因素的分析,在H.263的DCT、量化、预测等模块采取重新定义数据结构、改进算法、优化专用指令等一系列措施提高缓存命中率,减少跳转指令,以提高DSP的有效利用率,使得优化后的H.263编码器在保持较高清晰度的情况下,可以对通用中间格式(CIF)的视频序列进行实时处理. 展开更多
关键词 H.263编码器 优化 缓存失配
下载PDF
一种用于内容中心网络的缓存随机放置策略 被引量:10
8
作者 胡骞 武穆清 +1 位作者 郭嵩 彭蠡 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2014年第6期131-136,187,共7页
以内容为中心的网络是一种新型网络架构,它打破了传统的"主机—主机"通信模式,将内容本身作为网络的核心.以内容为中心的网络通过分布式的缓存机制对内容业务提供有效支持,缓存的放置策略也成为研究的热点.首先提出一种分布式的缓存... 以内容为中心的网络是一种新型网络架构,它打破了传统的"主机—主机"通信模式,将内容本身作为网络的核心.以内容为中心的网络通过分布式的缓存机制对内容业务提供有效支持,缓存的放置策略也成为研究的热点.首先提出一种分布式的缓存随机放置策略,基于节点与内容源之间的跳数随机选择缓存放置节点,实现节点缓存的负载均衡;然后在该策略下推导缓存命中率与内容热度分布、请求到达率、缓存大小的关系.数值计算及仿真结果表明,该策略可以提高缓存命中率,与以内容为中心的网络传统策略相比,获取内容所需的平均跳数可减少5.59%-6.86%. 展开更多
关键词 内容中心网络 缓存 缓存放置策略 缓存命中率 分布式算法
下载PDF
大规模并行处理系统及其程序设计方法研究——Cache缺失延迟、层次算法和可定域性 被引量:5
9
作者 王文义 董绍静 《计算机研究与发展》 EI CSCD 北大核心 1999年第5期589-593,共5页
实践表明,大规模并行处理系统(massivelyparalelprocesingsystem,MPP)的实际有效速度与其理论峰值速度往往存在着较大差距,有时仅能达到峰值速度的25%左右.鉴于目前许多领域的高性能科学计... 实践表明,大规模并行处理系统(massivelyparalelprocesingsystem,MPP)的实际有效速度与其理论峰值速度往往存在着较大差距,有时仅能达到峰值速度的25%左右.鉴于目前许多领域的高性能科学计算都要把MPP系统作为主要的实现工具,因此上述问题已引起国内外专家的普遍关注.文中讨论了影响大规模并行处理系统有效速度主要因素之一的Cache缺失问题,并以ExemplarSPP1200/XA为例,在层次算法和可定域性两个方面实验并总结了提高系统应用性能的若干程序设计方法. 展开更多
关键词 cache 缺失延迟 并行处理系统 程序设计方法
下载PDF
循环Cache命中率分析方法的研究与实现 被引量:3
10
作者 舒辉 康绯 《计算机工程与应用》 CSCD 北大核心 2002年第1期78-81,84,共5页
循环Cache命中率的分析是编译优化中的关键技术之一。CME(CacheMissEquation)作为描述一个精确描述程序循环中数组引用的Cache冲突情况的数学模型及其相关的理论为较精确地分析循环的Cache命中率奠定了理论基础。该文以CME理论为基础,... 循环Cache命中率的分析是编译优化中的关键技术之一。CME(CacheMissEquation)作为描述一个精确描述程序循环中数组引用的Cache冲突情况的数学模型及其相关的理论为较精确地分析循环的Cache命中率奠定了理论基础。该文以CME理论为基础,从数理统计的角度对CME抽样分析作了理论上的说明,采用序贯抽样方法来进行CME的抽样分析,并对抽样检验过程中判断线性约束条件下丢番图方程是否存在整数解这一NP问题,结合一些整数计算的理论,给出了格测试的快速算法。 展开更多
关键词 cache命中率分析 CME 序贯抽样 格测试
下载PDF
基于实验的测试CACHE性能参数的算法及实现
11
作者 郑玉彤 《计算机工程与应用》 CSCD 北大核心 2005年第9期120-121,228,共3页
论文介绍了一种用高级语言实现、通过实时实验的手段获取CACHE系统性能参数的算法,该算法有较好的实用价值。论文还提出了采用CPU时间戳作为高精度计数器的计数方法,实验结果具有很高的时间精度,同时给出了C语言实现的原代码及在PC机上... 论文介绍了一种用高级语言实现、通过实时实验的手段获取CACHE系统性能参数的算法,该算法有较好的实用价值。论文还提出了采用CPU时间戳作为高精度计数器的计数方法,实验结果具有很高的时间精度,同时给出了C语言实现的原代码及在PC机上的测试结果,粗略分析了实验中可能存在的实验噪声;并指出该算法对若干方面可能具有的重要参考价值。 展开更多
关键词 实时实验 cache性能参数 cache失效损失 组相联度 cache行大小 CPU时间戳 高精度计数器 实验噪声
下载PDF
用于减少远程Cache访问延迟的最后一次写访问预测方法 被引量:1
12
作者 夏军 徐炜遐 +2 位作者 庞征斌 张峻 常俊胜 《国防科技大学学报》 EI CAS CSCD 北大核心 2015年第1期14-20,共7页
为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器... 为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。 展开更多
关键词 cache一致性协议 远程cache失效 写突发 最后一次写访问 自降级
下载PDF
适用于多核环境的混合Cache一致性协议
13
作者 李静梅 杨鹏飞 +2 位作者 张健沛 门朝光 吴艳霞 《计算机工程》 CAS CSCD 北大核心 2011年第24期284-286,共3页
提出一种适用于多核环境的混合Cache一致性协议。该协议采用混合值传播策略,引入小容量目录D-Cache,克服传统监听一致性协议发送数据请求时盲目广播的缺点,通过数据块状态的扩展,有效避免乒乓现象的发生。仿真实验结果表明,该协议能减... 提出一种适用于多核环境的混合Cache一致性协议。该协议采用混合值传播策略,引入小容量目录D-Cache,克服传统监听一致性协议发送数据请求时盲目广播的缺点,通过数据块状态的扩展,有效避免乒乓现象的发生。仿真实验结果表明,该协议能减少测试程序的运行时间,降低多核处理器私有L1 Cache的失效率,提高系统性能。 展开更多
关键词 cache一致性协议 多核环境 目录 数据块状态 cache失效率
下载PDF
用软件来提高多核处理器性能的方法分析 被引量:1
14
作者 李晋惠 寇立涛 乔永兴 《工业仪表与自动化装置》 2010年第1期81-83,共3页
分析了多核处理器的硬件体系结构,并分析了影响多核处理器性能的最关键两个因素:二级缓存的命中率和处理器线路的利用率。主要分析了如何通过软件方法来提升多核处理器的性能,也就是通过设计操作系统进程调度算法来实现。分析了如何... 分析了多核处理器的硬件体系结构,并分析了影响多核处理器性能的最关键两个因素:二级缓存的命中率和处理器线路的利用率。主要分析了如何通过软件方法来提升多核处理器的性能,也就是通过设计操作系统进程调度算法来实现。分析了如何提高上述两个因素的方法。使用这些方法可以将多核处理器的吞吐率提高27%-45%。 展开更多
关键词 多核处理器 二级缓存缺失率 处理器核线路利用率
下载PDF
基于复用距离的cache失效率分析 被引量:1
15
作者 付雄 张昱 陈意云 《小型微型计算机系统》 CSCD 北大核心 2006年第9期1777-1781,共5页
复用距离已经成为程序cache行为的一种重要度量标准,但高复杂度和可能的内存溢出问题使得其难以应用.本文在引入最大cache大小的基础上提出一种受限的复用距离分析方法.该方法有效地避免了一般复用距离分析可能导致的内存溢出问题,同时... 复用距离已经成为程序cache行为的一种重要度量标准,但高复杂度和可能的内存溢出问题使得其难以应用.本文在引入最大cache大小的基础上提出一种受限的复用距离分析方法.该方法有效地避免了一般复用距离分析可能导致的内存溢出问题,同时使得复用距离分析达到线性时间复杂度.文章通过对一系列整数和浮点程序的实验说明基于该复用距离分析的cache失效率分析的可行性和正确性. 展开更多
关键词 复用距离 cache失效率 局部性
下载PDF
基于协作区域的内容中心网络缓存策略 被引量:1
16
作者 刘强 《内蒙古师范大学学报(自然科学汉文版)》 CAS 北大核心 2016年第6期821-824,共4页
针对现有网络缓存策略所存在的缓存负载分布不均衡、缓存冗余大、网络资源利用率低等问题,提出了一种基于协作区域的内容中心网络缓存策略.该策略利用协作区域中的节点来辅助中心节点进行分组缓存,以实现负载均衡.仿真结果表明,与LCE策... 针对现有网络缓存策略所存在的缓存负载分布不均衡、缓存冗余大、网络资源利用率低等问题,提出了一种基于协作区域的内容中心网络缓存策略.该策略利用协作区域中的节点来辅助中心节点进行分组缓存,以实现负载均衡.仿真结果表明,与LCE策略和Betw策略相比,该策略能够有效地提高缓存命中率和资源利用率,并改善负载均衡性. 展开更多
关键词 协作区域 内容中心网络 缓存策略 缓存命中率
下载PDF
基于贪心优化策略的网格排布算法 被引量:1
17
作者 娄自婷 张亚萍 《计算机应用》 CSCD 北大核心 2016年第7期1954-1958,1992,共6页
针对由存储带宽和数据访问速度导致的复杂数据集绘制性能低下等问题,提出了一种基于贪心优化策略的三角形排布算法,通过对绘制数据集进行重排以改善数据的空间局部性和时间局部性。该算法首先将顶点分为三类,根据改进的代价函数选择代... 针对由存储带宽和数据访问速度导致的复杂数据集绘制性能低下等问题,提出了一种基于贪心优化策略的三角形排布算法,通过对绘制数据集进行重排以改善数据的空间局部性和时间局部性。该算法首先将顶点分为三类,根据改进的代价函数选择代价度量最小的顶点作为活动顶点;然后绘制(即输出)其所有未绘制的邻接三角形,并将相邻顶点压入缓存,算法迭代执行直到所有顶点的邻接三角形都绘制完成,得到重新排列后的三角形序列。实验结果表明,该算法不仅具备较高的顶点缓存命中率,还提高了渲染速度,减少了排序的时间,有效地解决了图形处理器的处理速度不断提升而数据访问速度严重滞后的问题。 展开更多
关键词 缓存优化 网格排布 贪心优化策略 平均缓存失配率 三维网格模型
下载PDF
基于双倍步长数据流的硬件预取机制 被引量:1
18
作者 王锦涵 李俊 +2 位作者 路冬冬 张海龙 朱英 《计算机工程》 CAS CSCD 北大核心 2019年第6期115-118,126,共5页
硬件数据预取技术可以有效提升处理器的访存性能,但传统流预取策略存在预取不及时的问题。为此,提出一种双倍步长流预取策略,并设计对应的预取部件结构。预取部件自动检测数据流的固定步长并将该步长扩大为原有的2倍,以计算预取地址。... 硬件数据预取技术可以有效提升处理器的访存性能,但传统流预取策略存在预取不及时的问题。为此,提出一种双倍步长流预取策略,并设计对应的预取部件结构。预取部件自动检测数据流的固定步长并将该步长扩大为原有的2倍,以计算预取地址。实验结果表明,加入该预取部件后,运行SPEC2006测试集的整数应用与浮点应用时,处理器性能最高可分别提升45%与57%,针对Cache Miss率较高的应用,该预取部件可以有效隐藏访存延时。 展开更多
关键词 硬件预取 双倍步长 流预取 SPEC2006测试集 cachemiss
下载PDF
面向函数的循环优化序列定制方法
19
作者 陈烨 《计算机工程与应用》 CSCD 北大核心 2009年第24期63-66,117,共5页
讨论了一种可针对程序中的不同函数(routine)采用不同的循环优化序列的方法,该方法基于polyhedron模型,使用简化cache失效率方程分别对每一个函数作优化序列评估,以迭代编译方式为每个函数寻找一个独特的循环优化序列。该方法降低了变... 讨论了一种可针对程序中的不同函数(routine)采用不同的循环优化序列的方法,该方法基于polyhedron模型,使用简化cache失效率方程分别对每一个函数作优化序列评估,以迭代编译方式为每个函数寻找一个独特的循环优化序列。该方法降低了变换实施的复杂度,降低了对编译器具体实现的依赖;考虑程序中不同函数的差异以获得更好的优化效果。对SPEC2006的实验数据表明,经过定制优化之后,较之Open64-O3,加速比为1.05~1.13。 展开更多
关键词 polyhedron模型 优化序列定制 cache失效率 CMES简化方程
下载PDF
MPP和用户有效速度的研究(英文)
20
作者 王文义 辛小南 王若雨 《郑州工业大学学报》 2001年第2期7-11,共5页
大规模并行处理机 (MassivelyParallelProcessor,MPP)一般都具有极高的理论峰值速度 ,但用户在实际应用中的有效速度却往往与之大相径庭 .以Exemplar(SPP12 0 0 )系统为例 ,着重在cache缺失率、可定域性和层次算法等方面探讨了如何提高... 大规模并行处理机 (MassivelyParallelProcessor,MPP)一般都具有极高的理论峰值速度 ,但用户在实际应用中的有效速度却往往与之大相径庭 .以Exemplar(SPP12 0 0 )系统为例 ,着重在cache缺失率、可定域性和层次算法等方面探讨了如何提高MPP用户有效速度这一问题 。 展开更多
关键词 cache缺失延迟 可定域性 层次算法 可视化工具 MPP 大规模并行处理机 有效速度
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部