期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
片上多处理器末级Cache优化技术研究 被引量:6
1
作者 李浩 谢伦国 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期172-179,共8页
片上多核技术的出现给处理器的设计和实现带来很多挑战,片上存储系统的设计就是其中最重要的方面之一.为了缓解日益严峻的存储墙问题,研究者们通常在片上放置大容量末级Cache,片上末级Cache设计和优化技术已成为当前的研究热点.介绍了... 片上多核技术的出现给处理器的设计和实现带来很多挑战,片上存储系统的设计就是其中最重要的方面之一.为了缓解日益严峻的存储墙问题,研究者们通常在片上放置大容量末级Cache,片上末级Cache设计和优化技术已成为当前的研究热点.介绍了片上多处理器(CMP)末级Cache设计面临的挑战,然后分别介绍了以私有设计和共享设计为基础的多种CMP末级Cache优化技术,并对它们进行了比较分析. 展开更多
关键词 片上多处理器 合作式Cache 非一致性访问 数据块复制迁移 CACHE划分
下载PDF
高渗透率风电接入下地区高压电网转供模型 被引量:5
2
作者 宁世超 吕林 +3 位作者 刘友波 许立雄 袁川 杜新伟 《电力自动化设备》 EI CSCD 北大核心 2018年第6期46-54,共9页
中等规模风电通常经35 k V及以上电压等级系统直接并入地区电网,具有非均匀接入特性及不确定性,易导致地区电网出现局部消纳困难与局部负荷重载并存的现象,造成阻塞风险甚至消纳困境。基于高压配电网的拓扑重构能力,提出以110 kV变电单... 中等规模风电通常经35 k V及以上电压等级系统直接并入地区电网,具有非均匀接入特性及不确定性,易导致地区电网出现局部消纳困难与局部负荷重载并存的现象,造成阻塞风险甚至消纳困境。基于高压配电网的拓扑重构能力,提出以110 kV变电单元组的可行拓扑状态为控制对象的高压配电网机会约束转供模型,利用风电-负荷误差的概率密度函数对随机变量进行多状态建模,以源荷功率均衡分布为目标,构建不确定性条件下以拓扑重构为手段的高压电网运行优化技术。实际算例测试表明,所提方法能有效疏导高渗透率风电非均匀接入后地区高压电网的消纳矛盾,并有助于提升高压电网资产的利用效率以平抑阻塞风险。 展开更多
关键词 地区高压电网 风电 消纳 非均匀接入 高渗透率 机会约束 功率均衡 转供模型
下载PDF
Aware conflict detection of non-uniform memory access system and prevention for transactional memory 被引量:3
3
作者 王睿伯 卢凯 卢锡城 《Journal of Central South University》 SCIE EI CAS 2012年第8期2266-2271,共6页
Most transactional memory (TM) research focused on multi-core processors, and others investigated at the clusters, leaving the area of non-uniform memory access (NUMA) system unexplored. The existing TM implementation... Most transactional memory (TM) research focused on multi-core processors, and others investigated at the clusters, leaving the area of non-uniform memory access (NUMA) system unexplored. The existing TM implementations made significant performance degradation on NUMA system because they ignored the slower remote memory access. To solve this problem, a latency-based conflict detection and a forecasting-based conflict prevention method were proposed. Using these techniques, the NUMA aware TM system was presented. By reducing the remote memory access and the abort rate of transaction, the experiment results show that the NUMA aware strategies present good practical TM performance on NUMA system. 展开更多
关键词 transactional memory non-uniform memory access (NUMA) conflict detection conflict prevention
下载PDF
Research on optimization of virtual machine memory access based on NUMA architecture 被引量:2
4
作者 He Mujun Zheng Linjiang +2 位作者 Yang Kai Liu Runfeng Liu Weining 《High Technology Letters》 EI CAS 2021年第4期347-356,共10页
With the rapid development of big data and artificial intelligence(AI),the cloud platform architecture system is constantly developing,optimizing,and improving.As such,new applications,like deep computing and high-per... With the rapid development of big data and artificial intelligence(AI),the cloud platform architecture system is constantly developing,optimizing,and improving.As such,new applications,like deep computing and high-performance computing,require enhanced computing power.To meet this requirement,a non-uniform memory access(NUMA)configuration method is proposed for the cloud computing system according to the affinity,adaptability,and availability of the NUMA architecture processor platform.The proposed method is verified based on the test environment of a domestic central processing unit(CPU). 展开更多
关键词 cloud computing VIRTUALIZATION non-uniform memory access(NUMA)virtual machine memory access optimization
下载PDF
Scaling out NUMA-Aware Applications with RDMA-Based Distributed Shared Memory
5
作者 Yang Hong Yang Zheng +3 位作者 Fan Yang Bin-Yu Zang Hai-Bing Guan Hai-Bo Chen 《Journal of Computer Science & Technology》 SCIE EI CSCD 2019年第1期94-112,共19页
The multicore evolution has stimulated renewed interests in scaling up applications on shared-memory multiprocessors,significantly improving the scalability of many applications.But the scalability is limited within a... The multicore evolution has stimulated renewed interests in scaling up applications on shared-memory multiprocessors,significantly improving the scalability of many applications.But the scalability is limited within a single node;therefore programmers still have to redesign applications to scale out over multiple nodes.This paper revisits the design and implementation of distributed shared memory (DSM)as a way to scale out applications optimized for non-uniform memory access (NUMA)architecture over a well-connected cluster.This paper presents MAGI,an efficient DSM system that provides a transparent shared address space with scalable performance on a cluster with fast network interfaces.MAGI is unique in that it presents a NUMA abstraction to fully harness the multicore resources in each node through hierarchical synchronization and memory management.MAGI also exploits the memory access patterns of big-data applications and leverages a set of optimizations for remote direct memory access (RDMA)to reduce the number of page faults and the cost of the coherence protocol.MAGI has been implemented as a user-space library with pthread-compatible interfaces and can run existing multithreaded applications with minimized modifications.We deployed MAGI over an 8-node RDMA-enabled cluster.Experimental evaluation shows that MAGI achieves up to 9.25:4 speedup compared with an unoptimized implementation,leading to a sealable performance for large-scale data-intensive applications. 展开更多
关键词 distributed shared MEMORY (DSM) SCALABILITY multieore evolution non-uniform MEMORY access (NUMA) remote direct MEMORY access (RDMA)
原文传递
PsmArena:Partitioned Shared Memory for NUMA-Awareness in Multithreaded Scientific Applications
6
作者 Zhang Yang Aiqing Zhang Zeyao Mo 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2021年第3期287-295,共9页
The Distributed Shared Memory(DSM)architecture is widely used in today’s computer design to mitigate the ever-widening processing-memory gap,and it inevitably exhibits Non-Uniform Memory Access(NUMA)to shared-memory ... The Distributed Shared Memory(DSM)architecture is widely used in today’s computer design to mitigate the ever-widening processing-memory gap,and it inevitably exhibits Non-Uniform Memory Access(NUMA)to shared-memory parallel applications.Failure to adapt to the NUMA effect can significantly downgrade application performance,especially on today’s manycore platforms with tens to hundreds of cores.However,traditional approaches such as first-touch and memory policy fall short in false page-sharing,fragmentation,or ease of use.In this paper,we propose a partitioned shared-memory approach that allows multithreaded applications to achieve full NUMA-awareness with only minor code changes and develop an accompanying NUMA-aware heap manager which eliminates false page-sharing and minimizes fragmentation.Experiments on a 256-core cc-NUMA computing node show that the proposed approach helps applications to adapt to NUMA with only minor code changes and improves the performance of typical multithreaded scientific applications by up to 4.3 folds with the increased use of cores. 展开更多
关键词 partitioned shared memory non-uniform Memory access(NUMA) heap manager multithread manycore
原文传递
System Architecture of Godson-3 Multi-Core Processors 被引量:7
7
作者 高翔 陈云霁 +2 位作者 王焕东 唐丹 胡伟武 《Journal of Computer Science & Technology》 SCIE EI CSCD 2010年第2期181-191,共11页
Godson-3 is the latest generation of Godson microprocessor family. It takes a scalable multi-core architecture with hardware support for accelerating applications including X86 emulation and signal processing. This pa... Godson-3 is the latest generation of Godson microprocessor family. It takes a scalable multi-core architecture with hardware support for accelerating applications including X86 emulation and signal processing. This paper introduces the system architecture of Godson-3 from various aspects including system scalability, organization of memory hierarchy, network-on-chip, inter-chip connection and I/O subsystem. 展开更多
关键词 multi-core processor scalable interconnection cache coherent non-uniform memory access/non-uniform cache access (CC-NUMA/NUCA) MESH CROSSBAR cache coherence reliability availability and serviceability (RAS)
原文传递
多核处理器片上存储系统研究 被引量:5
8
作者 黄安文 高军 张民选 《计算机工程》 CAS CSCD 北大核心 2010年第4期4-6,共3页
针对多核处理器计算能力和访存速度间差异不断增大对多核系统性能提升的制约问题,分析几款典型多核处理器存储系统的设计特点,探讨多核处理器片上存储系统发展的关键技术,包括延迟造成的非一致cache访问、核与cache互连形式对访存性能... 针对多核处理器计算能力和访存速度间差异不断增大对多核系统性能提升的制约问题,分析几款典型多核处理器存储系统的设计特点,探讨多核处理器片上存储系统发展的关键技术,包括延迟造成的非一致cache访问、核与cache互连形式对访存性能的束缚以及片上cache设计的复杂化等。 展开更多
关键词 多核 存储系统 非一致cache访问
下载PDF
基于紧耦合单跳步多平面架构的高端服务器设计 被引量:7
9
作者 王恩东 陈继承 +1 位作者 胡雷钧 公维峰 《高技术通讯》 CAS CSCD 北大核心 2014年第2期111-116,共6页
针对高端服务器设计面临的可扩展性问题,提出了一种紧耦合单跳步多平面(TSMP)体系结构设计方法。该方法采用双侧多平面互连结构,支持8-32路规模无缝扩展;基于两级目录结构的高速缓存一致性实现方法,支持高并发一致性访问和高效冲突处理... 针对高端服务器设计面临的可扩展性问题,提出了一种紧耦合单跳步多平面(TSMP)体系结构设计方法。该方法采用双侧多平面互连结构,支持8-32路规模无缝扩展;基于两级目录结构的高速缓存一致性实现方法,支持高并发一致性访问和高效冲突处理,有效降低一致性访问传输、处理延迟。该方法已应用于浪潮32路K1高端服务器的设计,对设计的系统进行了内存性能、处理性能和可扩展性测试,测试结果表明,采用该设计可使高端服务器的计算、访存性能随系统规模从单路到32路线性增长。K1高端服务器支持基于QPI1.0协议的Intel安腾(Itanium)4核CPU-Tukwila和8核CPU-Polson,是中国研制的首台投入商业化应用的高端服务器。 展开更多
关键词 缓存一致性非均匀存储访问(CC-NUMA) 紧耦合单跳步多平面(TSMP) QPI协议 CACHE一致性 目录cache
下载PDF
室内多输入多输出可见光通信系统接入点与功率分配优化 被引量:1
10
作者 陈勇 吴金兰 +3 位作者 刘焕淋 王创世 张薇薇 陈豪 《光学学报》 EI CAS CSCD 北大核心 2024年第3期20-29,共10页
针对室内用户在非均匀分布时选择最高信号强度接入点(AP)导致系统总速率和用户服务质量较低的问题,提出联合AP和功率分配的方法。考虑多个LED作为AP的可见光通信(VLC)网络,根据用户分布设计了一个基于用户信道增益权重回溯(BM)的AP分配... 针对室内用户在非均匀分布时选择最高信号强度接入点(AP)导致系统总速率和用户服务质量较低的问题,提出联合AP和功率分配的方法。考虑多个LED作为AP的可见光通信(VLC)网络,根据用户分布设计了一个基于用户信道增益权重回溯(BM)的AP分配算法,使权重较低的用户接入到其他AP,降低资源竞争严重的LED上的用户负载;为了使所有用户均能满足通信需求,提出改进逐维动态正余弦算法(IDDSCA)的转换参数,并引入基于最优解方向的自适应搜索策略。利用IDDSCA动态调整每个AP下行链路的功率分配,同步优化系统总速率和用户服务质量。仿真结果表明,所提BM-IDDSCA方案相较于BM-DDSCA、SLCG-IDDSCA、BM-αPA、MT-PA与SLCG-QTPA方案在总速率方面分别提升2.94%、4.20%、2.03%、62.90%、4.89%。 展开更多
关键词 可见光通信 用户非均匀分布 接入点分配 服务质量 功率分配 逐维动态正余弦算法
原文传递
NUMA架构下数据热度的内存数据库日志恢复技术 被引量:5
11
作者 吴刚 阿卜杜热西提·热合曼 +2 位作者 李梁 乔百友 韩东红 《计算机科学与探索》 CSCD 北大核心 2019年第6期941-949,共9页
在内存数据库故障恢复技术中,命令日志是针对内存数据库设计的粗粒度的、轻量级的日志记录方式。但在非统一内存访问(non-uniform memory access,NUMA)体系架构下面向数据的数据库设计中利用命令日志进行故障恢复时,由于数据访问频率不... 在内存数据库故障恢复技术中,命令日志是针对内存数据库设计的粗粒度的、轻量级的日志记录方式。但在非统一内存访问(non-uniform memory access,NUMA)体系架构下面向数据的数据库设计中利用命令日志进行故障恢复时,由于数据访问频率不均衡,导致负责高频数据恢复的CPU线程负载加重,而其他CPU相对空闲。针对这种工作负载不均衡所导致的恢复时间开销增大的情况,提出了NUMA体系架构下基于热度记录的内存数据库日志恢复算法。该算法中,每一条数据的访问次数作为该数据的热度记录下来。在并行恢复时,根据数据热度,将数据比较均衡地划分到各个节点的CPU线程执行恢复操作,以此来提高数据库的恢复速度。实验结果表明,该方案比NUMA架构下的常规恢复方案快,而且数据的热度越高,恢复速度的提升越明显,最高提升了19%。 展开更多
关键词 内存数据库 日志 检查点 故障恢复 非统一内存访问(NUMA)架构
下载PDF
多GPU系统非一致存储访问优化:研究进展与展望
12
作者 李晨 刘畅 +1 位作者 葛一漩 郭阳 《电子学报》 EI CAS CSCD 北大核心 2024年第5期1783-1800,共18页
随着晶体管缩小速度的减缓,单GPU(Graphics Processing Units)的性能提升已经变得越来越具有挑战性,因此,多GPU系统成为了提高GPU系统性能的主要手段.然而,由于片外物理设计的制约,多GPU系统中处理器间的带宽不均衡导致了非一致存储访问... 随着晶体管缩小速度的减缓,单GPU(Graphics Processing Units)的性能提升已经变得越来越具有挑战性,因此,多GPU系统成为了提高GPU系统性能的主要手段.然而,由于片外物理设计的制约,多GPU系统中处理器间的带宽不均衡导致了非一致存储访问(Non-Uniform Memory Access,NUMA)问题,严重影响多GPU系统的性能.为了减少非一致存储访问所导致的性能损失,本文首先分析了非一致存储访问出现的原因,并对现有的非一致存储访问解决方案进行了对比.针对不同维度的非一致存储访问,本文从减少远程访问流量和提升远程访问性能两个方向出发,对非一致存储访问的优化方案进行了总结.最后,结合这些方案的优缺点,提出了未来多GPU系统非一致存储访问优化的发展方向. 展开更多
关键词 多GPU系统 非一致存储访问 GPU访存
下载PDF
面向非一致Cache的任意步长预提升技术 被引量:4
13
作者 吴俊杰 杨学军 《计算机科学与探索》 CSCD 2010年第7期577-588,共12页
随着微电子工艺的不断进步,片上大容量非一致cache的研究受到广泛关注。提出了一种面向非一致cache的任意步长预提升技术,它能够优化非一致cache中的数据组织,使得即将访问的数据被放置在距离处理器较近的cachebank中,从而降低访存延迟... 随着微电子工艺的不断进步,片上大容量非一致cache的研究受到广泛关注。提出了一种面向非一致cache的任意步长预提升技术,它能够优化非一致cache中的数据组织,使得即将访问的数据被放置在距离处理器较近的cachebank中,从而降低访存延迟,提升系统性能。详细介绍了任意步长预提升技术的设计,比较了预提升技术与预取技术的差别,并提出了二者的结合技术。通过对来自NPB和SPEC2000的11个基准测试程序在全系统模拟器上的实验评测,发现任意步长预提升技术能够有效减小访存延迟,在访存预测表尺寸为16和32的情况下,系统IPC分别平均增长4.17%和4.91%;在结合预提升和预取技术的情况下,系统IPC分别平均增长8.84%和11.06%。 展开更多
关键词 预提升技术 非一致高速缓存结构 任意步长 访存模式 预取技术
下载PDF
基于NUMA云计算架构的多资源分配可信拍卖机制
14
作者 徐嘉 张骥先 +1 位作者 王喆民 刘林杰 《计算机工程与科学》 CSCD 北大核心 2024年第5期761-775,共15页
随着互联网不断发展,云计算和虚拟化等技术广泛投入使用,设计可信拍卖机制为云服务商进行社会福利最大化的虚拟资源分配,是当前云计算领域的研究重点之一。同时,随着服务器规模不断扩展,诸多主流数据中心的服务器正在升级为非统一性内... 随着互联网不断发展,云计算和虚拟化等技术广泛投入使用,设计可信拍卖机制为云服务商进行社会福利最大化的虚拟资源分配,是当前云计算领域的研究重点之一。同时,随着服务器规模不断扩展,诸多主流数据中心的服务器正在升级为非统一性内存访问NUMA架构,其主要特征为,每台服务器可由多个计算节点构成,每个节点包含若干处理器和存储器,既可作为独立计算单元,也可以相互连通访问。但是,当前的研究主要着眼于传统的统一性内存访问架构,无法适应NUMA架构下的应用场景。因此,提出了一种适用于NUMA架构下的多资源可信拍卖机制,以虚拟机的形式进行多种资源的组合分配。具体而言,在资源分配问题中,提出一种单调启发式分配算法,考虑了NUMA架构下的部署约束和资源优势密度等因素,有效提升了社会福利。在价格支付问题中,使用二分法设计一种符合关键价格理论的定价支付算法,从而保证机制的可信特征。经过实验测试,该机制在社会福利、用户支付费用和资源利用率等方面,整体性能达到最优解的96%左右。 展开更多
关键词 云计算 资源分配 非统一性内存访问 拍卖机制 可信
下载PDF
Bowtie 2-NUMA:具有NUMA体系结构适应性的基因序列比对应用
15
作者 王强 孙彦洁 +1 位作者 齐星云 徐佳庆 《计算机工程与科学》 CSCD 北大核心 2024年第12期2117-2127,共11页
Bowtie 2作为生物信息领域使用最广泛的二代测序软件之一,具有计算密集的特点。如何根据多核平台的体系结构进行适应性优化以提高并行效率,成为亟待解决的问题。首先分析了非一致性访存架构的多样性,以及Bowtie 2在多种非一致性访存架... Bowtie 2作为生物信息领域使用最广泛的二代测序软件之一,具有计算密集的特点。如何根据多核平台的体系结构进行适应性优化以提高并行效率,成为亟待解决的问题。首先分析了非一致性访存架构的多样性,以及Bowtie 2在多种非一致性访存架构下内存访问拥塞和最后一级缓存命中率低的结构性瓶颈。然后,基于Bowtie 2在不同非一致性访存平台的表现特点,在复制索引、内存分配以及数据划分3个方面进行优化,提出了Bowtie 2-NUMA。最后,通过实验表明,Bowtie 2-NUMA面向不同计算平台,能够基于体系结构进行适应性优化,实现并行效率的提升。 展开更多
关键词 非一致性访存 Bowtie 2 适应性优化 体系结构 内存带宽 最后一级缓存
下载PDF
片上多核处理器Cache访问均衡性研究 被引量:3
16
作者 王子聪 陈小文 郭阳 《计算机学报》 EI CSCD 北大核心 2019年第11期2403-2416,共14页
随着片上多核处理器(CMP)规模的不断扩大和处理核数的增多,系统对于片上缓存(Cache)在容量和速度方面有了更高的需求.为了能够有效利用Cache资源,非一致Cache体系结构(NUCA)被提出用于支持高容量低延迟的Cache组织结构.另一方面,片上网... 随着片上多核处理器(CMP)规模的不断扩大和处理核数的增多,系统对于片上缓存(Cache)在容量和速度方面有了更高的需求.为了能够有效利用Cache资源,非一致Cache体系结构(NUCA)被提出用于支持高容量低延迟的Cache组织结构.另一方面,片上网络(NoC)由于具备良好的可扩展性,在片上多核处理器的互连方式上具有显著优势.因此,基于片上网络的非一致Cache体系结构逐渐成为未来组织大容量Cache的主流系统架构.在这样的系统架构中,最后一级缓存(LLC)通常在物理上分布于每个处理节点,这些Cache存储体(Bank)在逻辑上共同构成一个统一的共享Cache.当处理核发出Cache访问请求时,其访问时间与请求处理核节点与访问数据所在的Bank节点的距离有关.当距离较近时,访问时间较短;当访问距离较远的Bank时,访问时间较长.因此,当系统规模逐渐增大时,这种访问延迟与网络距离相关的特性会使得不同节点之间的通信距离和通信延迟的差异性逐渐增大.另外,片上网络规模的增大也会使得Cache访问延迟逐渐由网络延迟主导.这种延迟差异性会引起网络报文延迟不均衡问题,导致Cache访问延迟的非一致性进一步增大,因而出现更多的大延迟Cache访问并成为制约系统性能的瓶颈.因此,研究片上多核处理器的Cache访问均衡性对于提升网络性能和系统性能具有积极意义.该文分析了造成Cache访问延迟不均衡的原因,并针对延迟的两个来源:无冲突延迟和竞争延迟,分别提出了非一致存储映射和非一致链路分布的设计方法.通过非一致存储映射,我们根据Cache存储体在网络中的物理位置调节其相应的Cache块映射比例,从而均衡Cache请求平均访问距离;通过合理设计非一致的链路分布,我们依据各条链路上的流量负载为其分配合适的通道数量,从而缓解流量压力较大的链路上的报文竞争.全系统模拟器上的实验� 展开更多
关键词 片上多核处理器 非一致缓存体系结构 片上网络 均衡性 缓存访问
下载PDF
SMP、MPP、NUMA技术比较与其应用分析 被引量:2
17
作者 陈秋宁 《科技广场》 2006年第1期118-119,共2页
本文首先对目前主流的并行处理技术:SMP技术、MPP技术和NUMA技术的特点进行了阐述,重点分析了各种技术存在的主要问题、主要影响以及各种问题的解决措施。之后本文结合业界主流服务器:IBM、HP、NCR等,对每种技术的实际应用进行了分析。
关键词 SMP MPP NUMA
下载PDF
基于cc-NUMA多核处理器构架的虚拟机监控器原型设计与实现 被引量:1
18
作者 戴月华 史椸 +2 位作者 谢锋涛 冯雨声 齐勇 《计算机与数字工程》 2010年第8期46-51,共6页
基于cc-NUMA构架的多核处理器是未来的主流。系统内集成百处理器核心也会在几年内出现,而现有的系统软件并不能充分发挥这一构架的优势。文章设计实现了一个虚拟机原型,通过虚拟机向上层操作系统屏蔽底层cc-NU-MA构架的特性,使操作系统... 基于cc-NUMA构架的多核处理器是未来的主流。系统内集成百处理器核心也会在几年内出现,而现有的系统软件并不能充分发挥这一构架的优势。文章设计实现了一个虚拟机原型,通过虚拟机向上层操作系统屏蔽底层cc-NU-MA构架的特性,使操作系统无需修改可高效的运行并且应用程序降低开发的难度。实验结果表明运行在虚拟化后同一NUMA节点内的Linux可以达到很好的性能。 展开更多
关键词 多核 操作系统 虚拟机 非一致性内存访问
下载PDF
基于NUMA延迟发送的时变图弱连通分量求解
19
作者 梁锐杰 程永利 《计算机系统应用》 2023年第3期322-329,共8页
时变图连通分量已经被广泛应用到不同场景,如交通路网建设、推荐系统的信息推送等.然而当前多数连通分量求解方法忽视了NUMA体系结构对计算效率产生的影响,即过高的远程内存访问延迟导致低下的算法执行效率.本文针对时变图的弱连通分量... 时变图连通分量已经被广泛应用到不同场景,如交通路网建设、推荐系统的信息推送等.然而当前多数连通分量求解方法忽视了NUMA体系结构对计算效率产生的影响,即过高的远程内存访问延迟导致低下的算法执行效率.本文针对时变图的弱连通分量求解问题,提出一种基于NUMA延迟发送的时变图弱连通分量求解方法,它通过合理的数据内存布局,合理控制NUMA节点间的信息交换次数,最大限度减少远程内存访问数量,显著提高了算法执行效率.实验结果表明,该方法的性能明显优于当前流行的图处理系统Ligra和Polymer提供的方法. 展开更多
关键词 弱连通分量 NUMA 延迟发送 时变图 图计算
下载PDF
基于NUMA架构的解释器访存优化设计与实现
20
作者 任彤 傅杰 靳国杰 《高技术通讯》 CAS CSCD 北大核心 2015年第7期661-668,共8页
为了提高非一致内存访问(NUMA)架构虚拟机解释器的访存性能,研究了解释器在NUMA架构下的访存优化技术,提出了一种NUMA架构下的解释器访存优化方案,而且设计并实现了解释器的静态指令分派优化方法和动态指令分派优化方法。根据这一方案... 为了提高非一致内存访问(NUMA)架构虚拟机解释器的访存性能,研究了解释器在NUMA架构下的访存优化技术,提出了一种NUMA架构下的解释器访存优化方案,而且设计并实现了解释器的静态指令分派优化方法和动态指令分派优化方法。根据这一方案虚拟机启动时首先获取NUMA节点信息,并在每个NUMA节点中自动生成解释器所需的全部数据结构;解释器在运行时,通过静态或动态的指令分派技术来实现其执行线程在NUMA节点上访存的局部化。试验结果表明,上述方法能够显著提升解释器在NUMA系统中的性能。在DaCapo测试集上的总体性能提升了8%,最高性能提升幅度高达23%,而且算法实现代价低,适用于绝大多数的NUMA服务器系统。 展开更多
关键词 非一致内存访问(NUMA) 虚拟机 解释器 响应速度 启动性能 访存优化
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部