期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
Bowtie 2-NUMA:具有NUMA体系结构适应性的基因序列比对应用
1
作者 王强 孙彦洁 +1 位作者 齐星云 徐佳庆 《计算机工程与科学》 CSCD 北大核心 2024年第12期2117-2127,共11页
Bowtie 2作为生物信息领域使用最广泛的二代测序软件之一,具有计算密集的特点。如何根据多核平台的体系结构进行适应性优化以提高并行效率,成为亟待解决的问题。首先分析了非一致性访存架构的多样性,以及Bowtie 2在多种非一致性访存架... Bowtie 2作为生物信息领域使用最广泛的二代测序软件之一,具有计算密集的特点。如何根据多核平台的体系结构进行适应性优化以提高并行效率,成为亟待解决的问题。首先分析了非一致性访存架构的多样性,以及Bowtie 2在多种非一致性访存架构下内存访问拥塞和最后一级缓存命中率低的结构性瓶颈。然后,基于Bowtie 2在不同非一致性访存平台的表现特点,在复制索引、内存分配以及数据划分3个方面进行优化,提出了Bowtie 2-NUMA。最后,通过实验表明,Bowtie 2-NUMA面向不同计算平台,能够基于体系结构进行适应性优化,实现并行效率的提升。 展开更多
关键词 非一致性访存 Bowtie 2 适应性优化 体系结构 内存带宽 最后一级缓存
下载PDF
浅谈内存对计算机性能的影响 被引量:3
2
作者 张源源 孙连春 《价值工程》 2018年第24期200-202,共3页
本文从内存条的容量、频率、带宽、工作电压等众多方面阐述对计算机的影响,对内存的各参数展开分析,研究内存与硬件性能之间的关系,深入探讨了内存性能对计算机使用的影响,以期提高计算机系统的使用性能。
关键词 内存频率 内存带宽 内存容量
下载PDF
一种用于多媒体流处理器的缓冲器体系结构设计 被引量:1
3
作者 王光 沈绪榜 《黑龙江大学自然科学学报》 CAS 北大核心 2005年第2期248-253,共6页
通过分析传统处理器针对媒体处理应用的通讯瓶颈以及媒体处理应用的特点,得出了Cache结构并不适合现代媒体处理应用的结论,并提出了一种新的、适合于媒体处理应用的存储器体系结构来作为媒体处理器中的缓冲器。该体系结构具有三级并行... 通过分析传统处理器针对媒体处理应用的通讯瓶颈以及媒体处理应用的特点,得出了Cache结构并不适合现代媒体处理应用的结论,并提出了一种新的、适合于媒体处理应用的存储器体系结构来作为媒体处理器中的缓冲器。该体系结构具有三级并行数据带宽存储层次,即片外DRAM、全局寄存器堆和局部寄存器堆,三级并行存储层次依次提高一个数量级的带宽,所能提供的带宽之比为1:16:256。从而可以有效地支持卫星遥感图像预处理对数据带宽的需求。 展开更多
关键词 媒体处理应用 存储带宽 存储层次 流寄存器堆 流缓冲器
下载PDF
BACH: A Bandwidth-Aware Hybrid Cache Hierarchy Design with Nonvolatile Memories
4
作者 Jishen Zhao Cong Xu +1 位作者 Tao Zhang Yuan Xie 《Journal of Computer Science & Technology》 SCIE EI CSCD 2016年第1期20-35,共16页
Limited main memory bandwidth is becoming a fundamental performance bottleneck in chipmultiprocessor (CMP) design. Yet directly increasing the peak memory bandwidth can incur high cost and power consumption. In this... Limited main memory bandwidth is becoming a fundamental performance bottleneck in chipmultiprocessor (CMP) design. Yet directly increasing the peak memory bandwidth can incur high cost and power consumption. In this paper, we address this problem by proposing a memory, a bandwidth-aware reconfigurable cache hierarchy, BACH, with hybrid memory technologies. Components of our BACH design include a hybrid cache hierarchy, a reconfiguration mechanism, and a statistical prediction engine. Our hybrid cache hierarchy chooses different memory technologies with various bandwidth characteristics, such as spin-transfer torque memory (STT-MRAM), resistive memory (ReRAM), and embedded DRAM (eDRAM), to configure each level so that the peak bandwidth of the overall cache hierarchy is optimized. Our reconfiguration mechanism can dynamically adjust the cache capacity of each level based on the predicted bandwidth demands of running workloads. The bandwidth prediction is performed by our prediction engine. We evaluate the system performance gain obtained by BACH design with a set of multithreaded and multiprogrammed workloads with and without the limitation of system power budget. Compared with traditional SRAM-based cache design, BACH improves the system throughput by 58% and 14% with multithreaded and multiprogrammed workloads respectively. 展开更多
关键词 memory bandwidth hybrid cache reconfigurable cache nonvolatile memory
原文传递
多级缓存数据预取处理器访存性能测试方法
5
作者 钟伟军 田晨燕 《信息技术与标准化》 2023年第6期25-29,共5页
针对处理器内存访问性能测试缺少对多级缓存数据预取优化而导致测试数据不能真实反映实际性能的问题,分析了多级缓存数据预取优化技术及其对内存访问带宽的影响。提出了一种针对多级缓存处理器的访存性能优化测试方法,该方法充分利用缓... 针对处理器内存访问性能测试缺少对多级缓存数据预取优化而导致测试数据不能真实反映实际性能的问题,分析了多级缓存数据预取优化技术及其对内存访问带宽的影响。提出了一种针对多级缓存处理器的访存性能优化测试方法,该方法充分利用缓存数据预取机制,并避免处理器核间资源竞争,实现访存性能提升。实验数据表明,采用该方法可以得到符合硬件实际访存性能的数据,为准确评估高性能处理器的访存能力提供支持。 展开更多
关键词 多级缓存 缓存数据预取 访存性能 处理器 访存带宽
下载PDF
多线程向量处理器中向量数据存储结构的设计与实现 被引量:1
6
作者 王永文 陈微 +1 位作者 郑倩冰 窦强 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期53-55,共3页
多线程和向量技术相结合是当前微处理器设计的一个重要趋势.提出一种多线程向量处理器中向量数据存储结构,利用多线程切换来隐藏访存延迟,并让向量数据直接访问二级cache来提高带宽.模拟实验表明在所提出的存储结构下,访存带宽随线程数... 多线程和向量技术相结合是当前微处理器设计的一个重要趋势.提出一种多线程向量处理器中向量数据存储结构,利用多线程切换来隐藏访存延迟,并让向量数据直接访问二级cache来提高带宽.模拟实验表明在所提出的存储结构下,访存带宽随线程数线性增长,向量数据访问带宽明显高于标量数据访问带宽. 展开更多
关键词 多线程 向量 访存带宽 访存延迟
下载PDF
Memory bandwidth optimization of SpMV on GPGPUs
7
作者 Chenggang Clarence YAN Hui YU +5 位作者 Weizhi XU Yingping ZHANG Bochuan CHEN Zhu TIAN Yuxuan WANG Jian YIN 《Frontiers of Computer Science》 SCIE EI CSCD 2015年第3期431-441,共11页
It is an important task to improve performance for sparse matrix vector multiplication (SpMV), and it is a difficult task because of its irregular memory access. Gen- eral purpose GPU (GPGPU) provides high computi... It is an important task to improve performance for sparse matrix vector multiplication (SpMV), and it is a difficult task because of its irregular memory access. Gen- eral purpose GPU (GPGPU) provides high computing abil- ity and substantial bandwidth that cannot be fully exploited by SpMV due to its irregularity. In this paper, we propose two novel methods to optimize the memory bandwidth for SpMV on GPGPU. First, a new storage format is proposed to exploit memory bandwidth of GPU architecture more effi- ciently. The new storage format can ensure that there are as many non-zeros as possible in the format which is suitable to exploit the memory bandwidth of the GPU. Second, we pro- pose a cache blocking method to improve the performance of SpMV on GPU architecture. The sparse matrix is partitioned into sub-blocks that are stored in CSR format. With the block- ing method, the corresponding part of vector x can be reused in the GPU cache, so the time to access the global memory for vector x is reduced heavily. Experiments are carried out on three GPU platforms, GeForce 9800 GX2, GeForce GTX 480, and Tesla K40. Experimental results show that both new methods can efficiently improve the utilization of GPU mem- ory bandwidth and the performance of the GPU. 展开更多
关键词 GPGPU performance tuning SpMV cacheblocking memory bandwidth
原文传递
基于虚通道的SDRAM访存调度器研究
8
作者 邓让钰 谢伦国 +1 位作者 刘德峰 潘国腾 《计算机工程与科学》 CSCD 北大核心 2012年第1期43-48,共6页
随着半导体工艺水平的进步,CPU与存储器的速度差距越来越大,存储器带宽已成为计算机系统的关键资源。根据目前广泛使用的SDRAM存储器多体并行存储的结构特点,提出了一种基于虚通道的访存调度器和最小等待时间-读请求优先调度策略,避免... 随着半导体工艺水平的进步,CPU与存储器的速度差距越来越大,存储器带宽已成为计算机系统的关键资源。根据目前广泛使用的SDRAM存储器多体并行存储的结构特点,提出了一种基于虚通道的访存调度器和最小等待时间-读请求优先调度策略,避免了访存请求之间的数据相关性,加快了访存请求的调度,提高了存储器带宽的利用率。 展开更多
关键词 访存调度 虚通道 SDRAM存储系统 存储器带宽
下载PDF
访存带宽最小化的H.264整像素运动估计VLSI结构 被引量:1
9
作者 李东晓 郑伟 张明 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2007年第8期1341-1347,共7页
面向H.264/AVC整像素运动估计,提出了一种兼顾数据搬运和计算部件效率的全搜索超大规模集成电路(VLSI)结构.通过在片上最大化重用参考像素,使外存访问带宽得到了最小化,每个参考像素只需访存一次.通过分布式内存映射和图像边界的假想连... 面向H.264/AVC整像素运动估计,提出了一种兼顾数据搬运和计算部件效率的全搜索超大规模集成电路(VLSI)结构.通过在片上最大化重用参考像素,使外存访问带宽得到了最小化,每个参考像素只需访存一次.通过分布式内存映射和图像边界的假想连接,使参考像素的搬运过程规则、高效.处理器单元(PE)结构简单,PE阵列以单指令多数据流(SIMD)方式工作,数据通信采用脉动方式,计算部件的利用效率为100%.搜索过程没有空泡,每拍处理一个搜索点,支持7种可变尺寸分块,同时完成41个分块的绝对差之和(SAD)的计算与比较.给出了参数化的结构设计描述.针对标准清晰度数字电视(SDTV)应用,设计实现了一个具体的结构,采用Faraday0.18μm CMOS标准单元工艺库,逻辑门数为151×103门,关键路径时延为3.86 ns,片上缓存为23.75 kB,访存I/O引脚数为8 bit.在216 MHz钟频下,实时支持SDTV 720×576@30fps,搜索范围为[-32,32]×[-16,16],2个参考图像,访存带宽为24.9 MB/s. 展开更多
关键词 H.264/AVC 运动估计 VLSI结构 数据重用 访存带宽
下载PDF
计算机辅助设计软件运行之硬件环境分析 被引量:1
10
作者 徐开秋 《天津职业院校联合学报》 2012年第2期74-78,共5页
计算机辅助设计主要涉及平面设计、机械制图、建筑效果图制作等领域,常用软件诸如Photoshop、AutoCAD、3dsMax等软件。这些软件的运行都会对计算机的硬件环境有很高的要求,文章将就其运行的硬件环境进行分析。
关键词 多核心处理器 3D性能测试 独立显卡 显存位宽 内存带宽
下载PDF
一个支持访存带宽敏感调度的跨执行优化方法 被引量:1
11
作者 徐地 武成岗 冯晓兵 《计算机学报》 EI CSCD 北大核心 2014年第7期1580-1592,共13页
片外访存带宽是共享存储多核系统的主要性能瓶颈.访存带宽敏感的任务调度可以有效缓解并发程序间的访存竞争,提高系统吞吐率.然而调度策略的实施需要关于程序执行的先验知识,给系统用户增加了额外负担;另一方面,并发程序间的带宽竞争使... 片外访存带宽是共享存储多核系统的主要性能瓶颈.访存带宽敏感的任务调度可以有效缓解并发程序间的访存竞争,提高系统吞吐率.然而调度策略的实施需要关于程序执行的先验知识,给系统用户增加了额外负担;另一方面,并发程序间的带宽竞争使得运行时收集的程序带宽需求信息不精确,影响了调度效果.在该文中,作者提出了一个低开销、对用户透明的跨执行优化方法解决上述问题.它在运行时识别程序的阶段性(phase)行为,并估算每个phase的独占执行性能;上述信息被存储到数据库中,在程序未来的执行中指导调度,并且信息精度随着程序的多次执行持续增加.上述过程使得带宽敏感调度策略的进行不再需要任何用户信息制导,并且优化了调度效果.作者在基于Intel Xeon处理器的8核系统上实现并评估了该系统,测试结果表明:相对于Linux操作系统(OS)默认的调度策略,该文的方法能平均提高系统吞吐率3.7%,对于某些特定程序组达8.5%. 展开更多
关键词 进程调度 访存带宽 总线竞争 跨执行优化
下载PDF
第一性原理计算软件包ABACUS中格点积分的优化 被引量:1
12
作者 沈瑜 李会民 刘晓辉 《科研信息化技术与应用》 2015年第5期12-21,共10页
ABACUS是中国科学技术大学中国科学院量子信息重点实验室自主研发的新型基于密度泛函和数值原子轨道基组的第一性原理计算软件包,在该软件中需要使用格点积分来计算局域势和电子密度,这两部分的计算是程序运行中主要耗时的部分。我们采... ABACUS是中国科学技术大学中国科学院量子信息重点实验室自主研发的新型基于密度泛函和数值原子轨道基组的第一性原理计算软件包,在该软件中需要使用格点积分来计算局域势和电子密度,这两部分的计算是程序运行中主要耗时的部分。我们采用了内存池和高性能数学库对这两部分进行了优化,最终使得程序对内存带宽和CPU高级矢量扩展的利用率有了大幅提高,实际计算速度得到了有效的提高。经过实测,在200个Ti原子的算例中,这两部分的速度分别提高到原来的4.2倍和6.4倍,整体速度提高到原来的2.8倍。 展开更多
关键词 优化 第一性原理 格点积分 内存带宽 高级矢量扩展
原文传递
多媒体流处理器中缓冲器的体系结构设计
13
作者 王光 沈绪榜 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2006年第1期74-78,96,共6页
传统微处理器体系结构不能很好地匹配媒体处理应用的特点.针对处理器与存储器之间日益增长的性能间隙问题,分析了传统微处理器对媒体处理应用的通讯瓶颈;通过分析Cache存储器的特点,得出了传统的Cache结构并不适合现代媒体处理应用的结... 传统微处理器体系结构不能很好地匹配媒体处理应用的特点.针对处理器与存储器之间日益增长的性能间隙问题,分析了传统微处理器对媒体处理应用的通讯瓶颈;通过分析Cache存储器的特点,得出了传统的Cache结构并不适合现代媒体处理应用的结论,讨论了目前针对处理器通讯瓶颈的一些解决办法;提出了一种以大容量流寄存器堆替代Cache作为中间缓冲器,并能适合于媒体处理应用的金字塔存储层次体系结构设计.该体系结构具有三级并行数据带宽存储层次,即片外SDRAM、全局寄存器堆和局部寄存器堆.三级并行存储层次所能提供的带宽依次提高一个数量级,带宽之比为1∶16∶256,从而可以有效地支持卫星遥感图像预处理对数据带宽的需求. 展开更多
关键词 媒体处理应用 存储带宽 存储层次 流寄存器堆 流缓冲器
下载PDF
BYS91─1多机系统存储器频带的分析
14
作者 林成江 李三立 柳瑞恒 《小型微型计算机系统》 CSCD 北大核心 1995年第3期1-5,共5页
BYS91-1是基于RISCi860XP设计的具有局部存储和共享存储的多机系统。本文以排队论为工具,建立了该系统存储器的排队模型,给出了存储器使用频带的解析式,并结合具体的设计参数,分析了系统中处理机个数、存储空间配... BYS91-1是基于RISCi860XP设计的具有局部存储和共享存储的多机系统。本文以排队论为工具,建立了该系统存储器的排队模型,给出了存储器使用频带的解析式,并结合具体的设计参数,分析了系统中处理机个数、存储空间配置对存储器有效频带的影响。 展开更多
关键词 存储器频带 多机系统 存储器
下载PDF
一种运动估计的数据复用技术
15
作者 刘德启 《航空电子技术》 2007年第2期32-34,54,共4页
利用硬件,尤其是集成电路来快速实现块匹配运动估计是现在运动图像处理研究的重点之一,而受到目前具体存储器带宽的限制,许多快速算法均无法实现。因此,如何降低对外部存储器带宽的需求直接影响到块匹配的硬件实现,本文首先分析了块匹... 利用硬件,尤其是集成电路来快速实现块匹配运动估计是现在运动图像处理研究的重点之一,而受到目前具体存储器带宽的限制,许多快速算法均无法实现。因此,如何降低对外部存储器带宽的需求直接影响到块匹配的硬件实现,本文首先分析了块匹配运动估计对存储器带宽的需求和数据读取的特点,并据此提出了一种数据复用技术。以少量本地片上存储器为代价大大降低了对外部存储器的带宽需求,利用普通的SDRAM即可快速实现高清晰图像的块匹配运动估计算法,并利用FPGA和普通SDRAM实现了整个运动估计算法。 展开更多
关键词 块匹配 数据复用 存储器带宽 片上存储器
下载PDF
基于龙芯CPU的服务器访存性能测试与分析
16
作者 王松宇 李麟 陈政霖 《信息技术与标准化》 2014年第6期32-36,共5页
阐述了龙芯3号CPU的性能特点及应用情况,分析了影响内存带宽的因素以及龙芯与至强处理器之间的差别,并使用STRAM测试工具测试出它们之间实际的内存带宽差距。提升龙芯CPU的主频并且改进片内内存控制器来提升内存带宽,同时保证龙芯系列... 阐述了龙芯3号CPU的性能特点及应用情况,分析了影响内存带宽的因素以及龙芯与至强处理器之间的差别,并使用STRAM测试工具测试出它们之间实际的内存带宽差距。提升龙芯CPU的主频并且改进片内内存控制器来提升内存带宽,同时保证龙芯系列低功耗特点。 展开更多
关键词 龙芯3号CPU Intel至强CPU STREAM 内存带宽 内存控制器CPU主频 功耗
下载PDF
面向应用的流存储系统评测与改进
17
作者 汪芳 安虹 +2 位作者 徐光 许牧 姚平 《小型微型计算机系统》 CSCD 北大核心 2010年第5期990-995,共6页
有限的片外存储带宽是制约流处理器性能提升的瓶颈之一,流存储系统已经采用了多种方式来缓解这个问题,但当前的设计并没有充分考虑应用具体的访存模式对有效带宽利用率的影响.通过分析和实验,评估流存储系统主要设计参数对不同访存模式... 有限的片外存储带宽是制约流处理器性能提升的瓶颈之一,流存储系统已经采用了多种方式来缓解这个问题,但当前的设计并没有充分考虑应用具体的访存模式对有效带宽利用率的影响.通过分析和实验,评估流存储系统主要设计参数对不同访存模式的优化效果;在此基础上针对不同的流访问并行度提出了相应的结构改进,加入宽发射和短作业优先调度支持,充分挖掘存储访问的局部性和并行性,改善了负载平衡,从而有效地提高了片外带宽的使用效率和流程序的整体性能. 展开更多
关键词 流存储系统 DRAM 存储带宽
下载PDF
支持动态搜索区域的运动估计硬件结构设计与优化
18
作者 陈运必 郭立 +1 位作者 李正东 池凌鸿 《中国科学院研究生院学报》 CAS CSCD 北大核心 2012年第4期512-517,共6页
提出一种支持动态搜索区域的可变块大小运动估计硬件结构,弥补固定大小搜索区域的不足,可同时降低外存带宽、计算复杂度和功耗.使用循环分布式存储结构来支持动态搜索区域的数据存取.此外,对耗时的SAD(sum of absolute differences)计... 提出一种支持动态搜索区域的可变块大小运动估计硬件结构,弥补固定大小搜索区域的不足,可同时降低外存带宽、计算复杂度和功耗.使用循环分布式存储结构来支持动态搜索区域的数据存取.此外,对耗时的SAD(sum of absolute differences)计算阵列进行均衡的流水线划分和加法逻辑优化.实现结果表明,相比同类设计,该设计以少量的吞吐率损失,换取面积效率和功耗效率的明显提高. 展开更多
关键词 运动估计 动态搜索区域 存储带宽 流水线 大规模集成电路
下载PDF
基于STREAM的内存性能测试设计与分析
19
作者 刘建 黄奇 +2 位作者 官慧敏 张明娟 吴宸 《电子质量》 2024年第5期81-86,共6页
主要对STREAM内存性能测试工具进行了深入研究,同时对内存性能影响因素进行了分析,详细地阐述了CPU、内存、编译器等影响因素对内存性能可能存在的影响点,进一步选取不同架构CPU、不同内存速率、不同版本的GCC编译器设计相关案例进行内... 主要对STREAM内存性能测试工具进行了深入研究,同时对内存性能影响因素进行了分析,详细地阐述了CPU、内存、编译器等影响因素对内存性能可能存在的影响点,进一步选取不同架构CPU、不同内存速率、不同版本的GCC编译器设计相关案例进行内存性能测试。测试结果表明,CPU架构、内存速率与GCC编译器版本均对内存性能有一定影响,其中CPU架构影响最大,满线程测试结果最大相差4.17倍,内存速率影响最小,单线程测试结果几乎无影响。 展开更多
关键词 可持续内存带宽 内存性能 影响因素
下载PDF
多总线多处理机系统有效带宽分析 被引量:2
20
作者 王虎军 《华东船舶工业学院学报》 1993年第4期20-24,共5页
本文运用优先级和两级裁决机制来减少多处理机系统中存在的访存冲突.推导出拥有优先级的多总线多处理机系统有效带宽的数学模型.结果表明:优先级并不影响整个系统的有效带宽性能.
关键词 多处理机系统 存贮器 带宽
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部