期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
DPDK在国产申威处理器平台上的应用与研究 被引量:3
1
作者 明旭 何慧文 陈磊 《信息安全研究》 2018年第1期53-62,共10页
发展自主可控处理器,对我国新时代中国特色社会主义的建设具有重大的战略意义.经过10多年的发展,国产申威处理器在超算等领域取得了举世瞩目的成就,已经基本具备了与当今国际先进处理器相抗衡的能力.DPDK是Intel提供的数据平面开发工具... 发展自主可控处理器,对我国新时代中国特色社会主义的建设具有重大的战略意义.经过10多年的发展,国产申威处理器在超算等领域取得了举世瞩目的成就,已经基本具备了与当今国际先进处理器相抗衡的能力.DPDK是Intel提供的数据平面开发工具集,由一系列功能库、网卡驱动组成,开发者可以利用这些库进行二次开发,实现网络数据包的快速处理.基于DPDK实现用户态网络协议栈,且用户态协议栈可以避免中断,避免不必要的上下文切换,可以作到真正的zero-copy,在云计算,大数据场景下越发重要.DPDK正在SDN和NFV中发挥越来越重要的作用,并逐渐成为事实上的标准.将DPDK移植到国产申威处理器硬件的平台上,不仅可以大幅提升基于申威平台的网络设备的数据包处理能力,还可以拓宽申威硬件平台在高性能计算、大数据平台、安全设备以及服务器领域的应用.首先阐述了将DPDK移植到国产申威处理器平台上的重要意义,并简述了DPDK的架构和核心技术;然后分析了将DPDK移植到申威处理器平台上的难点,描述了移植工作的具体技术实现;最后,简述了基于申威SW411处理器的防火墙原型机的设计与实现工作,并通过对比移植前后原型机的关键性能指标,验证了DPDK移植到申威平台上能够达到的效果. 展开更多
关键词 DPDK 申威处理器 移植 框架 协议栈
下载PDF
基于热例程的动态二进制翻译优化 被引量:3
2
作者 董卫宇 刘金鑫 +2 位作者 戚旭衍 何红旗 蒋烈辉 《计算机科学》 CSCD 北大核心 2016年第5期27-33,41,共8页
依据对系统级程序行为特性的观察,提出了一种基于热例程的动态二进制翻译优化方法。该方法以频繁执行的例程作为优化单位,通过块内和块间优化算法消除动态二进制翻译引入的冗余。相比基于踪迹的优化方法,该方法具有优化单位发现开销更... 依据对系统级程序行为特性的观察,提出了一种基于热例程的动态二进制翻译优化方法。该方法以频繁执行的例程作为优化单位,通过块内和块间优化算法消除动态二进制翻译引入的冗余。相比基于踪迹的优化方法,该方法具有优化单位发现开销更小、代码区域更大、无重复翻译等优点,更适用于系统虚拟机中操作系统代码的优化。在跨平台系统虚拟机监控器ARCH-BRIDGE上的测试表明,通过对内核代码实施该优化方法,SPEC CPUINT 2006程序的效率提升了3.5%~14.4%,相比基于踪迹的优化,性能最大提升了5.1%。 展开更多
关键词 跨平台系统虚拟机 动态二进制翻译 动态二进制优化 申威处理器
下载PDF
译码制导的动态二进制翻译优化 被引量:1
3
作者 董卫宇 王瑞敏 +1 位作者 戚旭衍 曾韵 《计算机科学》 CSCD 北大核心 2015年第6期189-192,203,共5页
提出了一种译码制导的轻量级动态二进制翻译优化技术,该技术在译码阶段提取源指令的高层语义信息,结合上下文对其进行标注,并在翻译阶段利用标注信息直接生成优化的目标指令。该技术可识别动态二进制翻译系统中主要的基本块级优化机会,... 提出了一种译码制导的轻量级动态二进制翻译优化技术,该技术在译码阶段提取源指令的高层语义信息,结合上下文对其进行标注,并在翻译阶段利用标注信息直接生成优化的目标指令。该技术可识别动态二进制翻译系统中主要的基本块级优化机会,去除load/store冗余、精确异常导致的冗余和标志位处理冗余。测试表明,相比QEMU,该优化技术的跨平台x86系统虚拟机ARCH-BRIDGE的翻译开销降低了53%,翻译块尺寸降低了78%,load和store操作数量分别了降低了50%和21%。 展开更多
关键词 动态二进制翻译 系统虚拟机 软件透明移植 申威处理器
下载PDF
Enabling Highly Efficient k-Means Computations on the SW26010 Many-Core Processor of Sunway TaihuLight 被引量:1
4
作者 Min Li Chao Yang +3 位作者 Qiao Sun Wen-Jing Ma Wen-Long Cao Yu-Long Ao 《Journal of Computer Science & Technology》 SCIE EI CSCD 2019年第1期77-93,共17页
With the advent of the big data era,the amounts of sampling data and the dimensions of data features are rapidly growing.It is highly desired to enable fast and efficient clustering of unlabeled samples based on featu... With the advent of the big data era,the amounts of sampling data and the dimensions of data features are rapidly growing.It is highly desired to enable fast and efficient clustering of unlabeled samples based on feature similarities. As a fundamental primitive for data clustering,the k-means operation is receiving increasingly more attentions today.To achieve high performance k-means computations on modern multi-core/many-core systems,we propose a matrix-based fused framework that can achieve high performance by conducting computations on a distance matrix and at the same time can improve the memory reuse through the fusion of the distance-matrix computation and the nearest centroids reduction.We implement and optimize the parallel k-means algorithm on the SW26010 many-core processor,which is the major horsepower of Sunway TaihuLight.In particular,we design a task mapping strategy for load-balanced task distribution,a data sharing scheme to reduce the memory footprint and a register blocking strategy to increase the data locality.Optimization techniques such as instruction reordering and double buffering are further applied to improve the sustained performance.Discussions on block-size tuning and performance modeling are also presented.We show by experiments on both randomly generated and real-world datasets that our parallel implementation of k-means on SW26010 can sustain a double-precision performance of over 348.1 Gflops,which is 46.9% of the peak performance and 84%of the theoretical performance upper bound on a single core group,and can achieve a nearly ideal scalability to the whole SW26010 processor of four core groups.Performance comparisons with the previous state-of-the-art on both CPU and GPU are also provided to show the superiority of our optimized k-means kernel. 展开更多
关键词 PARALLEL K-MEANS performance optimization sw26010 processor Sunway TaihuLight
原文传递
Hardware-Software Co-implementation of H.264 Decoder in SoC
5
作者 杨宇红 张文军 +1 位作者 熊恋学 饶振宁 《Journal of Shanghai Jiaotong university(Science)》 EI 2006年第3期335-339,共5页
With the increasing demand for flexible and efficient implementation of image and video processing algorithms, there should be a good tradeoff between hardware and software design method. This paper utilized the HW-SW... With the increasing demand for flexible and efficient implementation of image and video processing algorithms, there should be a good tradeoff between hardware and software design method. This paper utilized the HW-SW codesign method to implement the H.264 decoder in an SoC with an ARM core, a multimedia processor and a deblocking filter coprocessor. For the parallel processing features of the multimedia processor, clock cycles of decoding process can be dramatically reduced. And the hardware dedicated deblocking filter coprocessor can improve the efficiency a lot. With maximum clock frequency of 150 MHz, the whole system can achieve real time processing speed and flexibility. 展开更多
关键词 HW-sw co-implementation single instruction multiple data (SIMD) multimedia processor H.264 decoder COprocessor
下载PDF
跨平台系统虚拟机的二进制翻译优化
6
作者 董卫宇 戚旭衍 +2 位作者 曾韵 郭玉东 蒋烈辉 《计算机工程与应用》 CSCD 北大核心 2016年第23期42-49,共8页
在跨平台系统虚拟机原型ARCH-BRIDGE的基础上,提出了一种基本块级的动态二进制翻译优化方法,通过两阶段翻译、基于虚拟寄存器的优化翻译及延迟机器状态提交等技术,可在不采用中间表示及确保精确异常的情况下,有效去除二进制翻译所引入... 在跨平台系统虚拟机原型ARCH-BRIDGE的基础上,提出了一种基本块级的动态二进制翻译优化方法,通过两阶段翻译、基于虚拟寄存器的优化翻译及延迟机器状态提交等技术,可在不采用中间表示及确保精确异常的情况下,有效去除二进制翻译所引入的冗余。测试表明,优化后的ARCH-BRIDGE在翻译开销明显优于QEMU的同时,翻译块尺寸和翻译冗余得到了大幅降低,并且SPEC CPU2006、NBENCH及OS引导的性能均得到了显著提升。 展开更多
关键词 跨平台系统虚拟机 内存虚拟化 动态二进制翻译 软件透明移植 申威处理器
下载PDF
基于申威26010处理器的扩展函数库实现与优化 被引量:10
7
作者 曹代 郭绍忠 张辛 《计算机工程》 CAS CSCD 北大核心 2017年第1期61-66,71,共7页
Intel,AMD和IBM都具有针对自身特点的向量扩展库。相比于传统的标量计算,向量化技术带来的加速比较高。为此,针对申威26010处理器开发向量数学库软件。在分析函数常用级数法和迭代法算法的基础上,结合三角函数、反三角函数、指数函数和... Intel,AMD和IBM都具有针对自身特点的向量扩展库。相比于传统的标量计算,向量化技术带来的加速比较高。为此,针对申威26010处理器开发向量数学库软件。在分析函数常用级数法和迭代法算法的基础上,结合三角函数、反三角函数、指数函数和对数函数研究一种高效向量化算法,并对其进行实现与优化,使其支持函数高精度和高性能计算,并且满足浮点运算的要求。测试结果表明,该算法精度达到申威26010处理器上特定应用的要求,与Intel VML数学库相比,各函数的平均加速比均达到1.1以上。 展开更多
关键词 浮点运算 数学函数 申威26010处理器 数据分段 指令调度
下载PDF
一种面向异构众核处理器的并行编译框架 被引量:7
8
作者 李雁冰 赵荣彩 +3 位作者 韩林 赵捷 徐金龙 李颖颖 《软件学报》 EI CSCD 北大核心 2019年第4期981-1001,共21页
异构众核处理器是面向高性能计算领域处理器发展的重要趋势,但其更为复杂的体系结构使得编程难的问题更加突出.针对这一问题,基于开源编译器Open64,提出了一种面向异构众核处理器的并行编译框架,将程序自动转换为异构并行程序.该框架主... 异构众核处理器是面向高性能计算领域处理器发展的重要趋势,但其更为复杂的体系结构使得编程难的问题更加突出.针对这一问题,基于开源编译器Open64,提出了一种面向异构众核处理器的并行编译框架,将程序自动转换为异构并行程序.该框架主要包括4个模块:任务划分模块用来识别适合进行加速计算的程序段,实现了嵌套循环的多维并行识别方法;数据布局模块完成数据在主存和SPM之间的布局,实现了数组边界分析和指针范围分析;传输优化模块实现了数据传输合并、传输外提、打包传输、数组转置等多种数据传输优化方法;收益评估模块在构建代价模型的基础上实现了一种动静结合的收益评估方法.并且,基于SW26010处理器,对该编译框架进行了实现,测试结果表明,该编译框架能够实现一些程序以面向异构众核结构的并行变换,且获得较好的加速效果. 展开更多
关键词 异构众核处理器 sw26010 并行编译 数据传输优化 OpenACC
下载PDF
神威·太湖之光上排列熵算法异构并行加速 被引量:2
9
作者 周倩 梁建国 傅游 《计算机工程与设计》 北大核心 2023年第2期400-406,共7页
为增加检测突变信号的时效性,提高各种故障检测系统的效率,提出在“神威·太湖之光”上基于两级并行模式改进的排列熵(PE)算法。在节点间采用MPI(信息传递接口)并行编程模型,通过对等模式轮询调度方式解决多文件负载不均衡问题;在... 为增加检测突变信号的时效性,提高各种故障检测系统的效率,提出在“神威·太湖之光”上基于两级并行模式改进的排列熵(PE)算法。在节点间采用MPI(信息传递接口)并行编程模型,通过对等模式轮询调度方式解决多文件负载不均衡问题;在核组内采用Athread(加速线程库)并行编程模型,通过相空间构建重构矩阵,实现从核级数据划分;采用双缓冲技术实现从核计算与访存的重叠,减少主从通信时间;利用DMA通信和重组传输数据的方法,减少主从通信次数。使用15个LDK UER204滚动轴承全寿命周期实验数据进行测试,结果表明,单核组性能较主核版本最高可获得11.86倍加速,128核组最高实现123.73倍的性能提升。 展开更多
关键词 sw26010处理器 信息传递接口(MPI) 加速线程库(Athread) 负载均衡 双缓冲
下载PDF
基于SW26010处理器的FT程序的性能优化 被引量:6
10
作者 陶小涵 庞建民 +2 位作者 高伟 王琦 姚金阳 《计算机科学》 CSCD 北大核心 2019年第4期321-328,共8页
"神威·太湖之光"是中国自主研发的超级计算机,其处理器芯片为国人自主研发的SW26010异构众核处理器,每个处理器内含有4个核组,每个核组包括1个主核和64个从核。NPB-FT程序的功能是利用快速傅立叶变换求解三维偏微分方程... "神威·太湖之光"是中国自主研发的超级计算机,其处理器芯片为国人自主研发的SW26010异构众核处理器,每个处理器内含有4个核组,每个核组包括1个主核和64个从核。NPB-FT程序的功能是利用快速傅立叶变换求解三维偏微分方程,其被广泛用于评测集群的计算和集合能力,因此选用FT程序对"神威·太湖之光"提供的多层次并行资源和体系架构的性能进行测试具有重要的意义。首先,利用加速线程库将程序改写为主从版本,使计算核心能够在从核上执行;其次,利用从核的寄存器通信以及主从核间的数据传输通道,消除FT程序中的数据转置过程;然后,实现了计算与通信隐藏,避免了核间通信时核内的计算资源处于空闲状态;最后,利用向量化和指令流水技术,提升程序的数据级并行和指令级并行。实验结果为:单核上3D-32规模的加速比为66,64核上3D-512规模的加速比为20,256核上3D-2048规模的加速比为46。 展开更多
关键词 傅立叶变换 sw26010处理器 寄存器通信 通信隐藏
下载PDF
国产SW26010-Pro处理器上3级BLAS函数众核并行优化
11
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3级 sw26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
下载PDF
基于SW26010处理器的PANDAS众核并行优化方法及在地质变形分析中的应用
12
作者 王雪纯 邢会林 +2 位作者 戴黎明 郭志伟 刘骏标 《山东科技大学学报(自然科学版)》 CAS 北大核心 2023年第6期11-18,共8页
有限元数值模拟是目前研究地质体变形分析的重要方法,方程组求解对模拟结果的时效性和精确度有重要影响。针对并行自适应非线性变形分析软件(PANDAS)模拟千万级大规模模型时方程组求解耗时长和收敛速度慢的问题,本研究基于SW26010处理... 有限元数值模拟是目前研究地质体变形分析的重要方法,方程组求解对模拟结果的时效性和精确度有重要影响。针对并行自适应非线性变形分析软件(PANDAS)模拟千万级大规模模型时方程组求解耗时长和收敛速度慢的问题,本研究基于SW26010处理器主从核异构架构和并行计算技术实现PANDAS众核并行优化。首先,通过区域分解实现大规模地质模型分解,降低单主核计算的数据量,然后利用矩阵压缩存储技术有效节省存储资源。最后,利用SW26010处理器的从核阵列优化迭代求解算法加速方程组求解过程。全地球模型的速度场模拟结果表明本研究提出的方法具有可行性,多孔介质模型压缩模拟的速度较CPU单核串行程序提升8.1倍,断层系统变形模拟的速度提升7.6倍。 展开更多
关键词 sw26010处理器 PANDAS 并行计算 变形分析 数值模拟
下载PDF
面向新一代神威超级计算机平台的大气动力学问题全隐式求解器研究 被引量:1
13
作者 陈道琨 刘芳芳 杨超 《数值计算与计算机应用》 2023年第2期198-213,共16页
大气动力学问题的数值模拟在气象预报等领域具有广泛的应用.相关数值模拟依赖超级计算机平台实现高精度高分辨率的气象预报,隐式求解不受稳定性条件限制,相比显式求解更有优势.面向新的超级计算机架构特征研究隐式大气动力学问题中一系... 大气动力学问题的数值模拟在气象预报等领域具有广泛的应用.相关数值模拟依赖超级计算机平台实现高精度高分辨率的气象预报,隐式求解不受稳定性条件限制,相比显式求解更有优势.面向新的超级计算机架构特征研究隐式大气动力学问题中一系列算子操作的并行和优化方法是非常有必要的.本文在规则递推关系的理论框架下对大气动力学问题预条件阶段的稀疏三角回代求解以及ILU矩阵分解操作的特征进行了总结,并结合申威26010Pro处理器的架构特点,对现有结构化稀疏三角线性方程组问题的并行算法进行了推广,设计了一套面向单向规则递推关系的算法框架,解决了预条件阶段各类算子的并行加速问题.本文还面向申威26010Pro处理器对大气动力学问题的模板计算等算子进行了移植和优化.实验结果显示,本文的算法框架对预条件阶段的算子能够实现26-33倍不等的加速效果,对模板计算等算子的优化相比串行计算有10-152倍的加速比.在新的神威超级计算机上最大测试到1700多万核心,浮点性能达到20.5PFlop/s.在大规模测试条件下的强(弱)可扩展性维持在56.81%(41.87%)以上. 展开更多
关键词 大气动力学数值模拟 规则递推关系 异构并行计算 申威26010Pro处理器 结构化问题
原文传递
面向国产高性能众核处理器的编程模型
14
作者 陈虎 周鹏灵 《计算机应用》 CSCD 北大核心 2023年第11期3517-3526,共10页
在国产高性能众核处理器上编程时,需要直接使用最底层的接口开发软件,这使编程和调试非常困难;并且各自平台的高性能软件编程模型较为基础,计算软件不能通用,造成了重复性开发。针对以上问题,实现了通用编程模型以及所对应的支撑库:一... 在国产高性能众核处理器上编程时,需要直接使用最底层的接口开发软件,这使编程和调试非常困难;并且各自平台的高性能软件编程模型较为基础,计算软件不能通用,造成了重复性开发。针对以上问题,实现了通用编程模型以及所对应的支撑库:一方面基于消息队列机制开发国产高性能众核处理器的线程级并行机制;另一方面基于单指令多数据流(SIMD)编程模型开发从核上的数据级并行性。首先,对国产高性能众核处理器体系结构进行抽象;其次,设计模型的消息队列机制,并为程序员提供一套异构并行编程接口,如系统参数接口、从核线程控制接口、消息队列接口、SIMD抽象接口;最后,在上述基础上形成全新的高性能计算软件开发模型和方法,方便用户开发基于国产高性能众核处理器的并行计算软件。性能传输测试结果表明,在国产众核处理器上,当启动核数较少时,所提模型的传输带宽普遍达到了峰值直接内存访问(DMA)带宽的90%;当启动的核数较多时,消息队列模型的传输带宽普遍达到了峰值DMA带宽的70%。在矩阵乘法实验中,与系统原语传输矩阵并计算的性能相比,所提模型的性能达到前者的90%;在口令猜测系统中,所提模型的代码性能与直接使用最底层的接口开发的代码性能基本持平。所提通用编程模型和支撑框架使高性能计算(HPC)软件开发更简易,并且具有更好的可移植性,可为促进国产自主HPC软件研发提供帮助。 展开更多
关键词 国产众核处理器 单指令多数据流 并行编程模型 sw26010 消息队列模型
下载PDF
面向SW26010-Pro的1、2级BLAS函数众核并行优化技术
15
作者 胡怡 陈道琨 +5 位作者 杨超 刘芳芳 马文静 尹万旺 袁欣辉 林蓉芬 《软件学报》 EI CSCD 北大核心 2023年第9期4421-4436,共16页
BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数... BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数.基于RMA通信机制设计了从核归约策略,提升了BLAS 1、2级若干函数的归约效率.针对TRSV、TPSV等存在数据依赖关系的函数,提出了一套高效并行算法,该算法通过点对点同步维持数据依赖关系,设计了适用于三角矩阵的高效任务映射机制,有效减少了从核点对点同步的次数,提高了函数的执行效率.通过自适应优化、向量压缩、数据复用等技术,进一步提升了BLAS 1、2级函数的访存带宽利用率.实验结果显示, BLAS 1级函数的访存带宽利用率最高可达95%,平均可达90%以上, BLAS 2级函数的访存带宽利用率最高可达98%,平均可达80%以上.与广泛使用的开源数学库GotoBLAS相比, BLAS 1、2级函数分别取得了平均18.78倍和25.96倍的加速效果. LU分解、QR分解以及对称特征值问题通过调用所提出的高性能BLAS 1、2级函数取得了平均10.99倍的加速效果. 展开更多
关键词 BLAS 1级 BLAS 2级 访存带宽 sw26010-Pro众核处理器 RMA通信 点对点同步 自适应优化
下载PDF
SW26010处理器上的并行结构化稀疏三角方程组求解器 被引量:1
16
作者 陈道琨 刘芳芳 杨超 《软件学报》 EI CSCD 北大核心 2022年第12期4452-4463,共12页
稀疏三角线性方程组求解(Sp TRSV)在科学与工程计算领域是比较重要的核心计算函数,其中基于结构化网格构造的线性方程组是Sp TRSV求解器经常遇到的一类问题.在国产神威?太湖之光超级计算机所配备的SW26010处理器上,Sp TRSV求解器通常需... 稀疏三角线性方程组求解(Sp TRSV)在科学与工程计算领域是比较重要的核心计算函数,其中基于结构化网格构造的线性方程组是Sp TRSV求解器经常遇到的一类问题.在国产神威?太湖之光超级计算机所配备的SW26010处理器上,Sp TRSV求解器通常需要结合该平台的架构特点,通过搭建一定的数据路由体系来满足各工作线程对未知量数据的需求.面向与结构化网格相关的稀疏三角方程组问题,提出一套适用于SW26010处理器的并行求解器.该求解器在任务划分阶段将各线程的数据依赖模式限制在相对可控的范围之内,并在无数据路由的条件下解决线程的通信问题,不仅消除了数据路由带来的额外通信开销,而且适用的问题范围也不再受数据路由规则的制约.经测试,针对多种不同类型的结构化网格问题,提出的求解器框架的平均访存带宽利用率达88.2%,部分问题的访存带宽可达平台峰值带宽的94.5%(24.5 GB/s),整体性能相比现有工作有较为明显的提高. 展开更多
关键词 稀疏三角线性方程求解(Sp TRSV) 结构化网格 sw26010处理器 异构计算
下载PDF
一种面向申威26010处理器的分布式传递锁机制
17
作者 李明亮 庞建民 岳峰 《计算机科学》 CSCD 北大核心 2022年第10期52-58,共7页
在并行程序中,互斥锁通常被用来避免访问共享资源时发生冲突。申威26010处理器是“神威·太湖之光”超级计算机采用的异构众核处理器,众核之间并无硬件互斥锁机制。其开发人员基于原子操作实现了一种软件互斥锁,但是该软件锁在激烈... 在并行程序中,互斥锁通常被用来避免访问共享资源时发生冲突。申威26010处理器是“神威·太湖之光”超级计算机采用的异构众核处理器,众核之间并无硬件互斥锁机制。其开发人员基于原子操作实现了一种软件互斥锁,但是该软件锁在激烈锁竞争情况下会产生大量的锁操作开销,影响了并行程序的性能。针对这一问题,提出了一种分布式传递锁机制HDT-LOCK。首先,提出并实现了基于众核上便签存储器和主存的混合分布锁来避免访存拥塞;其次,设计了基于寄存器通信和单指令多数据指令(Single-instruction Multiple-data Instruction)的锁传递机制,以进一步提高HDT-LOCK机制的吞吐量。实验结果表明,与原锁机制相比,所提HDT-LOCK机制避免了访存拥塞,并且可扩展性更佳。此外,锁传递机制使HDT-LOCK的吞吐量提升最高可达5.6倍。 展开更多
关键词 申威26010处理器 混合分布锁 锁传递 单指令多数据指令 寄存器通信
下载PDF
软硬件协同减少媒体处理器中寄存器文件写次数的方法
18
作者 琚小明 姚庆栋 +1 位作者 史册 高磊 《电路与系统学报》 CSCD 北大核心 2006年第5期111-114,共4页
在嵌入式系统的应用中,程序代码中存在着相当多的局部变量,这些局部变量的使用范围(生存期)通常都很小。相关指令在流水中需要局部变量的值可以直接从旁路逻辑中得到,并在流水中完成局部变量值的全部使用。对这种局部变量就没有必要将... 在嵌入式系统的应用中,程序代码中存在着相当多的局部变量,这些局部变量的使用范围(生存期)通常都很小。相关指令在流水中需要局部变量的值可以直接从旁路逻辑中得到,并在流水中完成局部变量值的全部使用。对这种局部变量就没有必要将流水输出结果写回寄存器文件,以减少对寄存器文件(RF)的读写操作次数,从而降低对寄存器文件端口的读写要求。决定是否将结果写回寄存器文件的关键的是要确定寄存器的生存期以及流水中旁路逻辑的情况,本文根据所设计的媒体处理器提出了一种确定程序代码中寄存器生存期的算法,并通过指令编码实现对硬件结构的使能控制,即对流水输出结果写回寄存器文件的控制。软件仿真结果表明,对DSP中不同的应用程序平均可以减少94%的寄存器文件写次数。 展开更多
关键词 软硬件协同 寄存器文件 算法 媒体处理器
下载PDF
神威平台上AceMesh编程模型的构图优化
19
作者 叶雨曦 傅游 +3 位作者 梁建国 孟现粉 刘颖 花嵘 《山东科技大学学报(自然科学版)》 CAS 北大核心 2021年第4期76-85,共10页
面向高性能计算领域的多核、众核处理器飞速发展,为了降低并行编程的难度,提高并行计算效率,数据驱动的并行编程模型成为高性能计算领域的研究热点。AceMesh是数据流驱动的、支持多核和众核异构平台的任务并行编程模型,能自动发掘结构... 面向高性能计算领域的多核、众核处理器飞速发展,为了降低并行编程的难度,提高并行计算效率,数据驱动的并行编程模型成为高性能计算领域的研究热点。AceMesh是数据流驱动的、支持多核和众核异构平台的任务并行编程模型,能自动发掘结构化网格应用中存在的数据驱动的任务图并行性。但如果任务粒度划分较细,其构图过程会造成很大开销。本研究结合“申威26010”异构众核处理器的结构特点,从主、从核通信优化、内存池、无后继任务收集等方面对AceMesh构图过程进行优化,并采用航天飞行器应用中的7个热点子程序对优化效果进行测试。测试数据表明以上优化取得5倍的加速。为验证构图优化对AceMesh整体性能的提升,对航天飞行器应用分别在Acemesh和神威OpenACC的加速效果进行了测试,优化后的AceMesh加速效果约为神威OpenACC的1.5倍。 展开更多
关键词 DAG构图优化 任务并行编程模型 神威·太湖之光 申威处理器 性能
下载PDF
SW-920型微处理器水位遥测记录仪研制
20
作者 肖邦能 孙悦 《四川联合大学学报(工程科学版)》 EI CAS CSCD 1999年第3期118-121,158,共5页
本文介绍了我们采用以80C31微处理器为中心研制的智能型有线水位遥测记录仪。本仪器有效地克服了目前该类仪器的种种缺点(包括我们早期研制的SW-901型水位遥测仪)。不但可与SW-901水位遥测仪共用同一类型的水位传感器,还增加了能够... 本文介绍了我们采用以80C31微处理器为中心研制的智能型有线水位遥测记录仪。本仪器有效地克服了目前该类仪器的种种缺点(包括我们早期研制的SW-901型水位遥测仪)。不但可与SW-901水位遥测仪共用同一类型的水位传感器,还增加了能够由用户随机修改参数,同时对1~8个通道的水位传感器进行巡检或定点监测,定时/随机打印等功能。 展开更多
关键词 微处理器 水位遥测记录仪 水位监测 sw-920型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部