期刊文献+
共找到85篇文章
< 1 2 5 >
每页显示 20 50 100
面向GPU异构并行系统的多任务流编程模型 被引量:11
1
作者 董小社 刘超 +2 位作者 王恩东 刘袁 张兴军 《计算机学报》 EI CSCD 北大核心 2014年第7期1638-1646,共9页
传统并行编程模型和框架不能有效利用和发挥GPU异构并行系统特点,应用开发难度大,性能优化困难,文中采用混合编程模型思想,建立了一种以协处理器为中心的GPU计算核心与CPU控制相融合的多任务流编程模型.模型将并行任务与CUDA流相结合,... 传统并行编程模型和框架不能有效利用和发挥GPU异构并行系统特点,应用开发难度大,性能优化困难,文中采用混合编程模型思想,建立了一种以协处理器为中心的GPU计算核心与CPU控制相融合的多任务流编程模型.模型将并行任务与CUDA流相结合,利用系统硬件并行性特点实现程序任务级和数据级并行;采用任务间消息通信和任务内数据共享通信方式,既保证对传统并行应用的继承又降低了不同存储空间给应用开发带来的复杂性和难度.基于该编程模型实现了一个运行时支持系统原型,测试结果表明可保证高效的数据通信,且能充分利用系统计算能力,提高了应用程序运行效率. 展开更多
关键词 GPU 异构并行 编程模型
下载PDF
基于CPU-GPU异构并行的MOC中子输运计算并行效率优化研究 被引量:7
2
作者 宋佩涛 张志俭 +2 位作者 梁亮 张乾 赵强 《原子能科学技术》 EI CAS CSCD 北大核心 2019年第11期2209-2217,共9页
CPU-GPU异构系统为加速全堆芯特征线方法(MOC)精细计算提供了方法和思路。在实现基于CPU-GPU异构系统的二维MOC异构并行算法基础上,提出了性能分析模型,识别了影响异构并行算法并行效率的主要因素;针对识别到的性能影响因素,实现了输运... CPU-GPU异构系统为加速全堆芯特征线方法(MOC)精细计算提供了方法和思路。在实现基于CPU-GPU异构系统的二维MOC异构并行算法基础上,提出了性能分析模型,识别了影响异构并行算法并行效率的主要因素;针对识别到的性能影响因素,实现了输运计算与数据传递相互掩盖,提升了异构并行算法的整体并行效率。数值结果表明:程序具备良好的计算精度;数据传递(MPI通信和CPU与GPU之间的数据拷贝)是影响异构并行算法并行效率的主要因素;实现输运计算与数据传递相互掩盖后,程序性能和强并行效率均有所提升;5异构节点(包含20块GPU)并行时,程序整体效率提升达8%,强并行效率从87%提升到95%;相比CPU节点并行计算,4个CPU-GPU异构节点整体性能优于20个CPU节点。 展开更多
关键词 异构并行 特征线方法 中子输运计算 GPU CUDA
下载PDF
基于异构并行的山洪动力演进模型和模拟研究 被引量:3
3
作者 王富磊 欧阳朝军 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第1期16-25,共10页
为建立山区小流域降雨-山洪演进正演模拟和预报方法,构建了从降雨、植被截留、土体入渗、坡面汇流到山洪演进全过程物理模型.采用一阶迎风差分格式求解描述坡面汇流到径流过程的扩散波方程,并在凸地形点采用修正算法确保计算精度和求解... 为建立山区小流域降雨-山洪演进正演模拟和预报方法,构建了从降雨、植被截留、土体入渗、坡面汇流到山洪演进全过程物理模型.采用一阶迎风差分格式求解描述坡面汇流到径流过程的扩散波方程,并在凸地形点采用修正算法确保计算精度和求解简便性.基于CPU(中央处理器)+GPU(图像处理器)异构并行加速技术实现从降雨到山洪动力演进全过程快速模拟,计算效率相对CPU单核提升300倍左右.通过一维构造地形试验、V型槽实验和都江堰龙溪河真实小流域山洪过程分析,验证了当前计算模型和方法的有效性,为基于动力过程的山洪灾害实时预报研究提供参考. 展开更多
关键词 山洪预报 雨洪过程 扩散波模型 异构并行 数值模拟
原文传递
基于MPI+CUDA的DSMC/PIC耦合模拟异构并行及性能优化研究
4
作者 林拥真 徐传福 +4 位作者 邱昊中 汪青松 王正华 杨富翔 李洁 《计算机科学》 CSCD 北大核心 2024年第9期31-39,共9页
DSMC/PIC耦合模拟是一类重要的高性能计算应用,大规模DSMC/PIC耦合模拟计算量巨大,需要实现高效并行计算。由于粒子动态注入、迁移等操作,基于MPI并行的DSMC/PIC耦合模拟往往通信开销较大且难以实现负载均衡。针对自主研发的DSMC/PIC耦... DSMC/PIC耦合模拟是一类重要的高性能计算应用,大规模DSMC/PIC耦合模拟计算量巨大,需要实现高效并行计算。由于粒子动态注入、迁移等操作,基于MPI并行的DSMC/PIC耦合模拟往往通信开销较大且难以实现负载均衡。针对自主研发的DSMC/PIC耦合模拟软件,在原有MPI并行优化版本上设计实现了高效的MPI+CUDA异构并行算法,结合GPU体系结构和DSMC/PIC计算特点,开展了GPU访存优化、GPU线程工作负载优化、CPU-GPU数据传输优化及DSMC/PIC数据冲突优化等一系列性能优化。在北京北龙超级云HPC系统的NVIDIA V100和A100 GPU上,针对数亿粒子规模的脉冲真空弧等离子体羽流应用,开展了大规模DSMC/PIC耦合异构并行模拟,相比原有纯MPI并行,GPU异构并行大幅缩短了模拟时间,两块GPU卡较192核的CPU加速比达到550%,同时具有更好的强可扩展性。 展开更多
关键词 DSMC/PIC耦合 粒子模拟 异构并行 MPI+CUDA
下载PDF
基于异构并行的DAS高密度数据实时解调技术
5
作者 张健 何向阁 +2 位作者 郭莹 张敏 刘盛春 《黑龙江大学自然科学学报》 CAS 2024年第1期90-98,共9页
针对分布式光纤声波传感(Distributed optical fiber acoustic sensing,DAS)系统中高密度数据实时解调的需求,提出了基于中央处理器(Central processing unit,CPU)和图形处理器(Graphic processing unit,GPU)的异构并行计算架构,完成了... 针对分布式光纤声波传感(Distributed optical fiber acoustic sensing,DAS)系统中高密度数据实时解调的需求,提出了基于中央处理器(Central processing unit,CPU)和图形处理器(Graphic processing unit,GPU)的异构并行计算架构,完成了实时解调双通道外差型DAS系统传感数据,可满足同时对两个通道共5000个等效阵元实时解调处理需求。此系统每秒需处理的数据量高达400 MB,相较于仅使用CPU运算的225.5 s运算时间,采用异构并行计算架构的运算时间优化到了468.2 ms,运算速度提升了482倍,且该方案仍有巨大的算力冗余空间,可为后续DAS系统整体实时性能的提升提供算力支持。 展开更多
关键词 异构并行 分布式光纤声波传感 高密度数据 实时解调
下载PDF
异构并行的高阶散射特征线方法及其在临界实验装置模拟中的应用
6
作者 邹航 陈莹 +5 位作者 张乾 曹巍 张晋超 梁亮 宋佩涛 刘杰 《原子能科学技术》 EI CSCD 北大核心 2024年第1期135-143,共9页
在临界实验装置的物理计算中,由于较厚水反射层的存在,中子各向异性散射会对计算结果有重要影响。基于P1各向异性散射特征线方法(MOC),开发了能够处理各向异性散射的特征线输运计算程序,并实现了高阶散射特征线输运计算的高性能异构并... 在临界实验装置的物理计算中,由于较厚水反射层的存在,中子各向异性散射会对计算结果有重要影响。基于P1各向异性散射特征线方法(MOC),开发了能够处理各向异性散射的特征线输运计算程序,并实现了高阶散射特征线输运计算的高性能异构并行。为确认程序对临界实验装置的物理计算精度,本文选取LCT011临界实验基准进行堆芯物理计算,并与蒙特卡罗程序进行对比验证。各向异性源使得计算量与内存消耗均有显著增加,给异构系统带来较大的显存负担,因此本文进而对高阶散射输运求解器进行性能分析。数值结果表明:在高阶散射计算条件下,程序可达到蒙特卡罗程序的同等精度,且具有较高的计算效率。 展开更多
关键词 特征线方法 高阶散射 临界实验装置 异构并行
下载PDF
并行化洪水演进模拟研究综述 被引量:4
7
作者 李健 张大伟 +1 位作者 姜晓明 向立云 《计算机工程与应用》 CSCD 北大核心 2021年第13期1-7,共7页
近年来,并行化洪水演进模拟技术发展迅速,在防汛减灾领域发挥重要作用。在考虑洪水演进模型的数值方法、并行模式和编程技术等因素后,选取一些有代表性的洪水演进模型,分析了同构并行和异构并行洪水演进模型涉及的技术细节,提出并行化... 近年来,并行化洪水演进模拟技术发展迅速,在防汛减灾领域发挥重要作用。在考虑洪水演进模型的数值方法、并行模式和编程技术等因素后,选取一些有代表性的洪水演进模型,分析了同构并行和异构并行洪水演进模型涉及的技术细节,提出并行化模型开发的技术难点和解决方法。最后,提出将来并行化洪水演进模型研发的着力点:非结构网格模型的异构并行化;混合并行的洪水演进模型;适于GPU异构并行的网格形式;并行环境下的实时可视化和交互式计算;基于动态编程语言的模型开发;界面式开发及模型应用推广。 展开更多
关键词 洪水演进模拟 并行计算 同构并行 异构并行
下载PDF
基于异构并行计算的软件雷达通用硬件架构设计 被引量:1
8
作者 李德银 扈树洁 熊伟涛 《指挥控制与仿真》 2023年第4期127-131,共5页
软件雷达系统功能由软件定义是雷达未来发展的一个趋势,这对系统硬件计算性能和数据传输带宽提出了很高的要求,因此将异构并行高性能计算技术引入软件雷达领域。根据系统功能逻辑,构建了软件雷达硬件平台系统,利用先进的异构并行计算技... 软件雷达系统功能由软件定义是雷达未来发展的一个趋势,这对系统硬件计算性能和数据传输带宽提出了很高的要求,因此将异构并行高性能计算技术引入软件雷达领域。根据系统功能逻辑,构建了软件雷达硬件平台系统,利用先进的异构并行计算技术,设计了一个具体的通用硬件平台架构。该平台通过独立的高速采集卡完成回波信号的采集与A/D变换,利用FPGA刀片异构服务器完成雷达信号实时处理,通过GPU异构超级计算机完成数据处理和显控,利用InfiniBand网络和磁盘阵列完成数据的高速传输与存储。通过性能分析,该硬件平台能够满足现代雷达对计算速度和传输带宽的性能需求。 展开更多
关键词 软件雷达 硬件架构设计 高性能计算 异构并行
下载PDF
基于OpenCL的SAR影像快速浏览方法研究
9
作者 孙祥杰 朱亮 余同欢 《电子质量》 2023年第3期24-30,共7页
在分析了SAR影像数据的结构特点、OpenCL的计算架构和影像缩放算法的适用方式的基础上,提出了基于OpenCL的SAR影像快速浏览方法。使用OpenCL异构并行技术加速最邻近插值、双线性插值和双三次插值3种常用的影像缩放算法,并进行全方位的... 在分析了SAR影像数据的结构特点、OpenCL的计算架构和影像缩放算法的适用方式的基础上,提出了基于OpenCL的SAR影像快速浏览方法。使用OpenCL异构并行技术加速最邻近插值、双线性插值和双三次插值3种常用的影像缩放算法,并进行全方位的测试评估实验。研究结果显示系统在OpenCL优化的最优配置下能够显著地提高系统内存应用效率和加快SAR影像缩放过程中的加载速度,大幅度地提升影像缩放算法的效率,其实时性和影像表现可以完全满足对于大数据量SAR影像的浏览要求。 展开更多
关键词 合成孔径雷达 海量数据 OPENCL 异构并行 快速浏览方法
下载PDF
异构并行算法快速构建全球扰动重力梯度全张量图 被引量:2
10
作者 谭勖立 王庆宾 +2 位作者 冯进凯 黄炎 黄子炎 《吉林大学学报(地球科学版)》 CAS CSCD 北大核心 2022年第1期238-246,共9页
扰动重力梯度是扰动重力位的二阶导数,相对于其他重力场元素能更多地反映变化的不规则地球产生的高频信息。在使用高阶次球谐系数模型获取大范围高分辨率的扰动重力梯度数据时,存在重复运算多、计算效率低下、耗时较长的问题。针对该问... 扰动重力梯度是扰动重力位的二阶导数,相对于其他重力场元素能更多地反映变化的不规则地球产生的高频信息。在使用高阶次球谐系数模型获取大范围高分辨率的扰动重力梯度数据时,存在重复运算多、计算效率低下、耗时较长的问题。针对该问题,推导了简化计算公式,将中间变量提取出来作为全局参数和局部参数单独进行计算、存储,从而有效减少重复运算;并在简化公式的基础上,提出了扰动重力梯度张量快速异构并行算法,利用CUDA(compute unified device architecture)实现了梯度全张量在GPU端的并行计算。根据T_(xx)、T_(yy)、T_(zz)三个分量满足Laplace条件验证了算法可靠性,并与传统串行算法进行了计算效率对比,实验结果表明,相较于串行算法,所提算法可减少90%以上计算耗时,可将计算效率提高60倍以上。最后利用该算法基于2 190阶EIGEN-6C4模型快速构建了5′×5′分辨率的全球扰动重力梯度全张量图,计算结果显示了扰动重力梯度同地形、地球质量分布变化的相关性及其在全球范围内的数值特征。 展开更多
关键词 地球重力场 扰动重力梯度 异构并行 球谐系数模型 GPU
下载PDF
基于CPU+GPU异构并行的广义共轭余差算法性能优化 被引量:2
11
作者 黄东强 黄建强 +3 位作者 贾金芳 吴利 刘令斌 王晓英 《郑州大学学报(工学版)》 CAS 北大核心 2022年第6期15-21,共7页
为了提高GRAPES数值天气预报模式的计算效率,改善动力框架部分的性能,针对广义共轭余差算法(GCR)求解赫姆霍兹方程在GRAPES模式中耗时较大的问题,提出了一种基于CPU+GPU异构并行的预处理广义共轭余差算法。采用不完全LU分解对系数矩阵... 为了提高GRAPES数值天气预报模式的计算效率,改善动力框架部分的性能,针对广义共轭余差算法(GCR)求解赫姆霍兹方程在GRAPES模式中耗时较大的问题,提出了一种基于CPU+GPU异构并行的预处理广义共轭余差算法。采用不完全LU分解对系数矩阵进行预处理来减少迭代次数,在此基础上实现了OpenMP的细粒度并行和MPI粗粒度并行,OpenMP并行主要是采用循环展开的方式对程序中无数据依赖的循环体使用编译制导来提高程序的性能;MPI并行主要是将数据划分给各个进程,采用非阻塞通信和优化进程通信数据量的方式来提高并行程序的可拓展性。实现了MPI+CUDA异构并行,MPI负责节点间进程通信以及迭代控制,CUDA负责处理计算密集型任务,将GCR中耗时较大的矩阵计算部分移植到GPU上处理,采用访存优化和数据传输优化来减少CPU和GPU间的数据传输开销。实验结果表明:与串行程序相比,OpenMP并行加速比为2.24,MPI并行加速比为3.32,MPI+CUDA异构并行加速比为4.69,实现了异构平台上的广义共轭余差算法性能优化,提高了程序的计算效率。 展开更多
关键词 GRAPES 广义共轭余差算法 GPU 异构并行
下载PDF
基于GPU的雷达信息处理并行设计优化技术研究 被引量:3
12
作者 韩文俊 王嘎 丁琳琳 《电子技术与软件工程》 2018年第16期82-83,共2页
雷达信息处理应用的运算复杂、数据量大,需要高速实时处理。本文针对雷达系统的脉压、MTI等应用,研究了GPU在雷达实时信号处理方面的并行设计优化技术,利用数据划分、线程组织、缓存优化、核函数合并等设计方法实现应用,性能和CPU集群... 雷达信息处理应用的运算复杂、数据量大,需要高速实时处理。本文针对雷达系统的脉压、MTI等应用,研究了GPU在雷达实时信号处理方面的并行设计优化技术,利用数据划分、线程组织、缓存优化、核函数合并等设计方法实现应用,性能和CPU集群平台相比较,提高了4-23倍左右。 展开更多
关键词 雷达信息处理 GPU 异构并行
下载PDF
三维全波形反演高效异构并行计算 被引量:3
13
作者 魏哲枫 朱成宏 陈业全 《石油物探》 EI CSCD 北大核心 2017年第1期89-98,125,共11页
全波形反演(FWI)每次迭代都需要进行若干次地震波正演,计算量非常大,尤其在三维情况下,提高并行计算的效率和稳健性至关重要。引入随机边界来反传、重建震源波场,可充分发挥GPU的计算能力,从而实现反演梯度的高效计算,相比监测点(checkp... 全波形反演(FWI)每次迭代都需要进行若干次地震波正演,计算量非常大,尤其在三维情况下,提高并行计算的效率和稳健性至关重要。引入随机边界来反传、重建震源波场,可充分发挥GPU的计算能力,从而实现反演梯度的高效计算,相比监测点(checkpoint)和有效边界技术,大幅减少了数据存储和数据交换的开销,具有计算效率高和存储量小的优点;开发了作业池并行作业管理机制,与常规消息传递接口(message passing interface,MPI)并行机制相比,可动态增减节点,具有近似线性的加速比,更适应大规模异构并行。采用三维SEG/EAGE推覆体模型进行了速度反演测试,结果证明该技术高效且可靠。 展开更多
关键词 全波形反演 随机边界 异构并行 作业池 速度反演
下载PDF
CPU-GPU协同计算在MOC中子输运异构并行计算中的应用研究 被引量:3
14
作者 宋佩涛 张志俭 +2 位作者 张乾 梁亮 赵强 《核动力工程》 EI CAS CSCD 北大核心 2020年第4期17-21,共5页
特征线方法(MOC)可以精确求解任意几何的中子输运方程,但该方法收敛慢、计算时间长。本研究基于空间区域分解和特征线并行技术,采用MPI+Open MP/CUDA编程模型,实现了适用于中央处理器-图形处理器(CPU-GPU)异构系统的二维MOC异构并行算... 特征线方法(MOC)可以精确求解任意几何的中子输运方程,但该方法收敛慢、计算时间长。本研究基于空间区域分解和特征线并行技术,采用MPI+Open MP/CUDA编程模型,实现了适用于中央处理器-图形处理器(CPU-GPU)异构系统的二维MOC异构并行算法。为充分利用异构系统中的CPU和GPU计算资源,实现CPU-GPU协同计算,提出动态任务分配模型,根据CPU和GPU的计算能力合理分配计算任务。数值验证结果表明:程序具有良好的计算精度;动态任务分配模型能根据硬件性能给出最佳任务分配方案;5异构节点(包含20块GPU)并行时,相对MPI+CUDA并行模式,采用CPU-GPU协同计算后,程序整体效率提升达到14%。 展开更多
关键词 异构并行 特征线方法 中子输运计算 GPU CUDA
原文传递
基于CUDA技术的先进组件中子学程序异构并行研究 被引量:2
15
作者 郑勇 芦韡 +4 位作者 马永强 崔显涛 郭凤晨 马党伟 涂晓兰 《核动力工程》 EI CAS CSCD 北大核心 2021年第S02期124-129,共6页
为了提升先进组件中子学程序KYLIN-Ⅱ处理复杂边界条件问题的计算性能,基于可编程显卡异构并行技术对KYLIN-Ⅱ程序开展了异构并行化研究,实现了共振、输运等模块的海量线程并行计算,并通过优化迭代策略减少了异构并行程序的原子操作次... 为了提升先进组件中子学程序KYLIN-Ⅱ处理复杂边界条件问题的计算性能,基于可编程显卡异构并行技术对KYLIN-Ⅱ程序开展了异构并行化研究,实现了共振、输运等模块的海量线程并行计算,并通过优化迭代策略减少了异构并行程序的原子操作次数。为验证异构并行程序的计算精度和加速效果,针对AFA3G超级组件、六角形板型燃料组件、多层套管型燃料栅元等测试例题开展计算,计算结果表明,异构并行程序不会影响计算结果精度,单张显卡异构并行后的KYLIN-Ⅱ程序可以达到10倍以上的加速比,优化迭代流程可以有效减少计算耗时。相对于传统的基于中央处理器(CPU)的多核并行机制,显卡异构并行显著降低了KYLIN-II程序大规模并行需要的经济成本,可以作为KYLIN-Ⅱ程序开展进一步并行优化的方向。 展开更多
关键词 KYLIN-Ⅱ 并行技术 异构并行 原子操作
原文传递
A review of some methodological developments on full waveform inversion tackled in the SEISCOPE group 被引量:2
16
作者 Romain BROSSIER Ludovic METIVIER +2 位作者 Jean VIRIEUX YANG Pengliang ZHOU Wei 《石油物探》 EI CSCD 北大核心 2017年第1期3-19,共17页
Full waveform inversion(FWI)is a data-fitting inverse problem aiming to delineate high-resolution quantitative images of the Earth.While its basic principle has been proposed in the eighties,the approach has been sign... Full waveform inversion(FWI)is a data-fitting inverse problem aiming to delineate high-resolution quantitative images of the Earth.While its basic principle has been proposed in the eighties,the approach has been significantly developed and applied to2Dand 3Dproblems at various scales for the last fifteen years.Despite these successes,FWI is still facing some issues for applications in complex geological setups because of some lack of robustness and automatic workflow,while being computationally intensive.In this paper,after a short review of the basic FWI formulation and analysis of the FWI gradient,three recent methodological developments performed in the frame of the SEISCOPE project are presented.First,an algorithmic development is presented as a low-memory and computationally efficient approach for building the time-domain FWI gradient in 3Dviscous media.Second,a reformulation of FWI is performed to handle reflections in their tomography regime while still using the diving waves,leading to the joint full waveform inversion(JFWI)approach.Finally,an optimal transport approach is proposed as an alternative to the classical difference-based misfit for mitigating the cycle-skipping issue. 展开更多
关键词 全波形反演 随机边界 异构并行 作业池 速度反演
下载PDF
面向CPU+MIC混合异构平台的地震波叠前时间偏移算法并行与优化策略 被引量:1
17
作者 熊敏 王勇献 《计算机工程与科学》 CSCD 北大核心 2015年第1期14-22,共9页
地震波的叠前时间偏移算法是构造复杂岩层成像最有效的方法之一。地震勘探进入海量数据时代,且叠前偏移算法是数据处理中最费时的环节,对叠前偏移算法做并行计算优化有着重要的研究意义。近年来,高性能并行计算开始进入异构、众核时代,... 地震波的叠前时间偏移算法是构造复杂岩层成像最有效的方法之一。地震勘探进入海量数据时代,且叠前偏移算法是数据处理中最费时的环节,对叠前偏移算法做并行计算优化有着重要的研究意义。近年来,高性能并行计算开始进入异构、众核时代,以Intel新一代至强融核MIC(Xeon Phi)为例,新型众核处理器具有成本低、性能高等特点。从最经典的Kirchhoff叠前时间偏移(PKTM)算法出发,基于CPU+MIC异构平台,采用offload编程模式实现对PKTM算法的并行移植与性能优化,对于6 000万规模(8 000×8 000)的应用问题,总的并行模拟时间从357.52s减少到1.66s,性能提升了214.37倍。 展开更多
关键词 协同并行 Intel至强融核 异构并行 KIRCHHOFF叠前时间偏移 性能优化
下载PDF
密度矩阵重正化群的异构并行优化 被引量:1
18
作者 陈富州 程晨 罗洪刚 《物理学报》 SCIE EI CAS CSCD 北大核心 2019年第12期46-53,共8页
密度矩阵重正化群方法(DMRG)在求解一维强关联格点模型的基态时可以获得较高的精度,在应用于二维或准二维问题时,要达到类似的精度通常需要较大的计算量与存储空间.本文提出一种新的DMRG异构并行策略,可以同时发挥计算机中央处理器(CPU... 密度矩阵重正化群方法(DMRG)在求解一维强关联格点模型的基态时可以获得较高的精度,在应用于二维或准二维问题时,要达到类似的精度通常需要较大的计算量与存储空间.本文提出一种新的DMRG异构并行策略,可以同时发挥计算机中央处理器(CPU)和图形处理器(GPU)的计算性能.针对最耗时的哈密顿量对角化部分,实现了数据的分布式存储,并且给出了CPU和GPU之间的负载平衡策略.以费米Hubbard模型为例,测试了异构并行程序在不同DMRG保留状态数下的运行表现,并给出了相应的性能基准.应用于4腿梯子时,观测到了高温超导中常见的电荷密度条纹,此时保留状态数达到104,使用的GPU显存小于12 GB. 展开更多
关键词 密度矩阵重正化群 强关联格点模型 异构并行
下载PDF
预处理共轭梯度算法异构并行求解及优化
19
作者 张琨 贾金芳 +2 位作者 黄建强 王晓英 严文昕 《小型微型计算机系统》 CSCD 北大核心 2022年第10期2040-2045,共6页
共轭梯度算法是求解对称正定线性系统的重要方法之一,该算法求解问题通常具有稀疏性.随着问题规模的不断增大,单CPU因其存储及计算能力限制已经不能满足大规模稀疏线性方程组求解的实时需求.基于此,本文提出一种基于CPU+GPU异构平台的MP... 共轭梯度算法是求解对称正定线性系统的重要方法之一,该算法求解问题通常具有稀疏性.随着问题规模的不断增大,单CPU因其存储及计算能力限制已经不能满足大规模稀疏线性方程组求解的实时需求.基于此,本文提出一种基于CPU+GPU异构平台的MPI+CUDA异构并行求解算法.首先,对共轭梯度算法进行了热点性能分析,说明该算法求解时存在的计算困难及挑战;然后,根据共轭梯度算法特性进行了任务划分,实现异构并行算法设计;最后,针对异构并行算法中存在的通信开销、数据传输开销和存储器访问开销等问题,对异构并行算法进行优化以进一步提升求解效率及性能.实验结果表明,与MPI并行和CUDALib并行相比,MPI+CUDA异构混合并行在串行计算部分较少的Jacobi预处理共轭梯度算法上分别获得336%和33%的性能提升,在串行计算部分较多的ILU预处理共轭梯度算法上也能分别获得25%和7%的性能提升,同时结果还显示MPI+CUDA混合并行随着节点数目的增加具有一定可扩展性. 展开更多
关键词 对称正定线性系统 共轭梯度算法 预处理技术 异构并行
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部