CPU/GPU集群上求解偏微分方程的可扩展混合算法被引量：2

A Scalable Hybrid Algorithm for Solving Partial Differential Equations on a Cluster of CPU/GPU

下载PDF

导出

摘要当前世界上排前几位的超级计算机都基于大量CPU和GPU组合的混合架构,它们对某些特殊问题,譬如基于FFT的图像处理或N体颗粒计算等领域可获得很高的性能。但是对由有限差分(或基于网格的有限元)离散的偏微分方程问题,于CPU/GPU集群上获得较好的性能仍然是一种挑战。本文提出并测试一种基于这类集群架构的混合算法。算法的可扩展性通过区域分解算法实现,而GPU的性能由基于光滑聚集的代数多重网格法获得,避免了在GPU上表现不理想的不完全分解算法。本文的数值实验采用32CPU/GPU求解用差分离散后达三千万未知数的偏微分方程。 Several of the top ranked supercomputers are based on the hybrid architecture consisting of a large number of CPUs and GPUs.High performance has been obtained for problems with special structures,such as FFT-based imaging processing or N-body based particle calculations.However,for the class of problems described by partial differential equations(PDEs) discretized by finite difference(or other mesh based methods such as finite element) methods,obtaining even reasonably good performance on a CPU/GPU cluster is still a challenge.In this paper,we propose and test an hybrid algorithm which matches the architecture of the cluster.The scalability of the approach is implemented by a domain decomposition method,and the GPU performance is realized by using a smoothed aggregation based algebraic multigrid method.Incomplete factorization,which performs beautifully on CPU but poorly on GPU,is completely avoided in the approach.Numerical experiments are carried out by using up to 32 CPU/GPUs for solving PDE problems discretized by FDM with up to 32 millions unknowns.

作者罗力杨超赵宇波蔡小川

机构地区中国科学院深圳先进技术研究院中国科学院软件研究所美国科罗拉罗大学博尔德分校

出处《集成技术》 2012年第1期84-88,共5页 Journal of Integration Technology

关键词 PDES CPU/GPU集群区域分解代数多重网格可扩展算法 PDEs CPU/GPU cluster domain decomposition algebraic multigrid scalable algorithm

分类号 TP338 [自动化与计算机技术—计算机系统结构] O241.82 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献12

1T.Hamada,T.Narumi,R.Yokota,K.Yasuoka,K.Nitadori,M.Taiji."42 TFlops hierarchical N-body simulations on GPUs with applications in both astrophysics and turbulence,". SC ’’’’’’’’09 . 2009 被引量：1
2Tomov S,Dongarra J,Baboulin M.Towards dense linearalgebra for hybrid GPU accelerated manycore systems. Parallel Computing . 2010 被引量：1
3Saad Y.Iterative Methods for Sparse Linear Systems. . 1996 被引量：1
4B. F. Smith,P. E. Bj(?)rstad,W. D. Gropp.Domain decomposition:paral-lel multilevel methods for elliptic partial differential equations. . 1996 被引量：1
5Balay S,Buschelman K,Eijkhout V,et al.PETSc User’’s Manual. Tech.Rep.ANL-95/11-Revision3.1.Argonne National Laboratory . 2010 被引量：1
6Chen Y,Cui X,Mei H.Large-scale FFT on GPU clusters. ICS’’10:Proceedings of the24th ACM International Conference on Supercomputing . 2010 被引量：1
7Minden V,Smith B,Knepley M G.Preliminary implementation of PETSc using GPUs. Proceedings of the2010International Workshop of GPU Solutions to Multiscale Problems in Science and Engineering . 2010 被引量：1
8Rocha B M,Campos F O,Amorim R M,et al.Accelerating cardiac excitation spread simulations using graphics processing units. Concurr.Comput.Pract.Exper . 2011 被引量：1
9Douglas C C,Lee H,Haase G,et al.Parallel algebraic multigrid method with GP-GPU hardware acceleration. Journal of Computational and Applied Mathematics . 2011 被引量：1
10Cai X-C,Sarkis M.A restricted additive schwarz preconditioner for general sparse linear systems. Tech.Report CUCS-843-97,Department of Computer Science,University of Colorado at Boulder . 1997 被引量：1

同被引文献16

1李志辉,张涵信.基于Boltzmann模型方程的气体运动论统一算法研究[J].力学进展,2005,35(4):559-576. 被引量：17
2李志辉,张涵信.基于Boltzmann模型方程不同流区复杂三维绕流HPF并行计算[J].航空学报,2006,27(2):175-181. 被引量：4
3Zhihui Li,Hanxin Zhang.Gas-kinetic numerical method for solving mesoscopic velocity distribution function equation[J].Acta Mechanica Sinica,2007,23(2):121-132. 被引量：9
4李志辉,张涵信.跨流域三维复杂绕流问题的气体运动论并行计算[J].空气动力学学报,2010,28(1):7-16. 被引量：4
5厉旭杰.GPU加速的图像匹配技术[J].计算机工程与应用,2012,48(2):173-176. 被引量：12
6杨学军.并行计算六十年[J].计算机工程与科学,2012,34(8):1-10. 被引量：20
7李志辉,张涵信.稀薄流到连续流的气体运动论统一数值算法初步研究[J].空气动力学学报,2000,18(3):255-263. 被引量：27
8高岚,王锐,钱德沛.多核处理器并行程序的确定性重放研究[J].软件学报,2013,24(6):1390-1402. 被引量：10
9罗贵章,陈忠伟.并行算法综述[J].计算机光盘软件与应用,2013,16(15):51-52. 被引量：2
10伍绍佳,陈皓,廖丽,桂建保.BPF重建算法的CUDA并行实现[J].集成技术,2014,3(5):61-68. 被引量：3

引证文献2

1李志辉,蒋新宇,吴俊林,徐金秀,白智勇.求解Boltzmann模型方程高性能并行算法在航天跨流域空气动力学应用研究[J].计算机学报,2016,39(9):1801-1811. 被引量：9
2杨洪余,李成明,王小平,姜青山.CPU/GPU异构环境下图像协同并行处理模型[J].集成技术,2017,6(5):8-18. 被引量：6

二级引证文献15

1洪文杰,李肯立,全哲,阳王东,李克勤,郝子宇,谢向辉.面向神威·太湖之光的PETSc可扩展异构并行算法及其性能优化[J].计算机学报,2017,40(9):2057-2069. 被引量：14
2关雪峰,曾宇媚.时空大数据背景下并行数据处理分析挖掘的进展及趋势[J].地理科学进展,2018,37(10):1314-1327. 被引量：57
3胡跃辉,石珩臻,金韬,谢凌锐,康吴伟,方勇.基于ARM的8通道视频高速同步采集[J].电脑知识与技术,2018,14(6X):20-23. 被引量：1
4李志辉,梁杰,李中华,李海燕,吴俊林,戴金雯,唐志共.跨流域空气动力学模拟方法与返回舱再入气动研究[J].空气动力学学报,2018,36(5):826-847. 被引量：14
5铁鸣,于盈,张星,王建林.基于HPC的多学科多物理场耦合虚拟飞行试验方法[J].系统仿真学报,2019,31(9):1733-1740. 被引量：4
6许丁,孙祥,刘欣.尺度自适应的离散统一气体动理学格式及在可压缩流动中的应用[J].空气动力学学报,2020,38(2):232-243.
7肖汉,郭宝云,李彩林,肖诗洋.基于OpenCL的图像灰度化并行算法研究[J].江西师范大学学报（自然科学版）,2020,44(5):462-471. 被引量：10
8皮兴才,李志辉,彭傲平,吴俊林,蒋新宇.基于修正N-S方程本构关系的气体动理论耦合方法[J].空气动力学学报,2021,39(2):125-132.
9甘晓英,白阳,何晓栋,刘斌.一种并行二值图像连通域标记算法[J].计算机与数字工程,2021,49(5):993-997. 被引量：10
10王建林,陈素芳,铁鸣,刘璟,张军.飞行器全包络高性能仿真方法与试验平台[J].系统仿真学报,2021,33(10):2298-2306.

1冀志刚,王祥.用JAVA语言实现FTP客户端[J].唐山师范学院学报,2006,28(5):81-82. 被引量：4
2夏晨洋,顾西存,陈茜.视频中运动物体检测算法的研究[J].激光杂志,2015,36(3):58-61. 被引量：2
3周金伟,刘肖琳.鲁棒性P-M方程的快速实现[J].微计算机信息,2011,27(7):199-201.
4黄颖,解梅,李伟生,高靖淞.使用代数多重网格进行多聚焦图像融合[J].电子科技大学学报,2015,44(2):272-277. 被引量：5
5吴拱星,黄廷磊.基于拓扑的无线传感器网络边界节点检测[J].桂林电子科技大学学报,2012,32(5):373-377. 被引量：1
6连接.服务器虚拟化技术与分区的本质区别[J].网络与信息,2009(12):35-35. 被引量：1
7夯实硬件平台做好虚拟化实施第一步[J].中国计算机用户,2009(14):63-63.
8黄颖,王文斌,郑弘晖.基于代数多重网格的图像传感器物体识别技术[J].电子科技大学学报,2015,44(5):743-748.
9李芳宇,孙守迁,张克俊,董占勋.求解偏微分方程反问题的改进基因表达式编程算法[J].浙江大学学报（工学版）,2009,43(11):2023-2027. 被引量：1
10朱杰.百分之二十与碎片化[J].中国信息界（e医疗）,2013(2):22-22.

集成技术

2012年第1期

浏览历史

内容加载中请稍等...

CPU/GPU集群上求解偏微分方程的可扩展混合算法被引量：2

参考文献12

同被引文献16

引证文献2

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

CPU/GPU集群上求解偏微分方程的可扩展混合算法 被引量：2

参考文献12

同被引文献16

引证文献2

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

CPU/GPU集群上求解偏微分方程的可扩展混合算法被引量：2