-
题名并行对称矩阵三对角化算法在GPU集群上的有效实现
被引量:2
- 1
-
-
作者
刘世芳
赵永华
于天禹
黄荣锋
-
机构
中国科学院计算机网络信息中心
中国科学院大学
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2020年第12期2635-2647,共13页
-
基金
国家重点研发计划项目(2017YFB0202202)
中国科学院战略性先导科技专项(C类)(XDC01040000)。
-
文摘
对称矩阵三对角化是求解稠密特征问题的关键计算过程.针对GPU集群采用了MPI(message passing interface)和GPU级2级并行方法设计实现了基于MPI和CUDA(compute unified device architecture)的稠密对称矩阵三对角化算法.在MPI集群级并行中,通过将2维通信域中行列通信域间的全局数据通信设计为完全并行的点点数据通信方式,改善了三对角化MPI并行算法的通信性能.通过改进原矩阵三对角化的MPI并行算法,避免了在GPU级并行中使用的不规则的矩阵向量运算,这部分的并行性能提升了1倍左右.并且,将在GPU并行中存在的小粒度计算合并为较大粒度计算,该策略可通过加大计算密集度来充分地发挥GPU的计算能力,增加GPU的利用率,从而提升了算法的性能.此外,利用多个CUDA流使算法中独立的CUDA操作可以在不同的流中并发执行.并且,在并行算法中,利用CPU与GPU之间的异步数据传输,使得在不同流中的数据传输和核函数同时执行,隐藏了数据传输的时间,进一步提升了算法的性能.在中国科学院超级计算机系统“元”上,使用Nvidia Tesla K20 GPGPU测试了不同规模矩阵的基于MPI+CUDA的三对角化并行块算法的性能,取得了较好的加速效果与性能,并且具有良好的可扩展性.
-
关键词
对称矩阵三对角化
MPI+CUDA
点点数据通信
计算密集度
CUDA流
可扩展性
-
Keywords
symmetric matrix tridiagonalization
MPI+CUDA
point-to-point data communication
computational intensity
CUDA streams
scalability
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-