期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
并行对称矩阵三对角化算法在GPU集群上的有效实现 被引量:2
1
作者 刘世芳 赵永华 +1 位作者 于天禹 黄荣锋 《计算机研究与发展》 EI CSCD 北大核心 2020年第12期2635-2647,共13页
对称矩阵三对角化是求解稠密特征问题的关键计算过程.针对GPU集群采用了MPI(message passing interface)和GPU级2级并行方法设计实现了基于MPI和CUDA(compute unified device architecture)的稠密对称矩阵三对角化算法.在MPI集群级并行... 对称矩阵三对角化是求解稠密特征问题的关键计算过程.针对GPU集群采用了MPI(message passing interface)和GPU级2级并行方法设计实现了基于MPI和CUDA(compute unified device architecture)的稠密对称矩阵三对角化算法.在MPI集群级并行中,通过将2维通信域中行列通信域间的全局数据通信设计为完全并行的点点数据通信方式,改善了三对角化MPI并行算法的通信性能.通过改进原矩阵三对角化的MPI并行算法,避免了在GPU级并行中使用的不规则的矩阵向量运算,这部分的并行性能提升了1倍左右.并且,将在GPU并行中存在的小粒度计算合并为较大粒度计算,该策略可通过加大计算密集度来充分地发挥GPU的计算能力,增加GPU的利用率,从而提升了算法的性能.此外,利用多个CUDA流使算法中独立的CUDA操作可以在不同的流中并发执行.并且,在并行算法中,利用CPU与GPU之间的异步数据传输,使得在不同流中的数据传输和核函数同时执行,隐藏了数据传输的时间,进一步提升了算法的性能.在中国科学院超级计算机系统“元”上,使用Nvidia Tesla K20 GPGPU测试了不同规模矩阵的基于MPI+CUDA的三对角化并行块算法的性能,取得了较好的加速效果与性能,并且具有良好的可扩展性. 展开更多
关键词 对称矩阵对角 MPI+CUDA 点点数据通信 计算密集度 CUDA流 可扩展性
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部