Y2000-62044-2 0006581数据累计算法的特征=The characterization of data-acumulating algorithms[会,英]/Bruda,S.D.& Akl,S.G.//Proceedings of the 13th International ParallelProcessing Symposium & 10th Symposium on P...Y2000-62044-2 0006581数据累计算法的特征=The characterization of data-acumulating algorithms[会,英]/Bruda,S.D.& Akl,S.G.//Proceedings of the 13th International ParallelProcessing Symposium & 10th Symposium on Paralleland Distributed Processing(IPPS/SPDP 1999).—2~6(PC)展开更多
Y98-61391-214 9906693并行计算机系统的硬件软件共同模拟=Hardware-software co-simulation of a parallel computer system[会,英]/Shome,T.& McLeod,R.D.//1997 IEEE Con-ference on Communications,Power and Computing-Wescan...Y98-61391-214 9906693并行计算机系统的硬件软件共同模拟=Hardware-software co-simulation of a parallel computer system[会,英]/Shome,T.& McLeod,R.D.//1997 IEEE Con-ference on Communications,Power and Computing-Wescanex.—214~217(MaG)本文介绍了一个基于四节点单总线的多计算机体系结构的硬件/软件共同模拟结果。用于说明该共同模拟的应用是一个并行矩阵乘法算法。目的是为了说明可在共同模拟环境下进行的设计中的折衷和改善。展开更多
并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石.随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大.如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之...并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石.随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大.如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之一.本文提出一种新型的分布式并行稠密矩阵乘算法,即2.5D版本的PUMMA(Parallel Universal Matrix Multiplication Algorithm)算法,该算法是通过将初始的进程分成c组,利用计算节点的额外内存,在每个进程组上同时存储矩阵A、B和执行1/c的PUMMA算法,最后通过规约操作来得到矩阵乘的最终结果.本文基于BLACS(Basic Linear Algebra Communication Subprograms)通信库实现了一种从2D到2.5D的新型数据重分配算法,与PUMMA算法相结合,最终得到2.5D PUMMA算法,可直接替换PDGEMM(Parallel Double-precision General Matrix-matrix Multiplication),具有良好的可移植性.与国际标准算法库ScaLAPACK(Scalable Linear Algebra PACKage)中的PDGEMM等经典2D算法相比,本文算法缩减了通信次数,提高了数据局部性,具有更好的可扩展性.在进程数较多时,例如4096进程时,系统测试表明相对PDGEMM的加速比可达到2.20~2.93.进一步地,本文将2.5D PUMMA算法应用于加速计算对称三对角矩阵的特征值分解,其加速比可达到1.2以上.本文通过大量数值算例分析了2.5D PUMMA算法的性能,并给出了实用性建议和总结了未来的工作.展开更多
文摘Y2000-62044-2 0006581数据累计算法的特征=The characterization of data-acumulating algorithms[会,英]/Bruda,S.D.& Akl,S.G.//Proceedings of the 13th International ParallelProcessing Symposium & 10th Symposium on Paralleland Distributed Processing(IPPS/SPDP 1999).—2~6(PC)
文摘Y98-61391-214 9906693并行计算机系统的硬件软件共同模拟=Hardware-software co-simulation of a parallel computer system[会,英]/Shome,T.& McLeod,R.D.//1997 IEEE Con-ference on Communications,Power and Computing-Wescanex.—214~217(MaG)本文介绍了一个基于四节点单总线的多计算机体系结构的硬件/软件共同模拟结果。用于说明该共同模拟的应用是一个并行矩阵乘法算法。目的是为了说明可在共同模拟环境下进行的设计中的折衷和改善。
文摘并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石.随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大.如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之一.本文提出一种新型的分布式并行稠密矩阵乘算法,即2.5D版本的PUMMA(Parallel Universal Matrix Multiplication Algorithm)算法,该算法是通过将初始的进程分成c组,利用计算节点的额外内存,在每个进程组上同时存储矩阵A、B和执行1/c的PUMMA算法,最后通过规约操作来得到矩阵乘的最终结果.本文基于BLACS(Basic Linear Algebra Communication Subprograms)通信库实现了一种从2D到2.5D的新型数据重分配算法,与PUMMA算法相结合,最终得到2.5D PUMMA算法,可直接替换PDGEMM(Parallel Double-precision General Matrix-matrix Multiplication),具有良好的可移植性.与国际标准算法库ScaLAPACK(Scalable Linear Algebra PACKage)中的PDGEMM等经典2D算法相比,本文算法缩减了通信次数,提高了数据局部性,具有更好的可扩展性.在进程数较多时,例如4096进程时,系统测试表明相对PDGEMM的加速比可达到2.20~2.93.进一步地,本文将2.5D PUMMA算法应用于加速计算对称三对角矩阵的特征值分解,其加速比可达到1.2以上.本文通过大量数值算例分析了2.5D PUMMA算法的性能,并给出了实用性建议和总结了未来的工作.