期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于鲲鹏处理器的LU并行分解优化算法
1
作者 徐鹤 周涛 +2 位作者 李鹏 秦芳芳 季一木 《计算机科学》 CSCD 北大核心 2024年第9期51-58,共8页
ScaLAPACK(Scalable Linear Algebra PACKage)是并行计算软件包,适用于分布式存储的MIMD(Multiple Instruction,Multiple Data)并行计算机,被广泛应用于基于线性代数运算的并行应用程序开发。然而在进行LU分解过程中,ScaLAPACK库中的例... ScaLAPACK(Scalable Linear Algebra PACKage)是并行计算软件包,适用于分布式存储的MIMD(Multiple Instruction,Multiple Data)并行计算机,被广泛应用于基于线性代数运算的并行应用程序开发。然而在进行LU分解过程中,ScaLAPACK库中的例程并不是通信最优的,没有充分利用当前的并行架构。针对上述问题,提出一种基于鲲鹏处理器的LU并行分解优化算法(Parallel LU Factorization,PLF),实现了负载均衡,适配国产鲲鹏环境。PLF对不同进程的不同分区的数据进行差异化处理,并将每个进程所拥有的部分数据分配给根进程进行计算,之后再由根进程散播回各个子进程,这有利于充分利用CPU资源,实现负载均衡。在单节点Intel 9320R处理器以及鲲鹏(Kunpeng)920处理器环境中进行测试,其中,Intel平台下使用Intel MKL(Math Kernel Library),Kunpeng平台下使用PLF算法。对比两个平台关于不同规模的方程组求解的性能发现,Kunpeng平台的求解性能有显著优势。在NUMA数进程和单线程的情况下,优化后的计算效率在小规模平均达到4.35%,相比Intel的1.38%提升了215%;中规模平均达到4.24%,相比Intel平台的1.86%提升了118%;大规模平均达到4.24%,相比Intel的1.99%提升了113%。 展开更多
关键词 scalapack LU分解 并行计算 MKL
下载PDF
快速多极与常规边界元法机群并行计算的比较 被引量:3
2
作者 雷霆 姚振汉 王海涛 《工程力学》 EI CSCD 北大核心 2006年第11期28-32,57,共6页
以三维弹性力学问题为例,对快速多极与常规边界元法机群并行计算进行了比较。其中常规边界元法求解方程采用高斯消去法,通过调用标准并行求解函数库ScaLAPACK实现;快速多极边界元法并行计算程序采用ANSIC++语言、调用MPI并行通信库自行... 以三维弹性力学问题为例,对快速多极与常规边界元法机群并行计算进行了比较。其中常规边界元法求解方程采用高斯消去法,通过调用标准并行求解函数库ScaLAPACK实现;快速多极边界元法并行计算程序采用ANSIC++语言、调用MPI并行通信库自行编写。两种程序均运行于同一机群并行环境。数值算例表明,在同样的机群条件下,采用快速多极边界元法可使解题规模有数量级的提高,计算速度明显高于常规边界元法,并行效率也优于常规边界元法。 展开更多
关键词 边界元法 并行计算 快速多极 scalapack MPI
下载PDF
基于BLACS的2.5D并行矩阵乘法 被引量:1
3
作者 廖霞 李胜国 +1 位作者 卢宇彤 杨灿群 《计算机学报》 EI CAS CSCD 北大核心 2021年第5期1037-1050,共14页
并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石.随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大.如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之... 并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石.随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大.如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之一.本文提出一种新型的分布式并行稠密矩阵乘算法,即2.5D版本的PUMMA(Parallel Universal Matrix Multiplication Algorithm)算法,该算法是通过将初始的进程分成c组,利用计算节点的额外内存,在每个进程组上同时存储矩阵A、B和执行1/c的PUMMA算法,最后通过规约操作来得到矩阵乘的最终结果.本文基于BLACS(Basic Linear Algebra Communication Subprograms)通信库实现了一种从2D到2.5D的新型数据重分配算法,与PUMMA算法相结合,最终得到2.5D PUMMA算法,可直接替换PDGEMM(Parallel Double-precision General Matrix-matrix Multiplication),具有良好的可移植性.与国际标准算法库ScaLAPACK(Scalable Linear Algebra PACKage)中的PDGEMM等经典2D算法相比,本文算法缩减了通信次数,提高了数据局部性,具有更好的可扩展性.在进程数较多时,例如4096进程时,系统测试表明相对PDGEMM的加速比可达到2.20~2.93.进一步地,本文将2.5D PUMMA算法应用于加速计算对称三对角矩阵的特征值分解,其加速比可达到1.2以上.本文通过大量数值算例分析了2.5D PUMMA算法的性能,并给出了实用性建议和总结了未来的工作. 展开更多
关键词 2.5D并行矩阵乘算法 scalapack PUMMA矩阵乘算法 SUMMA算法 分布式并行
下载PDF
ScaLapack的结构、功能和数据布局
4
作者 秦忠国 姜弘道 《计算机工程》 CAS CSCD 北大核心 1998年第3期21-22,40,共3页
ScaLapack是一个并行计算软件包,适用于分布存储的MIMD并行机.ScaLapack提供若干线性代数来解功能,具有高效、可移植。可伸缩、高可靠性的优点,利用它的求解库可以开发出基于线性代数运算的并行应用程序.文章对ScaLapack的结构、... ScaLapack是一个并行计算软件包,适用于分布存储的MIMD并行机.ScaLapack提供若干线性代数来解功能,具有高效、可移植。可伸缩、高可靠性的优点,利用它的求解库可以开发出基于线性代数运算的并行应用程序.文章对ScaLapack的结构、功能、数据布局等方面进行了讨论。 展开更多
关键词 并行计算软件 scalapack 数据布局 水利工程
下载PDF
Performance Analysis of Parallel Eigensolvers of Two Libraries on BlueGene/P
5
作者 Inge Gutheil Tommy Berg Johannes Grotendorst 《Journal of Mathematics and System Science》 2012年第4期231-236,共6页
Many applications in computational science and engineering require the computation of eigenvalues and vectors of dense symmetric or Hermitian matrices. For example, in DFT (density functional theory) calculations on... Many applications in computational science and engineering require the computation of eigenvalues and vectors of dense symmetric or Hermitian matrices. For example, in DFT (density functional theory) calculations on modern supercomputers 10% to 30% of the eigenvalues and eigenvectors of huge dense matrices have to be calculated. Therefore, performance and parallel scaling of the used eigensolvers is of upmost interest. In this article different routines of the linear algebra packages ScaLAPACK and Elemental for parallel solution of the symmetric eigenvalue problem are compared concerning their performance on the BlueGene/P supercomputer. Parameters for performance optimization are adjusted for the different data distribution methods used in the two libraries. It is found that for all test cases the new library Elemental which uses a two-dimensional element by element distribution of the matrices to the processors shows better performance than the old ScaLAPACK library which uses a block-cyclic distribution. 展开更多
关键词 Numerical linear algebra eigensolvers scalapack ELEMENTAL performance analysis.
下载PDF
在PVM应用程序中调用ScaLAPACK库函数方法
6
作者 张云泉 迟学斌 《数值计算与计算机应用》 CSCD 北大核心 1999年第4期274-282,共9页
As the parallel version of LAPACK, ScaLAPACK will provide convenient and powerful parallel programming platform for parallel computing society. In this paper, wepropose a PVM based ScaLAPACK application programming st... As the parallel version of LAPACK, ScaLAPACK will provide convenient and powerful parallel programming platform for parallel computing society. In this paper, wepropose a PVM based ScaLAPACK application programming structure. Based on thisgeneral programming structure, we give three initialization methods of BLACS thatcan be used under different situations. The data distribution fashion used in ScaLAPACK is also introduced to help the user to understand them better. For those whoare familiar with PVM parallel programming, they can call ScaLAPACK subroutinesdirectly using our methods, without concerning ScaLAPACK details too much. Finally,several shortcomings of current version ScaLAPACK package are discussed and an APIis proposed to improve its usability. 展开更多
关键词 线性代数 PVM 应用程序 函数 scalapack
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部