近年来,基于张量补全的频谱制图得到了广泛研究.目前用于频谱制图的张量补全算法大多隐含地假设张量具有平衡特性,而对于非平衡张量,难以利用其低秩性估计完整的张量信息,导致补全算法性能受损.本文提出基于重叠Ket增强(Overlapping Ket...近年来,基于张量补全的频谱制图得到了广泛研究.目前用于频谱制图的张量补全算法大多隐含地假设张量具有平衡特性,而对于非平衡张量,难以利用其低秩性估计完整的张量信息,导致补全算法性能受损.本文提出基于重叠Ket增强(Overlapping Ket Augmentation,OKA)和张量列车(Tensor Train,TT)的非平衡频谱制图算法,以解决非平衡张量在应用传统张量补全算法时性能下降的问题.首先使用OKA将低阶高维张量表示为高阶低维张量,在无信息损耗的情况下解决非平衡张量无法利用其低秩性进行张量补全的问题;然后使用TT矩阵化得到较平衡的矩阵,在维度较平衡条件下提高补全算法的精确度;最后利用高阶低维张量的低秩性,使用并行矩阵分解或基于F范数的无奇异值分解(Singular Value Decomposition Free,SVDFree)算法完成张量补全.仿真结果表明,针对非平衡张量,所提方案与现有的张量补全算法相比,可以获得更精确的无线电地图,同时所提SVDFree算法具有更低的计算复杂度.展开更多
并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石.随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大.如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之...并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石.随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大.如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之一.本文提出一种新型的分布式并行稠密矩阵乘算法,即2.5D版本的PUMMA(Parallel Universal Matrix Multiplication Algorithm)算法,该算法是通过将初始的进程分成c组,利用计算节点的额外内存,在每个进程组上同时存储矩阵A、B和执行1/c的PUMMA算法,最后通过规约操作来得到矩阵乘的最终结果.本文基于BLACS(Basic Linear Algebra Communication Subprograms)通信库实现了一种从2D到2.5D的新型数据重分配算法,与PUMMA算法相结合,最终得到2.5D PUMMA算法,可直接替换PDGEMM(Parallel Double-precision General Matrix-matrix Multiplication),具有良好的可移植性.与国际标准算法库ScaLAPACK(Scalable Linear Algebra PACKage)中的PDGEMM等经典2D算法相比,本文算法缩减了通信次数,提高了数据局部性,具有更好的可扩展性.在进程数较多时,例如4096进程时,系统测试表明相对PDGEMM的加速比可达到2.20~2.93.进一步地,本文将2.5D PUMMA算法应用于加速计算对称三对角矩阵的特征值分解,其加速比可达到1.2以上.本文通过大量数值算例分析了2.5D PUMMA算法的性能,并给出了实用性建议和总结了未来的工作.展开更多
Y2000-62044-2 0006581数据累计算法的特征=The characterization of data-acumulating algorithms[会,英]/Bruda,S.D.& Akl,S.G.//Proceedings of the 13th International ParallelProcessing Symposium & 10th Symposium on P...Y2000-62044-2 0006581数据累计算法的特征=The characterization of data-acumulating algorithms[会,英]/Bruda,S.D.& Akl,S.G.//Proceedings of the 13th International ParallelProcessing Symposium & 10th Symposium on Paralleland Distributed Processing(IPPS/SPDP 1999).—2~6(PC)展开更多
Y98-61391-214 9906693并行计算机系统的硬件软件共同模拟=Hardware-software co-simulation of a parallel computer system[会,英]/Shome,T.& McLeod,R.D.//1997 IEEE Con-ference on Communications,Power and Computing-Wescan...Y98-61391-214 9906693并行计算机系统的硬件软件共同模拟=Hardware-software co-simulation of a parallel computer system[会,英]/Shome,T.& McLeod,R.D.//1997 IEEE Con-ference on Communications,Power and Computing-Wescanex.—214~217(MaG)本文介绍了一个基于四节点单总线的多计算机体系结构的硬件/软件共同模拟结果。用于说明该共同模拟的应用是一个并行矩阵乘法算法。目的是为了说明可在共同模拟环境下进行的设计中的折衷和改善。展开更多
为了解决Map Reduce框架下现有矩阵乘法算法性能不高的问题,提出了一种基于向量线性组合(Vector Linear Combination:VLC)的矩阵乘法处理模式,介绍了采用Map Reduce框架实现基于VLC模式的矩阵乘法算法的过程,其中Map函数负责实现数据预...为了解决Map Reduce框架下现有矩阵乘法算法性能不高的问题,提出了一种基于向量线性组合(Vector Linear Combination:VLC)的矩阵乘法处理模式,介绍了采用Map Reduce框架实现基于VLC模式的矩阵乘法算法的过程,其中Map函数负责实现数据预处理,Reduce函数完成数乘操作和向量线性叠加。随后,讨论了影响算法执行时间的因素,并从理论方面比较了两种算法性能。实验结果显示,新算法所需执行时间更少,效率更高,与理论分析相吻合。展开更多
文摘近年来,基于张量补全的频谱制图得到了广泛研究.目前用于频谱制图的张量补全算法大多隐含地假设张量具有平衡特性,而对于非平衡张量,难以利用其低秩性估计完整的张量信息,导致补全算法性能受损.本文提出基于重叠Ket增强(Overlapping Ket Augmentation,OKA)和张量列车(Tensor Train,TT)的非平衡频谱制图算法,以解决非平衡张量在应用传统张量补全算法时性能下降的问题.首先使用OKA将低阶高维张量表示为高阶低维张量,在无信息损耗的情况下解决非平衡张量无法利用其低秩性进行张量补全的问题;然后使用TT矩阵化得到较平衡的矩阵,在维度较平衡条件下提高补全算法的精确度;最后利用高阶低维张量的低秩性,使用并行矩阵分解或基于F范数的无奇异值分解(Singular Value Decomposition Free,SVDFree)算法完成张量补全.仿真结果表明,针对非平衡张量,所提方案与现有的张量补全算法相比,可以获得更精确的无线电地图,同时所提SVDFree算法具有更低的计算复杂度.
文摘并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石.随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大.如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之一.本文提出一种新型的分布式并行稠密矩阵乘算法,即2.5D版本的PUMMA(Parallel Universal Matrix Multiplication Algorithm)算法,该算法是通过将初始的进程分成c组,利用计算节点的额外内存,在每个进程组上同时存储矩阵A、B和执行1/c的PUMMA算法,最后通过规约操作来得到矩阵乘的最终结果.本文基于BLACS(Basic Linear Algebra Communication Subprograms)通信库实现了一种从2D到2.5D的新型数据重分配算法,与PUMMA算法相结合,最终得到2.5D PUMMA算法,可直接替换PDGEMM(Parallel Double-precision General Matrix-matrix Multiplication),具有良好的可移植性.与国际标准算法库ScaLAPACK(Scalable Linear Algebra PACKage)中的PDGEMM等经典2D算法相比,本文算法缩减了通信次数,提高了数据局部性,具有更好的可扩展性.在进程数较多时,例如4096进程时,系统测试表明相对PDGEMM的加速比可达到2.20~2.93.进一步地,本文将2.5D PUMMA算法应用于加速计算对称三对角矩阵的特征值分解,其加速比可达到1.2以上.本文通过大量数值算例分析了2.5D PUMMA算法的性能,并给出了实用性建议和总结了未来的工作.
文摘Y2000-62044-2 0006581数据累计算法的特征=The characterization of data-acumulating algorithms[会,英]/Bruda,S.D.& Akl,S.G.//Proceedings of the 13th International ParallelProcessing Symposium & 10th Symposium on Paralleland Distributed Processing(IPPS/SPDP 1999).—2~6(PC)
文摘Y98-61391-214 9906693并行计算机系统的硬件软件共同模拟=Hardware-software co-simulation of a parallel computer system[会,英]/Shome,T.& McLeod,R.D.//1997 IEEE Con-ference on Communications,Power and Computing-Wescanex.—214~217(MaG)本文介绍了一个基于四节点单总线的多计算机体系结构的硬件/软件共同模拟结果。用于说明该共同模拟的应用是一个并行矩阵乘法算法。目的是为了说明可在共同模拟环境下进行的设计中的折衷和改善。
文摘为了解决Map Reduce框架下现有矩阵乘法算法性能不高的问题,提出了一种基于向量线性组合(Vector Linear Combination:VLC)的矩阵乘法处理模式,介绍了采用Map Reduce框架实现基于VLC模式的矩阵乘法算法的过程,其中Map函数负责实现数据预处理,Reduce函数完成数乘操作和向量线性叠加。随后,讨论了影响算法执行时间的因素,并从理论方面比较了两种算法性能。实验结果显示,新算法所需执行时间更少,效率更高,与理论分析相吻合。