期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
矩阵相乘算法优化的研究
1
作者 钱晓捷 杨镇江 +1 位作者 杜志刚 李秀芳 《微计算机信息》 2009年第27期182-183,208,共3页
本文对经典矩阵相乘A*B算法提出多种优化方法:根据局部性原理,提出对矩阵B进行转置;根据计算机缓存的大小与矩阵A与矩阵B的规模进行嵌套循环分块,通过对分块大小的调整比较获得最优的分块;利用循环展开技术以提高程序的并行性。实验结... 本文对经典矩阵相乘A*B算法提出多种优化方法:根据局部性原理,提出对矩阵B进行转置;根据计算机缓存的大小与矩阵A与矩阵B的规模进行嵌套循环分块,通过对分块大小的调整比较获得最优的分块;利用循环展开技术以提高程序的并行性。实验结果表明,优化后的算法缩短了运行时间,获得了较优的运行效率。 展开更多
关键词 矩阵相乘算法 矩阵转置 循环分块 循环展开
下载PDF
基于BLACS的2.5D并行矩阵乘法 被引量:1
2
作者 廖霞 李胜国 +1 位作者 卢宇彤 杨灿群 《计算机学报》 EI CAS CSCD 北大核心 2021年第5期1037-1050,共14页
并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石.随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大.如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之... 并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石.随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大.如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之一.本文提出一种新型的分布式并行稠密矩阵乘算法,即2.5D版本的PUMMA(Parallel Universal Matrix Multiplication Algorithm)算法,该算法是通过将初始的进程分成c组,利用计算节点的额外内存,在每个进程组上同时存储矩阵A、B和执行1/c的PUMMA算法,最后通过规约操作来得到矩阵乘的最终结果.本文基于BLACS(Basic Linear Algebra Communication Subprograms)通信库实现了一种从2D到2.5D的新型数据重分配算法,与PUMMA算法相结合,最终得到2.5D PUMMA算法,可直接替换PDGEMM(Parallel Double-precision General Matrix-matrix Multiplication),具有良好的可移植性.与国际标准算法库ScaLAPACK(Scalable Linear Algebra PACKage)中的PDGEMM等经典2D算法相比,本文算法缩减了通信次数,提高了数据局部性,具有更好的可扩展性.在进程数较多时,例如4096进程时,系统测试表明相对PDGEMM的加速比可达到2.20~2.93.进一步地,本文将2.5D PUMMA算法应用于加速计算对称三对角矩阵的特征值分解,其加速比可达到1.2以上.本文通过大量数值算例分析了2.5D PUMMA算法的性能,并给出了实用性建议和总结了未来的工作. 展开更多
关键词 2.5D并行矩阵乘算法 SCALAPACK PUMMA矩阵乘算法 SUMMA算法 分布式并行
下载PDF
关于矩阵乘法问题的人工蜂群优化算法研究 被引量:1
3
作者 庄鹤林 杨火根 +1 位作者 夏小云 廖伟志 《计算机工程与科学》 CSCD 北大核心 2021年第12期2131-2138,共8页
矩阵乘法运算作为计算机科学和数学的一个基本运算,在科学研究和工程计算中有着广泛的应用。确定2个矩阵乘积所需要的最小乘法数是当今计算机代数中一直未能求解的重要问题之一。通过将矩阵乘法问题建模为一个组合优化问题,采用人工蜂... 矩阵乘法运算作为计算机科学和数学的一个基本运算,在科学研究和工程计算中有着广泛的应用。确定2个矩阵乘积所需要的最小乘法数是当今计算机代数中一直未能求解的重要问题之一。通过将矩阵乘法问题建模为一个组合优化问题,采用人工蜂群启发式搜索算法进行矩阵乘法问题求解。对人工蜂群算法进行了改进,给出一种绕圈遍历方法,避免了对同一个解的相同邻域的重复搜索。通过在2×2矩阵乘法问题上的数值实验验证了算法的有效性,所提算法能够快速地找到2×2矩阵分解的乘积方法。 展开更多
关键词 快速矩阵乘法算法 Strassen算法 人工蜂群算法 劣质解 绕圈遍历
下载PDF
基于直径为2的摩尔图网络的并行矩阵乘算法
4
作者 张冰 《计算机学报》 EI CSCD 北大核心 2013年第9期1843-1849,共7页
提出了一个并行矩阵乘算法IPBPMM(Interconnected Processor-Based Parallel Matrix Multiplication).该算法运行在以五角形、Petersen图和Hoffman-Singleton图等直径为2的摩尔图(满足n=d2+1,n为节点数,d为度)为拓扑结构的由n个独立处... 提出了一个并行矩阵乘算法IPBPMM(Interconnected Processor-Based Parallel Matrix Multiplication).该算法运行在以五角形、Petersen图和Hoffman-Singleton图等直径为2的摩尔图(满足n=d2+1,n为节点数,d为度)为拓扑结构的由n个独立处理器构成的机群并行计算环境中.与基于二维环绕网孔阵列拓扑结构的Cannon和Fox等并行矩阵乘法算法相比较,IPBPMM算法通信开销较小,加速比更高,同时还具有矩阵分块可随机分布在各个节点中,无需事先按一定规律装入各节点中的特点.同时IPBPMM算法也能很好地扩充到由多个直径为2的摩尔图为拓扑结构组合构成的并行计算环境中,且随着网络的扩大,算法的并行加速比更高. 展开更多
关键词 并行算法 并行矩阵乘法 摩尔图 网络拓扑结构 并行与分布式计算 高性能计算
下载PDF
一种基于MPICH的高效矩阵相乘并行算法 被引量:2
5
作者 剡公孝 申卫昌 +1 位作者 刘骊 刘伟明 《计算机工程与应用》 CSCD 北大核心 2009年第26期72-73,117,共3页
根据MPICH并行编程环境中任务间通信的特点,设计了一种基于MPICH的矩阵相乘并行算法。根据运行在COW(工作站机群)上的进程数目将矩阵A按行划分成相应数目的子矩阵,每个进程完成一个子矩阵与矩阵B的相乘运算。实验结果表明,该算法提高了... 根据MPICH并行编程环境中任务间通信的特点,设计了一种基于MPICH的矩阵相乘并行算法。根据运行在COW(工作站机群)上的进程数目将矩阵A按行划分成相应数目的子矩阵,每个进程完成一个子矩阵与矩阵B的相乘运算。实验结果表明,该算法提高了机群并行环境中资源的利用率,提高了程序的运行效率。 展开更多
关键词 一种消息传递接口的实现(MPICH) 矩阵相乘并行算法 工作站机群
下载PDF
几种矩阵乘并行算法的对比分析 被引量:2
6
作者 陈鹏 樊小超 《新疆师范大学学报(自然科学版)》 2012年第3期5-10,共6页
描述了DNS、Cannon、Fox、Systolic矩阵乘并行算法的原理,并对其时间复杂度进行了理论分析。通过对并行算法的各项性能参数的对比分析,得到的结论是DNS算法的时间复杂度最好,但加速比、效率和成本不是最优的。Cannon算法和Fox算法的算... 描述了DNS、Cannon、Fox、Systolic矩阵乘并行算法的原理,并对其时间复杂度进行了理论分析。通过对并行算法的各项性能参数的对比分析,得到的结论是DNS算法的时间复杂度最好,但加速比、效率和成本不是最优的。Cannon算法和Fox算法的算法思想类似,但是Cannon算法比Fox算法在数据播送上的花费少,因此整体性能较好。Systolic算法是基于流水线技术的并行矩阵乘算法,有较好的综合性能。 展开更多
关键词 矩阵乘并行算法 时间复杂度 性能分析
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部