期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
面向DCU的LDS访存向量化优化 被引量:1
1
作者 杨思驰 赵荣彩 +1 位作者 韩林 王洪生 《计算机工程》 CAS CSCD 北大核心 2024年第2期206-213,共8页
在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问... 在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问应遵循一定原则才能高效利用,当线程间的数据访问呈现重叠的访存特征时,访问向量化指令会因此产生延迟。针对此问题,提出面向DCU的LDS访存向量化优化方法。通过实现连续数据访问的向量化,减少LDS的访问次数,降低访存耗时,由此提高程序访存效率。在此基础上,通过设计访存特征的判断方法,提出能够有效解决数据重叠的LDS访存向量化方法,实现一种面向国产通用加速器的LDS高效访存技术,确保向量化方法对访存效率的有效提升。实验结果表明:在使用LDS的异构程序中,LDS访存向量化实现后程序性能平均提升了22.6%,验证了所提方法的有效性;同时,向量化方法能够实现LDS线程间访存数据重叠问题的优化,使异构程序得到平均30%的性能提升。 展开更多
关键词 深度计算器 本地数据共享 访存向量化 访存特征 bank冲突
下载PDF
国产DCU加速卡与MPS方法结合高效模拟带障碍物溃坝流动问题
2
作者 黄聪祎 赵伟文 万德成 《水动力学研究与进展(A辑)》 CSCD 北大核心 2024年第2期187-195,共9页
移动粒子半隐式方法(Moving Particle Semi-implicit, MPS)因其拉格朗日特性而具有独特优势,尤其适合用于模拟具有自由表面大变形特征的强非线性问题。然而,邻居粒子搜索和压力泊松方程求解的高计算开销限制了该方法在大规模应用场景中... 移动粒子半隐式方法(Moving Particle Semi-implicit, MPS)因其拉格朗日特性而具有独特优势,尤其适合用于模拟具有自由表面大变形特征的强非线性问题。然而,邻居粒子搜索和压力泊松方程求解的高计算开销限制了该方法在大规模应用场景中的实用性。图形处理器(GPU)因其多核架构,非常适合用于并行模拟处理这种相似且大量的问题。该文将自主开发的基于GPU加速的MPS算法程序移植到基于HIP编程环境的国产自主类GPU平台DCU (Deep Computing Unit,深度计算单元)上运行,开发了MPSDCU-SJTU求解器。利用MPSDCU-SJTU模拟了三维溃坝流动,其模拟结果与已公开发表的实验结果吻合良好。进一步比较了DCU平台加速前后的计算时长,证明MPSDCU-SJTU求解器能显著提升MPS方法的计算效率。 展开更多
关键词 移动粒子半隐式方法(MPS) 自由表面流动 深度计算单元(dcu) 异构计算
原文传递
面向国产异构DCU平台的大规模并行矩量法研究
3
作者 贾瑞鹏 林中朝 +2 位作者 左胜 张玉 杨美红 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期76-83,共8页
面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配... 面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配的问题,实现了矩量法异构并行计算过程的负载均衡。采用细粒度任务划分策略与异步通信技术,对深度计算处理器计算过程进行了流水线优化设计,实现了计算与通信重叠,提升了矩量法异构协同计算的效率。通过与有限元法的仿真结果对比,验证了CPU+DCU异构并行矩量法的准确性。基于国产深度计算处理器异构平台的可扩展性分析结果表明,与单纯CPU计算相比,所实现的CPU+DCU异构协同计算方法能够获得5.5~7.0倍的加速效果,且在国家超级计算西安中心能够实现全系统运行,并行规模从360节点扩展到3 600节点(共1 036 800个处理器核心),并行效率可以达到约73.5%。 展开更多
关键词 高阶矩量法 国产异构并行系统 深度计算处理器 异构协同并行计算
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部