期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向DCU的LDS访存向量化优化
被引量:
1
1
作者
杨思驰
赵荣彩
+1 位作者
韩林
王洪生
《计算机工程》
CAS
CSCD
北大核心
2024年第2期206-213,共8页
在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问...
在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问应遵循一定原则才能高效利用,当线程间的数据访问呈现重叠的访存特征时,访问向量化指令会因此产生延迟。针对此问题,提出面向DCU的LDS访存向量化优化方法。通过实现连续数据访问的向量化,减少LDS的访问次数,降低访存耗时,由此提高程序访存效率。在此基础上,通过设计访存特征的判断方法,提出能够有效解决数据重叠的LDS访存向量化方法,实现一种面向国产通用加速器的LDS高效访存技术,确保向量化方法对访存效率的有效提升。实验结果表明:在使用LDS的异构程序中,LDS访存向量化实现后程序性能平均提升了22.6%,验证了所提方法的有效性;同时,向量化方法能够实现LDS线程间访存数据重叠问题的优化,使异构程序得到平均30%的性能提升。
展开更多
关键词
深度计算器
本地数据共享
访存向量化
访存特征
bank冲突
下载PDF
职称材料
国产DCU加速卡与MPS方法结合高效模拟带障碍物溃坝流动问题
2
作者
黄聪祎
赵伟文
万德成
《水动力学研究与进展(A辑)》
CSCD
北大核心
2024年第2期187-195,共9页
移动粒子半隐式方法(Moving Particle Semi-implicit, MPS)因其拉格朗日特性而具有独特优势,尤其适合用于模拟具有自由表面大变形特征的强非线性问题。然而,邻居粒子搜索和压力泊松方程求解的高计算开销限制了该方法在大规模应用场景中...
移动粒子半隐式方法(Moving Particle Semi-implicit, MPS)因其拉格朗日特性而具有独特优势,尤其适合用于模拟具有自由表面大变形特征的强非线性问题。然而,邻居粒子搜索和压力泊松方程求解的高计算开销限制了该方法在大规模应用场景中的实用性。图形处理器(GPU)因其多核架构,非常适合用于并行模拟处理这种相似且大量的问题。该文将自主开发的基于GPU加速的MPS算法程序移植到基于HIP编程环境的国产自主类GPU平台DCU (Deep Computing Unit,深度计算单元)上运行,开发了MPSDCU-SJTU求解器。利用MPSDCU-SJTU模拟了三维溃坝流动,其模拟结果与已公开发表的实验结果吻合良好。进一步比较了DCU平台加速前后的计算时长,证明MPSDCU-SJTU求解器能显著提升MPS方法的计算效率。
展开更多
关键词
移动粒子半隐式方法(MPS)
自由表面流动
深度计算单元(
dcu
)
异构计算
原文传递
面向国产异构DCU平台的大规模并行矩量法研究
3
作者
贾瑞鹏
林中朝
+2 位作者
左胜
张玉
杨美红
《西安电子科技大学学报》
EI
CAS
CSCD
北大核心
2024年第2期76-83,共8页
面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配...
面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配的问题,实现了矩量法异构并行计算过程的负载均衡。采用细粒度任务划分策略与异步通信技术,对深度计算处理器计算过程进行了流水线优化设计,实现了计算与通信重叠,提升了矩量法异构协同计算的效率。通过与有限元法的仿真结果对比,验证了CPU+DCU异构并行矩量法的准确性。基于国产深度计算处理器异构平台的可扩展性分析结果表明,与单纯CPU计算相比,所实现的CPU+DCU异构协同计算方法能够获得5.5~7.0倍的加速效果,且在国家超级计算西安中心能够实现全系统运行,并行规模从360节点扩展到3 600节点(共1 036 800个处理器核心),并行效率可以达到约73.5%。
展开更多
关键词
高阶矩量法
国产异构并行系统
深度计算处理器
异构协同并行计算
下载PDF
职称材料
题名
面向DCU的LDS访存向量化优化
被引量:
1
1
作者
杨思驰
赵荣彩
韩林
王洪生
机构
郑州大学计算机与人工智能学院
国家超级计算郑州中心
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第2期206-213,共8页
基金
河南省重大科技专项(221100210600)。
文摘
在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问应遵循一定原则才能高效利用,当线程间的数据访问呈现重叠的访存特征时,访问向量化指令会因此产生延迟。针对此问题,提出面向DCU的LDS访存向量化优化方法。通过实现连续数据访问的向量化,减少LDS的访问次数,降低访存耗时,由此提高程序访存效率。在此基础上,通过设计访存特征的判断方法,提出能够有效解决数据重叠的LDS访存向量化方法,实现一种面向国产通用加速器的LDS高效访存技术,确保向量化方法对访存效率的有效提升。实验结果表明:在使用LDS的异构程序中,LDS访存向量化实现后程序性能平均提升了22.6%,验证了所提方法的有效性;同时,向量化方法能够实现LDS线程间访存数据重叠问题的优化,使异构程序得到平均30%的性能提升。
关键词
深度计算器
本地数据共享
访存向量化
访存特征
bank冲突
Keywords
deep
computing
unit
(
dcu
)
Local
Data
Shared(LDS)
memory
access
vectorization
memory
access
characteristic
bank
conflict
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
国产DCU加速卡与MPS方法结合高效模拟带障碍物溃坝流动问题
2
作者
黄聪祎
赵伟文
万德成
机构
上海交通大学船舶海洋与建筑工程学院船海计算水动力学研究中心(CMHL)
出处
《水动力学研究与进展(A辑)》
CSCD
北大核心
2024年第2期187-195,共9页
基金
国家自然科学基金(52131102)。
文摘
移动粒子半隐式方法(Moving Particle Semi-implicit, MPS)因其拉格朗日特性而具有独特优势,尤其适合用于模拟具有自由表面大变形特征的强非线性问题。然而,邻居粒子搜索和压力泊松方程求解的高计算开销限制了该方法在大规模应用场景中的实用性。图形处理器(GPU)因其多核架构,非常适合用于并行模拟处理这种相似且大量的问题。该文将自主开发的基于GPU加速的MPS算法程序移植到基于HIP编程环境的国产自主类GPU平台DCU (Deep Computing Unit,深度计算单元)上运行,开发了MPSDCU-SJTU求解器。利用MPSDCU-SJTU模拟了三维溃坝流动,其模拟结果与已公开发表的实验结果吻合良好。进一步比较了DCU平台加速前后的计算时长,证明MPSDCU-SJTU求解器能显著提升MPS方法的计算效率。
关键词
移动粒子半隐式方法(MPS)
自由表面流动
深度计算单元(
dcu
)
异构计算
Keywords
Moving
particle
semi-implicit
method(MPS)
Free
surface
flow
deep
computing
unit
(
dcu
)
Heterogeneous
computing
分类号
TU476 [建筑科学—结构工程]
原文传递
题名
面向国产异构DCU平台的大规模并行矩量法研究
3
作者
贾瑞鹏
林中朝
左胜
张玉
杨美红
机构
西安电子科技大学电子工程学院
齐鲁工业大学计算机科学与技术学院
出处
《西安电子科技大学学报》
EI
CAS
CSCD
北大核心
2024年第2期76-83,共8页
基金
陕西省重点研发计划(2023-ZDLGY-09,2022ZDLGY02-01,2021GXLH-02)
中央高校基本科研业务费专项资金(QTZX23018)。
文摘
面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配的问题,实现了矩量法异构并行计算过程的负载均衡。采用细粒度任务划分策略与异步通信技术,对深度计算处理器计算过程进行了流水线优化设计,实现了计算与通信重叠,提升了矩量法异构协同计算的效率。通过与有限元法的仿真结果对比,验证了CPU+DCU异构并行矩量法的准确性。基于国产深度计算处理器异构平台的可扩展性分析结果表明,与单纯CPU计算相比,所实现的CPU+DCU异构协同计算方法能够获得5.5~7.0倍的加速效果,且在国家超级计算西安中心能够实现全系统运行,并行规模从360节点扩展到3 600节点(共1 036 800个处理器核心),并行效率可以达到约73.5%。
关键词
高阶矩量法
国产异构并行系统
深度计算处理器
异构协同并行计算
Keywords
method
of
moments
domestic
heterogeneous
platforms
deep
computing
unit
(
dcu
)
parallel
algorithm
分类号
TN820 [电子电信—信息与通信工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向DCU的LDS访存向量化优化
杨思驰
赵荣彩
韩林
王洪生
《计算机工程》
CAS
CSCD
北大核心
2024
1
下载PDF
职称材料
2
国产DCU加速卡与MPS方法结合高效模拟带障碍物溃坝流动问题
黄聪祎
赵伟文
万德成
《水动力学研究与进展(A辑)》
CSCD
北大核心
2024
0
原文传递
3
面向国产异构DCU平台的大规模并行矩量法研究
贾瑞鹏
林中朝
左胜
张玉
杨美红
《西安电子科技大学学报》
EI
CAS
CSCD
北大核心
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部