期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
快速多极子方法在申威众核处理器上的实现和优化
被引量:
3
1
作者
王武
王舒扬
+1 位作者
姜金荣
孟虹松
《计算机工程与科学》
CSCD
北大核心
2019年第7期1161-1167,共7页
快速多极子方法(FMM)是一种求解N体问题的快速高效数值算法,在宇宙学和分子动力学等模拟中具有广泛的应用。申威SW26010是一款国产众核异构处理器,含260核心(4核组)。基于申威SW26010的众核架构设计和实现了快速多极子方法,并对核心函数...
快速多极子方法(FMM)是一种求解N体问题的快速高效数值算法,在宇宙学和分子动力学等模拟中具有广泛的应用。申威SW26010是一款国产众核异构处理器,含260核心(4核组)。基于申威SW26010的众核架构设计和实现了快速多极子方法,并对核心函数(尤其是最耗时的粒子对相互作用)系统地进行了性能优化,包括异步DMA、SIMD向量化、循环展开、内联汇编指令调整等。以粒子对相互作用为例,优化后代码的计算速度约为主核上运行的原始代码的400倍,每个核组上的浮点性能达到250GFLOPS,即理论峰值性能的32.5%。
展开更多
关键词
快速多极子方法
异构众核处理器
N体问题
性能优化
下载PDF
职称材料
题名
快速多极子方法在申威众核处理器上的实现和优化
被引量:
3
1
作者
王武
王舒扬
姜金荣
孟虹松
机构
中国科学院计算机网络信息中心
中国科学院大学
国家超级计算无锡中心
出处
《计算机工程与科学》
CSCD
北大核心
2019年第7期1161-1167,共7页
基金
国家重点研发计划(2017YFB0203303)
中国科学院十三五信息化应用工程项目(XXH13506-405)
文摘
快速多极子方法(FMM)是一种求解N体问题的快速高效数值算法,在宇宙学和分子动力学等模拟中具有广泛的应用。申威SW26010是一款国产众核异构处理器,含260核心(4核组)。基于申威SW26010的众核架构设计和实现了快速多极子方法,并对核心函数(尤其是最耗时的粒子对相互作用)系统地进行了性能优化,包括异步DMA、SIMD向量化、循环展开、内联汇编指令调整等。以粒子对相互作用为例,优化后代码的计算速度约为主核上运行的原始代码的400倍,每个核组上的浮点性能达到250GFLOPS,即理论峰值性能的32.5%。
关键词
快速多极子方法
异构众核处理器
N体问题
性能优化
Keywords
fast
multipole
method(FMM)
heterogeneous
manycore
processor
N-body
problem
performance
optimization
分类号
TP391.9 [自动化与计算机技术—计算机应用技术]
TP319 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
快速多极子方法在申威众核处理器上的实现和优化
王武
王舒扬
姜金荣
孟虹松
《计算机工程与科学》
CSCD
北大核心
2019
3
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部