-
题名面向申威架构的KNN并行算法实现与优化
被引量:3
- 1
-
-
作者
王其涵
庞建民
岳峰
祝迪
沈莉
肖谦
-
机构
信息工程大学数学工程与先进计算国家重点实验室
中国科学技术大学
江南计算技术研究所
-
出处
《计算机工程》
CAS
CSCD
北大核心
2023年第5期286-294,共9页
-
基金
国家自然科学基金“基于深度学习与计算语言学的恶意代码作者身份识别研究”(61802433)。
-
文摘
K近邻(KNN)是人工智能中最常用的分类算法,其性能提升对于海量数据的整理分析、大数据分类等任务具有重要意义。目前新一代神威超级计算机正处于应用发展的初始阶段,结合新一代申威异构众核处理器的结构特性,充分利用庞大的计算资源实现高效的KNN算法是海量数据分析整理的现实需求。根据SW26010pro处理器的结构特性,采用主从加速编程模型实现一种基础版本的KNN并行算法,其将计算核心传输到从核上,实现了线程级并行。分析影响基础并行算法性能的关键因素并提出优化算法SWKNN,不同于基础并行KNN算法的任务划分方式,SWKNN采用任务重划分策略,以避免冗余计算开销。通过数据流水优化、从核间通信优化、二次负载均衡优化等步骤减少不必要的通信开销,从而有效缓解访存压力并进一步提升算法性能。实验结果表明,与串行KNN算法相比,面向申威架构的基础并行KNN算法在SW26010pro处理器的单核组上可以获得最高48倍的加速效果,在同等数据规模下,SWKNN算法较基础并行KNN算法又可以获得最高399倍的加速效果。
-
关键词
异构众核处理器
K近邻算法
并行计算
算法优化
分类性能
-
Keywords
heterogeneous many-core processors
K-Nearest Neighbor(KNN)algorithm
parallel computing
algorithm optimization
classification performance
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向申威众核处理器的LZMA并行算法设计与优化
被引量:3
- 2
-
-
作者
李秉政
黄高阳
许瑾晨
-
机构
数学工程与先进计算国家重点实验室
江南计算技术研究所
-
出处
《计算机科学与探索》
CSCD
北大核心
2020年第9期1501-1509,共9页
-
基金
国家重点研发计划(No.2018YFB0804003).
-
文摘
随着高性能计算和科学计算应用的发展,高性能计算集群系统传输、存储和处理的数据规模呈现爆炸式增长。对大规模数据进行高效的压缩,减少数据存储所需空间和传输所需的通信带宽,是提升高性能计算集群系统性能的关键之一。无损压缩算法中,LZMA算法具有较高的压缩率,但串行版本的LZMA算法压缩速率很慢。采用多核架构的处理器对无损压缩算法进行并行化,是提升压缩速率的一个研究方向。设计并实现了面向申威26010异构众核处理器并行化LZMA算法。结合申威异构众核处理器的特点,对LZMA算法存储空间需求、访存特性、热点函数等进行分析,基于Athread接口实现LZMA算法从核多线程并行,并对LDM地址空间进行细粒度的布局与优化以获得更好的缓存性能,实现DMA双缓冲的循环滑动窗口算法。测试结果表明,相较主核串行版本算法,并行LZMA算法在Silesia语料库基准测试集和大规模数据集中分别获得了4.1倍和5.3倍的最大加速比,获得了较好的加速效果。
-
关键词
并行计算
异构众核处理器
LZMA
压缩算法
-
Keywords
parallel computing
heterogeneous many-core processors
Lempel Ziv-Markov chain algorithm(LZMA)
compression algorithm
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名PME算法在神威太湖之光上的移植和优化
被引量:2
- 3
-
-
作者
林增
武铮
安虹
陈俊仕
-
机构
中国科学技术大学计算机科学与技术学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2021年第1期9-14,共6页
-
基金
科技部国家重点研发计划项目(2018YFB0204102)资助。
-
文摘
分子动力学模拟(MD)是一套通过计算机模拟生物体系内分子、原子运动的多体模拟方法.GROMACS是著名的MD应用,能够快速模拟生物及非生物体系运动过程,广泛应用于各高性能平台.作为世界排名第3的超级计算机,神威太湖之光拥有40960块SW26010异构众核处理器,峰值性能达到125.4PFlops.目前太湖之光上已有对GROM ACS短程力优化的相关研究,但对于PM E(Particle Mesh Ewald)算法未有探索性工作.本文基于申威平台对PME算法展开研究,针对随机访存模式、网格点写写冲突等挑战,提出了基于局部网格序的分块策略、数据重组策略、非线性函数近似等方法进行优化.最终优化后的结果相较于初始版本性能提升了8.85倍,相较于Intel CPU版本提升了1.2倍.本文采用的优化技术也可以为神威太湖之光上其他分子动力学模拟软件和涉及散乱数据插值程序的优化提供借鉴.
-
关键词
PME
GROMACS
神威太湖之光
异构众核处理器
-
Keywords
PME
GROM ACS
Sunway TaihuLight
heterogeneous many-core processors
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-