开放式计算语言加速的分段前缀和并行算法

Open Computing Language Accelerated Parallel Algorithm for Segmented Prefix Sum

下载PDF

导出

摘要针对数值计算中前缀和运算数据量大、耗时巨大这一难题,提出了一种基于开放式计算语言(open computing language,OpenCL)的分段式前缀和并行算法。首先进行了分段式前缀和算法的并行性分析,对任务进行了层次化分解与组合,设计了两级并行的分段式前缀和算法;然后通过OpenCL编程将前缀和并行算法映射到CPU+GPU系统平台上,实现了层次化并行前缀和处理;最后,根据计算单元(compute unit,CU)的资源条件,增加CU中本地存储器的分配,通过改进工作节点的访问模式来降低bank冲突,提高访存速度。实验结果表明,与基于AMD Opteron 2439 SE CPU的串行算法、基于OpenMP(open multi-processing)并行算法和基于统一计算设备架构并行算法性能相比,前缀和并行算法在OpenCL架构下NVIDIA Tesla C2075计算平台上分别获得了33.51倍、6.26倍和2.41倍的加速比。验证了提出的并行优化方法的有效性和性能可移植性。 Aiming at the problem of large amount of prefix sum computation data in numerical computation and huge time-consuming,a segmented prefix sum parallel algorithm based on the open computing language(OpenCL)is proposesd.First,the parallel analysis of segmented prefix sum algorithms was performed,and a two-level parallel segmented prefix sum algorithm was designed through the hierarchical decomposition and combination of processing tasks.Then the prefix sum parallel algorithm was mapped to the hardware platform of CPU+GPU and the hierarchical parallel processing of prefix sum was implemented by the OpenCL programming.Finally,according to the resource conditions of the compute unit(CU),the allocation of local memory was increased in CU.In addition,the bank conflict was reduced by improving the work-items access mode to increase the memory access speed.The experimental results showed that compared with the performance of the serial algorithm based on AMD Opteron 2439 SE CPU,parallel algorithm based on OpenMP(open multi-processing)and parallel algorithm based on compute unified device architecture(CUDA),the prefix sum parallel algorithm obtained 33.51 times,6.26 times and 2.41 times speedup in the NVIDIA Tesla C2075 computing platform under the OpenCL architecture respectively.The validity and performance portability of the proposed parallel optimization method are verified.

作者肖汉李彩林郭宝云周清雷 XIAO Han;LI Cai-lin;GUO Bao-yun;ZHOU Qing-lei(School of Information Science and Technology,Zhengzhou Normal University,Zhengzhou 450044,China;School of Civil and Architectural Engineering,Shandong University of Technology,Zibo 255000,China;School of Information Engineering,Zhengzhou University,Zhengzhou 450001,China)

机构地区郑州师范学院信息科学与技术学院山东理工大学建筑工程学院郑州大学信息工程学院

出处《科学技术与工程》北大核心 2019年第31期215-221,共7页 Science Technology and Engineering

基金国家自然科学基金(61572444、41601496、41701525) 山东省自然科学基金(ZR2017LD002) 山东省重点研发计划项目(2018GGX106002)资助

关键词分段式前缀和图形处理器开放式计算语言并行算法性能优化 segmented prefix sum graphic processing unit open computing language parallel algorithm performance optimization

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1赵翠华,娄冕,张洵颖,沈绪榜.一种改进的基于Kogge-Stone结构的并行前缀加法器[J].微电子学与计算机,2011,28(2):47-50. 被引量：3
2王晓泾,崔晓平,王大宇.Sklansky并行前缀加法器的优化设计[J].微电子学与计算机,2013,30(1):97-99. 被引量：3
3王志国,王贵锦,施陈博,苗权,林行刚.积分图像的快速GPU计算[J].计算机应用研究,2011,28(10):3913-3916. 被引量：7
4刘加东,李磊.基于Han-Carlson结构的加法器优化设计[J].微电子学与计算机,2017,34(3):79-81. 被引量：1
5姚若河,马廷俊,苏少妍.基于Sklansky结构的24位并行前缀加法器的设计与实现[J].现代电子技术,2015,38(21):145-148. 被引量：1
6王书敏,崔晓平.基于并行前缀结构的十进制加法器设计[J].电子科技,2016,29(6):19-21. 被引量：1

二级参考文献45

1王骞,丁铁夫.一种稀疏树加法器及结构设计[J].电子器件,2005,28(2):312-314. 被引量：2
2靳战鹏,沈绪榜,罗旻.并行前缀加法器的研究与实现[J].微电子学与计算机,2005,22(12):92-95. 被引量：6
3崔晓平,王成华.二级进位跳跃加法器的优化方块分配[J].北京航空航天大学学报,2007,33(4):495-499. 被引量：3
4Sklansky J. Conditional sum addition logic [J]. IRE Trans Electron Computers, 1960, EC-9(6) :226-231. 被引量：1
5Brent R P, Kung H T. A regular layout for parallel adders [J]. IEEE Fransactions Computers, 1982,31(3):260-264. 被引量：1
6Kogge P M, Stone H S. A parallel algorithm for efficient solution of a general class of recurrence equations[J]. IEEE Trans Computers, 1973, 22(8) : 786-793. 被引量：1
7Matthew M Ziegler, Mircea R StanA. Unified design space for regular parallel prefix adders[J]. Design Au- tomation and Test in Europe Conference and Exhibi- tion, 2004(2) : 1386-1387. 被引量：1
8Zhu Haikun, Cheng Chungkuan, Ronald Graham. Con- structing zero-deficiency parallel prefix adder of mini- mum Depth[J]. ASP-DAC, 2005(2) : 883- 888. 被引量：1
9Reto Zimmermann. Binary Adder Architecture for Cell- Based VLSI and their Synthesis [D]. Zurich: Swiss Federal Institute of Technology, 1997. 被引量：1
10勒战鹏.高速浮点加法运算单元的研究与实现[D].西安:西北工业大学,2006. 被引量：1

共引文献9

1崔晓平,高鹏辉,尹洁珺,丁晶,李启.54位高速冗余二进制乘法器的设计[J].微电子学与计算机,2014,31(4):140-143. 被引量：2
2徐晶,曾苗祥,许炜.基于GPU的图片特征提取与检测[J].计算机科学,2014,41(7):157-161. 被引量：5
3柴志雷,张圆蒲.基于GPU的轮廓提取算法的并行计算方法研究[J].计算机应用研究,2015,32(2):630-634. 被引量：3
4祁友杰,朱恩,胥陈彧,彭金龙.适应于大幅面图像的快速匹配算法研究[J].信号处理,2015,31(7):867-875. 被引量：1
5韩磊,徐波,黄向生,张彦峰.基于GPU的散斑三维重建系统[J].计算机科学,2015,42(8):294-299. 被引量：4
6姚若河,马廷俊,苏少妍.基于Sklansky结构的24位并行前缀加法器的设计与实现[J].现代电子技术,2015,38(21):145-148. 被引量：1
7刘加东,李磊.基于Han-Carlson结构的加法器优化设计[J].微电子学与计算机,2017,34(3):79-81. 被引量：1
8蒋睿,张素文,汪创.基于智能手机平台的积分图像并行算法优化与实现[J].电子技术与软件工程,2018(14):61-62. 被引量：1
9周亮君,肖世德,李晟尧,谭芳喜.基于SURF与GPU加速数字图像处理[J].传感器与微系统,2022,41(3):98-100. 被引量：5

1朱超,吴素萍.并行Harris特征点检测算法[J].计算机科学,2019,46(S11):289-293. 被引量：1
2滕海坤,刘心声,李伦彬.基于RTSJ的物联网智能网关研究[J].盐城工学院学报（自然科学版）,2018,31(1):30-35. 被引量：2
3无.第二代AMDEPYC处理器深度解析及独家评测[J].微型计算机,2019,0(25):36-46.
4田冬阳.Linux运行性能优化的思路问题研究[J].电脑与电信,2019,0(9):40-42.
5安婷玉,郭宝宝.基于国产软硬件的OpenCL计算平台研究[J].计算机工程与科学,2019,41(11):1919-1923. 被引量：2
6周博(文/图).为创作者提供更高效轻松的创作体验[J].微型计算机,2019,0(30):55-58.
7苟立婷,李勇,朱岱寅,魏煜宁.基于GPU的圆迹视频SAR实时成像算法[J].雷达科学与技术,2019,17(5):550-556. 被引量：7
8李唯,符婧,杨贇贇,何济洲.光子驱动量子点制冷机[J].物理学报,2019,68(22):279-285. 被引量：2
9苏庆华,付景超,谷焓,张姗姗,李奕飞,江方舟,白翰林,赵地.前列腺癌辅助诊断GPU并行算法设计[J].计算机科学,2019,46(S11):524-527. 被引量：3
10刘金城(译).特斯拉申请压铸车架专利[J].铸造,2019,68(10):1190-1190.

科学技术与工程

2019年第31期

浏览历史

内容加载中请稍等...

开放式计算语言加速的分段前缀和并行算法

参考文献6

二级参考文献45

共引文献9

相关作者

相关机构

相关主题

浏览历史