图形处理器在通用计算中的应用被引量：4

Application of graphics processing unit in general purpose computation

下载PDF

导出

摘要基于图形处理器(GPU)的计算统一设备体系结构(compute unified device architecture,CUDA)构架,阐述了GPU用于通用计算的原理和方法。在Geforce8800 GT下,完成了矩阵乘法运算实验。实验结果表明,随着矩阵阶数的递增,无论是GPU还是CPU处理,速度都在减慢。数据增加100倍后,GPU上的运算时间仅增加了3.95倍,而CPU的运算时间增加了216.66倍。 Based on the CUDA （compute unified device architecture） of GPU （graphics processing unit）, the technical fimdamentals and methods for general purpose computation on GPU are introduced. The algorithm ofmatrix multiplication is simulated on Geforce8800 GT. With the increasing of matrix order, algorithm speed is slowed either on CPU or on GPU. After the data quantity increases to 100 times, the operation time only increased in 3.95 times on GPU, and 216.66 times on CPU.

作者张健陈瑞

机构地区南京工程学院通信工程学院

出处《计算机工程与设计》 CSCD 北大核心 2009年第14期3359-3361,共3页 Computer Engineering and Design

基金南京工程学院引进人才科研启动基金项目(KXJ07056)

关键词图形处理器计算统一设备体系结构通用计算矩阵乘法矩阵阶数 graphics processing unit （GPU） compute unified device architecture （CUDA） general purpose computation matrix multiply matrix order

分类号 TP314 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1Macedonia M.The GPU enters computing's mainstream[J].IEEE Computer,2003,36(10):106-108. 被引量：1
2Cuda programming guide version 2.0[M].NVIDIA Corporation,2008. 被引量：1
3Kruger J,Westermann R.Linear algebra operators for GPU implementation of numerical algorithms[J].ACM Trans on Graphics,2003,22(3):908-916. 被引量：1
4Hall JD,Carr NA,Hart JC.Cache and bandwidth aware matrix multiplication on the GPU[R].Champaign:University of Illinois at Urbana-Champaign,2003. 被引量：1
5Thompson CJ,Hahn S,Oskin M.Using modern graphics architectures for general-purpose computing:A framework and analysis[C].Proc of the Int'l Syrup on Microarchitecture,2002:306-317. 被引量：1
6Govindaraju NK,Sud A,Yoon SE,et al.SWITCH:Parallel occlusion culling for interactive walkthroughs using multiple GPUs[R].Techical Report,TR02-027,UNC-CH,2002. 被引量：1
7Tomov S,McG-uigan M,Bennett R,et al.Benchmarking and implementation of probability-based simulations on programmable graphics cards[J].Computers and Graphics,2005,29(1):53-56. 被引量：1
8吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：227
9孙世新等编著..并行算法及其应用[M].北京:机械工业出版社,2005:196.

二级参考文献57

1Clark James H.The geometry engine:A VLSI geometry system for graphics[A].In:Computer Graphics Proceedings,Annual Conference Series,ACM SIGGRAPH,Boston,1982.127～133 被引量：1
2Fuchs Herry,Poulton John.Pixel-planes:A VLSI-Oriented design for a raster graphics engine[J].VLSI Design,1981,2(3):20～28 被引量：1
3Eyles John,Austin John,Fuchs Henry,et al.Pixel-plane 4:A summary,advances in computer graphics hardware II[A].Eurographic Seminars Tutorials and Perspectives in Computer Graphics,New York:Springer-Verlag,1988.183～208 被引量：1
4Fuchs Herry,Israel Laura,Poulton John,et al.Pixel-planes 5:A heterogeneous multiprocessor graphics system using processor-enhanced memories[A].In:Computer Graphics Proceedings,Annual Conference Series,ACM SIGGRAPH,Boston,1989.79～88 被引量：1
5http://www.nvidia.com/object/gpu.html[OL] 被引量：1
6http://developer.nvidia.com/[OL] 被引量：1
7http://www.ati.com/developer/[OL] 被引量：1
8http://www.gpgpu.org[OL] 被引量：1
9Joo Luiz Dihl Comba,Dietrich Carlos A,Pagot Christian A,et al.Computation on GPUs:From a programmable pipeline to an efficient stream processor[J].Revista de Informática Teóricae Aplicada,2003,X(2):41～70 被引量：1
10Krüger Jens,Westermann Rüdiger.Linear algebra operators for GPU implementation of numerical algorithms[J].ACM Transactions on Graphics,2003,22(3):908～916 被引量：1

共引文献226

1何红英,尉朝闻.基于逆滤波法的图像复原技术研究[J].西安文理学院学报（自然科学版）,2009,12(3):92-95. 被引量：1
2吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量：141
3张杨,诸昌钤,何太军.图形硬件通用计算技术的应用研究[J].计算机应用,2005,25(9):2192-2195. 被引量：6
4梁亮,张定华,毛海鹏,顾娟.一种基于可编程图形硬件的快速三维图像重建算法[J].计算机应用研究,2006,23(1):241-243. 被引量：5
5柳有权,刘学慧,吴恩华.基于GPU带有复杂边界的三维实时流体模拟[J].软件学报,2006,17(3):568-576. 被引量：54
6郝立巍,陈武凡.医学三维动态超声实时体绘制[J].南方医科大学学报,2006,26(3):275-278. 被引量：1
7李笑盈,吴恩华.过程性纹理映射的FPGA动态生成[J].计算机辅助设计与图形学学报,2006,18(5):630-637. 被引量：1
8张庆丹,戴正华,冯圣中,孙凝晖.基于GPU的串匹配算法研究[J].计算机应用,2006,26(7):1735-1737. 被引量：15
9李宏海,肖建海.CPU+GPU技术在非编系统中的应用[J].现代电视技术,2006(6):82-85. 被引量：4
10孔渊,陆虎敏,周坚锋,郭凡.计算机图形系统发展简述[J].航空电子技术,2006,37(2):10-14. 被引量：2

同被引文献32

1吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量：141
2王志勇,张继贤,黄国满.高分辨率SAR影像斑点噪声滤除方法的研究[J].测绘科学,2004,29(6):41-44. 被引量：17
3芮杰,吴冰,秦志远,山海涛.一种稳健的自适应图像平滑算法[J].中国图象图形学报（A辑）,2005,10(1):54-58. 被引量：25
4桑会勇,郭华东,韩春明,王长林.一种基于梯度信息的小波SAR图像滤波方法[J].测绘通报,2005(2):17-19. 被引量：5
5NVIDIA CUDA计算统一设备架构编程指南版本2.0[EB/OL].http://www.nvidia.com/object/cuda_home.html,2008. 被引量：1
6Stone S S,Yi Hao-ran,Haldar J P,et al.How GPUs can improve the quality of magnetic resonance imaging[EB/OL].http://www.gigascale.org/pubs/1175/gpgpu.pdf,2008-04-20. 被引量：1
7Boyer M,Skadron K,Weimer W.Automated dynamic analysis of CUDA programs[EB/OL].http://web.mit.edu/rabbah/www/conferences/08/stmcs/papers/boyer-stmcs08.pdf,2008-05-20. 被引量：1
8Catanzaro B,Sundaram N,Keutzer ICA map reduce framework for programming graphics processors[EB/OL].http://web.mit.edu/rabbah/www/conferences/08/stmcs/papers/catanzarostmcs08.pdf,2008-04-30. 被引量：1
9NVIDIA CUDA Programming Guide Version 2.3 [ EB/OL]. 2009. http://www, nvidia, com/content/cudazone/download/ OpenCL/NVIDIA OpenCL ProgrammingGuide. pdf. 被引量：1
10ATI Stream Computing PenCL Programming Guide [ EB/ OL]. 2010. http://www, ljll. math. upmc. fr/groupes/gpgpu/ tutorial/ATI_Stream_SDK_OpenCL_Programming_Guide, pdf. 被引量：1

引证文献4

1孙彬,倪维平,严卫东,边辉,王培忠.基于GPU的改进型GIW雷达图像降噪算法[J].计算机工程与设计,2010,31(15):3455-3458.
2曾文权,胡玉贵,何拥军,林敏.一种基于OPENACC的GPU加速实现高斯模糊算法[J].计算机技术与发展,2013,23(7):147-150. 被引量：7
3冯芳.高斯滤波运算的几种并行实现方式[J].兰州工业学院学报,2015,22(5):57-60. 被引量：1
4李驰新,王彦瑜.基于GPU的快速能谱图生成方法[J].核电子学与探测技术,2016,36(1):52-55.

二级引证文献8

1莫德林,戴晨光,张振超,胡玲.一种基于OpenACC的遥感影像正射纠正快速实现方法[J].影像技术,2014,26(2):47-49. 被引量：4
2赵成龙,施慧彬,俞忻峰.基于OpenCL的双GPU基数排序算法[J].计算机与现代化,2015(1):27-30. 被引量：1
3覃金帛,曾志强,梁藉,杨明祥,张健.GPU并行优化技术在水利计算中的应用综述[J].计算机工程与应用,2018,54(3):23-29. 被引量：11
4周元茂,陈学华,罗鑫,王开华,吕丙南,李泂.组合型方位体曲率分析方法[J].石油地球物理勘探,2017,52(6):1253-1260. 被引量：5
5肖洒,魏敏.BCC_AGCM大气环流模式异构众核加速技术[J].气象科技,2018,46(2):245-249. 被引量：3
6孙晨,王彬,顾文静,魏敏.基于OpenACC的GRAPES_GLOBAL模式长波辐射异构并行化研究[J].气象科技进展,2018,8(1):197-202. 被引量：2
7顾文静,孙晨,王彬.基于OpenACC的高性能计算并行优化研究与应用[J].计算机技术与发展,2018,28(4):65-70. 被引量：3
8肖洒,魏敏,邓帅,徐达,张晨琛.基于GPU-OpenACC的气候模式加速优化研究[J].气象,2019,45(7):1001-1008. 被引量：3

1焦良葆,陈瑞.GPU核函数细化研究[J].计算机工程,2010,36(18):10-12. 被引量：3
2童星,袁道华.基于GPU和均匀栅格法的光线追踪算法研究[J].计算机工程与设计,2011,32(10):3499-3502. 被引量：4
3陈瑞,童莹.二维FFT在GPU上的并行实现[J].南京工程学院学报（自然科学版）,2009,7(2):41-45. 被引量：1
4徐永贤.并链机械手正向雅可比矩阵及奇异性分析[J].大连铁道学院学报,1996,17(1):51-54.
5赵树梅,姜学军.基于并行计算的图像检索技术的研究[J].科技信息,2011(32).
6张梦元.基于CUDA的矩阵乘法的并行实现[J].信息通信,2012,25(2):20-21. 被引量：2
7童莹,张健.基于GPU的快速二维沃尔什变换研究[J].微电子学与计算机,2011,28(1):46-49. 被引量：2
8吴猛,刘振.基于并行存储优化的矩阵乘法运算[J].电脑知识与技术,2010(01X):693-695.
9彭雷,朱永芬,戴光明.PVM下矩阵相乘并行算法的研究与实现[J].微机发展,2004,14(8):49-51. 被引量：5
10陈宏建,陈崚,李开荣,陈莉莉.RAPWBN的矩阵乘法并行算法[J].计算机工程,2004,30(23):31-33.

计算机工程与设计

2009年第14期

浏览历史

内容加载中请稍等...

图形处理器在通用计算中的应用被引量：4

参考文献9

二级参考文献57

共引文献226

同被引文献32

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

图形处理器在通用计算中的应用 被引量：4

参考文献9

二级参考文献57

共引文献226

同被引文献32

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

图形处理器在通用计算中的应用被引量：4