期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
Optimizing Memory Access Efficiency in CUDA Kernel via Data Layout Technique
1
作者 Neda Seifi Abdullah Al-Mamun 《Journal of Computer and Communications》 2024年第5期124-139,共16页
Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these adv... Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these advancements, efficiently programming GPUs remains a daunting challenge, often relying on trial-and-error optimization methods. This paper introduces an optimization technique for CUDA programs through a novel Data Layout strategy, aimed at restructuring memory data arrangement to significantly enhance data access locality. Focusing on the dynamic programming algorithm for chained matrix multiplication—a critical operation across various domains including artificial intelligence (AI), high-performance computing (HPC), and the Internet of Things (IoT)—this technique facilitates more localized access. We specifically illustrate the importance of efficient matrix multiplication in these areas, underscoring the technique’s broader applicability and its potential to address some of the most pressing computational challenges in GPU-accelerated applications. Our findings reveal a remarkable reduction in memory consumption and a substantial 50% decrease in execution time for CUDA programs utilizing this technique, thereby setting a new benchmark for optimization in GPU computing. 展开更多
关键词 Data Layout optimization CUDA performance optimization gpu Memory optimization Dynamic Programming Matrix Multiplication Memory Access Pattern optimization in CUDA
下载PDF
面向GPU计算平台的神经网络卷积性能优化 被引量:3
2
作者 李茂文 曲国远 +1 位作者 魏大洲 贾海鹏 《计算机研究与发展》 EI CSCD 北大核心 2022年第6期1181-1191,共11页
图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.... 图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.在跨平台上运行高性能代码,以及基于GPU的卷积神经网络优化愈发重要.针对卷积神经网络中的卷积规模和其他通用矩阵乘(general matrix multiplication,GEMM)方法的不足,根据分块规模、分支执行、访存和计算比例,提出了一种针对卷积神经网络规模优化的GEMM优化方法,将其应用于Winograd算法,并结合算子合并,实现对卷积进一步优化.同时基于遍历的自调优选择性能最优的卷积算子,结合离线编译、内存池、16 b量化、网络规模裁剪等方法,来提升卷积神经网络的性能.最后在AMD V1605B平台上进行实验验证算法的效果,通过和其他GEMM算法以及深度学习网络的性能进行对比,验证了该方法能够获得比GEMM算法和Winograd算法更好的加速效果,并能有效地加速卷积神经网络. 展开更多
关键词 通用矩阵乘 Winograd算法 卷积神经网络 性能优化 gpu
下载PDF
基于CUBLAS和CUDA的MNF并行算法设计与优化 被引量:3
3
作者 周海芳 高畅 方民权 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第4期147-156,共10页
为实现高光谱影像数据快速降维,基于nVidia的图像处理单元(graphic processing unit,GPU)研究最大噪声分数变换(Maximum Noise Fraction Rotation,MNF Rotation)降维算法的并行设计与优化,通过对加速热点并行优化,择优整合,设计并实现基... 为实现高光谱影像数据快速降维,基于nVidia的图像处理单元(graphic processing unit,GPU)研究最大噪声分数变换(Maximum Noise Fraction Rotation,MNF Rotation)降维算法的并行设计与优化,通过对加速热点并行优化,择优整合,设计并实现基于CUBLAS(CUDA Basic Linear Algebra Subprograms)库的MNF-L(MNF-on-Library)算法和基于CPU/GPU异构系统的MNF-C(MNF-on-CUDA)算法.实验结果显示MNF-L算法加速11.5~60.6倍不等,MNF-C算法加速效果最好,加速46.5~92.9倍不等.研究结果表明了GPU在高光谱影像线性降维领域的巨大优势. 展开更多
关键词 图像处理单元 gpu性能优化 高光谱影像降维 最大噪声分数变换 协方差矩阵计算
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部