期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于CUDA的高速FFT计算 被引量:22
1
作者 赵丽丽 张盛兵 +1 位作者 张萌 姚涛 《计算机应用研究》 CSCD 北大核心 2011年第4期1556-1559,共4页
针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明... 针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明了该算法的高效性,且优化后的FFT加速比能达到CUFFT库加速比的2~6倍。 展开更多
关键词 图形处理器 统一计算架构 映射策略 存储层次
下载PDF
基于CUDA的Kirchhoff叠前时间偏移算法设计与实现 被引量:14
2
作者 李肯立 彭俊杰 周仕勇 《计算机应用研究》 CSCD 北大核心 2009年第12期4474-4477,共4页
Kirchhoff叠前时间偏移是地震数据处理中最耗时的常用模块之一。为加快计算和显示速度,针对CU-DA平台多处理器流水线特性,对传统Kirchhoff叠前时间偏移算法在CUDA平台上进行了重新设计,包括基于CUDA的Kirchhoff叠前时间偏移算法、基于C... Kirchhoff叠前时间偏移是地震数据处理中最耗时的常用模块之一。为加快计算和显示速度,针对CU-DA平台多处理器流水线特性,对传统Kirchhoff叠前时间偏移算法在CUDA平台上进行了重新设计,包括基于CUDA的Kirchhoff叠前时间偏移算法、基于CUDA的纵波波动方程算法和GPU与CPU间的通信算法三个子算法。所有算法在NVIDIAGeForce8800 GT系统上编译实现,通过对比相同数据在Intel Core2Due CPU2.0 GHz的地震偏移,综合分析和实验结果表明,基于CUDA的Kirchhoff叠前时间偏移算法的计算速度最高可得到较传统CPU算法6倍的加速比,从而为快速处理地震偏移提供良好的支持。 展开更多
关键词 统一计算设备架构 图形处理器 地震偏移 地震数据处理
下载PDF
基于GPU的MATLAB计算与仿真研究 被引量:9
3
作者 王恒 高建瓴 《贵州大学学报(自然科学版)》 2012年第6期95-98,112,共5页
图形处理单元(GPU)已经成为当今的主流计算系统的一个组成部分,现代GPU不仅是一个功能强大的图形引擎,也是一个高度并行的可编程处理器,GPU的峰值运算和内存带宽往往大幅超出其CPU所对应的峰值和内存带宽。本文介绍了基于GPU通用计算框... 图形处理单元(GPU)已经成为当今的主流计算系统的一个组成部分,现代GPU不仅是一个功能强大的图形引擎,也是一个高度并行的可编程处理器,GPU的峰值运算和内存带宽往往大幅超出其CPU所对应的峰值和内存带宽。本文介绍了基于GPU通用计算框架的JACKET加速MATLAB的计算仿真方法,通过FFT算法得出仿真结果,分析在CPU和GPU运行环境下的GFLOPS和加速比,最后得出基于GPU的MATLAB计算仿真程序运行效率在JACKET的加速下大大提高了。 展开更多
关键词 GPU(Graphics Processing Unit) cuda(compute unified device architecture) JACKET
下载PDF
基于MPI+CUDA的异构并行可压缩流求解器 被引量:7
4
作者 刘枫 李桦 +1 位作者 田正雨 潘沙 《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第1期6-10,共5页
在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数... 在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数个算例,对比了异构并行计算和传统CPU并行计算计算结果和计算效率。将该算法运用于高超声速流动的数值模拟中,数值结果显示,基于MPI+CUDA的异构并行可压缩流求解器鲁棒性好,计算效率较CPU同构并行计算提高10倍以上。 展开更多
关键词 消息传递接口 统一计算设备架构 异构计算 可压缩流
下载PDF
基于CUDA并行的全球海洋表面温度场等值线提取算法研究 被引量:6
5
作者 钱宸 杜震洪 +2 位作者 曹润洲 张丰 刘仁义 《浙江大学学报(理学版)》 CAS CSCD 2014年第1期82-89,共8页
在分析GPU并行架构和CUDA灵活可编程性基础上,提出了一种基于区间块搜索的等值线并行提取方法,可应用于全球海洋表面温度格网数据的分析.算法有效减少了等值线追踪过程中重复性的格网遍历及不必要的格网搜索.最后,实验采用了不同规模的... 在分析GPU并行架构和CUDA灵活可编程性基础上,提出了一种基于区间块搜索的等值线并行提取方法,可应用于全球海洋表面温度格网数据的分析.算法有效减少了等值线追踪过程中重复性的格网遍历及不必要的格网搜索.最后,实验采用了不同规模的海表温度场格网数据进行等值线的提取并比较串并行耗时,结果表明:(1)算法能实现全球海洋表面温度等值线的有效提取并提高其效率,尤其对于大规模格网数据;(2)基于所有实验数据,格网规模大于720×1 440时,相较于串行过程GPU执行体现了其效率上的优势,GPU与CPU串行耗时的加速比最大可达3.124. 展开更多
关键词 cuda 等值线 并行 海表温度
下载PDF
基于CUDA的大规模稀疏矩阵的PCG算法优化 被引量:4
6
作者 郑经纬 安雪晖 黄绵松 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第8期1006-1012,共7页
为了实现大规模稀疏矩阵的高效求解,该文利用GPU(graphics processing unit)高带宽、低成本及强大的并行处理能力等优势,基于CUDA(compute unified device architecture)技术对采用CSR(compress spare row)格式存储的大规模稀疏矩阵进... 为了实现大规模稀疏矩阵的高效求解,该文利用GPU(graphics processing unit)高带宽、低成本及强大的并行处理能力等优势,基于CUDA(compute unified device architecture)技术对采用CSR(compress spare row)格式存储的大规模稀疏矩阵进行了预处理共轭梯度(PCG)算法的求解优化。采用了存储器优化和数据流优化这2大并行优化策略,对稀疏矩阵与向量乘积和向量间内积与归约的GPU优化步骤进行了详细介绍。通过对实际的水工隧洞模型里的稀疏矩阵求解,得到在GTX580显卡上的计算效率是Intel i7CPU的13倍。该文提出的基于CUDA的PCG算法具备快速、高效求解大规模稀疏矩阵的能力。 展开更多
关键词 预处理共轭梯度(preconditioned CONJUGATE gradient PCG)算法 cuda(compute unified device architecture)技术 稀疏矩阵 并行计算 优化
原文传递
基于GPGPU的JPEG2000图像压缩方法 被引量:5
7
作者 李玉峰 吴蔚 +1 位作者 王恺 崔迎炜 《电子器件》 CAS 北大核心 2013年第2期163-168,共6页
为了进一步加快JPEG2000的压缩速度,对JPEG2000压缩标准进行研究,分析得出JPEG2000核心算法离散小波变换(DWT)部分数据之间的独立性适合并行化处理。NVIDIA最新推出的CUDA(计算统一设备架构)是非常适合大规模数据并行计算的软硬件开发... 为了进一步加快JPEG2000的压缩速度,对JPEG2000压缩标准进行研究,分析得出JPEG2000核心算法离散小波变换(DWT)部分数据之间的独立性适合并行化处理。NVIDIA最新推出的CUDA(计算统一设备架构)是非常适合大规模数据并行计算的软硬件开发平台。在通用计算图形处理器(General Purpose Graphic Process Unit,GPGPU)上使用CUDA技术实现DWT并行化加速,并针对GPGPU存储空间的特点进行优化。得出的实验结果表明,经过CUDA并行优化的方法能够有效地提高离散小波变换DWT的计算速度。 展开更多
关键词 JPEG2000 离散小波变换 通用图形处理器 并行计算 cuda
下载PDF
CUDA并行计算下基于扩展SURF的多摄像机视频融合方法 被引量:2
8
作者 崔哲 孟凡荣 +1 位作者 姚睿 石记红 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第4期627-637,共11页
在多摄像机视频融合过程中,需要对多个摄像机获取的视频中的每一帧图像进行大量诸如特征提取、图像配准、图像融合等高复杂度的计算,占用大量的运算时间,这对视频融合的实时性要求是一个很大的挑战.基于CUDA(Compute Unified Device Arc... 在多摄像机视频融合过程中,需要对多个摄像机获取的视频中的每一帧图像进行大量诸如特征提取、图像配准、图像融合等高复杂度的计算,占用大量的运算时间,这对视频融合的实时性要求是一个很大的挑战.基于CUDA(Compute Unified Device Architecture)并行计算框架,提出了一种快速、可靠的多摄像头视频融合方法,该方法首先利用基于局部环形扩展及颜色描述子的SURF(speeded up robust features)特征提取方法提取图像特征点;其次采用基于分块相似性度量的k-d树(k-维树)多图像自动特征匹配算法进行图像与特征点的匹配;然后使用RANSAC(Random Sample Consensus)算法计算变换矩阵;最后使用多频率融合算法进行多摄像机视频融合,得到流畅的大视场视频.整个多视频融合过程使用CUDA进行并行加速,并在多个不同场景与摄像机数量下的实验验证了本文算法的实时性与有效性. 展开更多
关键词 视频融合 speeded up robust features(SURF) K-D树 compute unified device architecture(cuda)
下载PDF
基于GPGPU和CUDA的高速AES算法的实现和优化 被引量:3
9
作者 顾青 高能 +1 位作者 包珍珍 向继 《中国科学院研究生院学报》 CAS CSCD 北大核心 2011年第6期776-785,共10页
随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(comput... 随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(compute unified devicearchitecture,统一计算架构)的出现更加速了GPGPU应用面的扩张.基于GPGPU和CUDA技术对AES算法的实现进行加速,得到整体吞吐量6~7Gbit/s的速度.如果不考虑数据加载时间,对于1MB以上的输入规模,吞吐量可以达到20Gbit/s. 展开更多
关键词 通用图像处理器 统一计算架构 AES算法 并行计算
下载PDF
基于CUDA的数字化放射图像重建算法 被引量:3
10
作者 朱奭 常晋义 《计算机应用研究》 CSCD 北大核心 2014年第5期1577-1580,共4页
为了提高重建图像的速度及质量,利用CUDA(compute unified device architecture)架构下GPU(graphic processing unit)的多核并行运算能力,将光线投射的几何变换、场景遍历和渲染三个步骤在可编程图像硬件中实现,降低模拟所需的时间;利... 为了提高重建图像的速度及质量,利用CUDA(compute unified device architecture)架构下GPU(graphic processing unit)的多核并行运算能力,将光线投射的几何变换、场景遍历和渲染三个步骤在可编程图像硬件中实现,降低模拟所需的时间;利用3D纹理、光线程基元的同步遍历机制及不透明度提前终止,在不影响成像质量的前提下,减少生成最终模拟效果所需的时间。实验结果表明,该算法不仅可以提高重建的速度,而且成像质量较好。 展开更多
关键词 统一计算设备架构 数字化放射图像重建 并行技术
下载PDF
利用GPU技术使去噪方法并行化 被引量:1
11
作者 林茂 董玉敏 +2 位作者 蒋立 许涛 刘新军 《计算机与应用化学》 CAS CSCD 北大核心 2012年第11期1379-1383,共5页
野外采集的地震勘探原始记录中通常包含多种噪声。噪声的存在降低了地震资料的信噪比,影响地震资料处理成果品质,因此,去噪方法研究和应用是处理工作的重要环节之一。"加权中值滤波自动检测并压制强能量干扰方法"是一种在准... 野外采集的地震勘探原始记录中通常包含多种噪声。噪声的存在降低了地震资料的信噪比,影响地震资料处理成果品质,因此,去噪方法研究和应用是处理工作的重要环节之一。"加权中值滤波自动检测并压制强能量干扰方法"是一种在准噶尔盆地油气勘探中非常有效的噪声压制方法。该方法在地震数据原始记录频率域剖面上采用加权中值滤波的方法自动检测可能存在的强能量干扰,并针对性地对相应频段上的噪声信号进行压制,去噪效果较为理想。但该方法的算法运行过程中涉及大量的数据计算,开发的程序需要花费大量时间才能完成一次去噪过程。提高计算效率成为该噪声压制方法推广应用的关键。高质量图像处理用途的高端图形处理器(GPU)在大规模高带宽计算方面表现出色,近年来更多地应用于高性能计算工作。CUDA并行计算开发平台帮助应用人员开发高效率计算程序,使GPU能更容易应用于高性能计算。通过分析"加权中值滤波自动检测并压制强能量干扰方法"算法实现方式,发现该算法适宜利用GPU进行并行化改造。利用CUDA并行编程技术将该算法中部分串行执行的数据计算过程改造成适合GPU计算的并行计算过程,使整个去噪方法工作效率提升3倍。GPU并行计算技术能使油气勘探数据处理过程中类似应用有效并行化,利用较小成本实现高效计算效率。 展开更多
关键词 并行编程 cuda(compute unified device architecture) 加权中值 强能量干扰 噪声压制
原文传递
基于CUDA的2D、3D刚性配准方法 被引量:2
12
作者 徐建 秦安 +2 位作者 孟晓林 陈武凡 冯前进 《中国医学物理学杂志》 CSCD 2010年第2期1721-1725,1730,共6页
目的:实时医学图像配准技术是外科手术导航系统的关键技术之一。在医学图像分析中,图像配准通常是一个非常耗时的操作,不利于临床实时性需求,本文研究实现了图像配准过程的加速。方法:为了提高配准速度,本文提出了一种基于CUDA(compute ... 目的:实时医学图像配准技术是外科手术导航系统的关键技术之一。在医学图像分析中,图像配准通常是一个非常耗时的操作,不利于临床实时性需求,本文研究实现了图像配准过程的加速。方法:为了提高配准速度,本文提出了一种基于CUDA(compute unified device architecture)编程模型的硬件加速配准新技术,采用并行的方法实现像素的坐标变换,线性插值,同时计算对应像素的灰度值残差。结果:配准误差为亚像素级别,配准速度要比基于CPU的配准快几十甚至上百倍。结论:该方法在保持配准精度不变的前提下,大大提高了刚性配准的速度。 展开更多
关键词 医学图像配准 GPU(图形处理器) cuda(统一计算设备架构)
下载PDF
基于CUDA的直升机旋翼桨叶挥舞角快速测量方法 被引量:2
13
作者 熊邦书 汪建勇 +1 位作者 黄建萍 余磊 《测控技术》 CSCD 2016年第6期30-32,41,共4页
针对基于立体视觉的直升机旋翼桨叶挥舞角测量CPU串行算法耗时多、效率不高的问题,利用图像处理单元(GPU)并行计算的优势,提出一种基于CUDA统一计算设备构架的并行处理快速算法。首先,对算法中最耗时的图像去噪、阈值分割、连通域标记... 针对基于立体视觉的直升机旋翼桨叶挥舞角测量CPU串行算法耗时多、效率不高的问题,利用图像处理单元(GPU)并行计算的优势,提出一种基于CUDA统一计算设备构架的并行处理快速算法。首先,对算法中最耗时的图像去噪、阈值分割、连通域标记三部分进行并行化设计;然后,采用多层次并行策略将大量密集运算分配到不同的图像处理单元上并行执行,利用共享内存和共享寄存器加速数据访问;最后,进行多次测量实验,结果表明该方法执行效率明显高于CPU串行方法,可满足旋翼桨叶挥舞角快速测量的要求。 展开更多
关键词 cuda 双目视觉 编码标记点 旋翼坐标系 挥舞角测量
下载PDF
CUDA平台下多核GPU高性能并行编程研究 被引量:1
14
作者 吴长茂 张聪品 +1 位作者 张慧云 王娟 《河南机电高等专科学校学报》 CAS 2011年第1期19-21,29,共4页
现代GPU拥有强大的计算能力。文中提出了利用GPU解决高性能计算的问题,包括GPU编程的方法、高性能计算问题的划分原则等。实验表明,GPU高性能计算相比多核CPU具有更高的效率。
关键词 GPU cuda 并行
下载PDF
网格环境下期权定价BSDE模型的并行实现 被引量:1
15
作者 刘辉 彭滢 +2 位作者 龚斌 代斌 魏代政 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第S1期201-204,共4页
提出了一种在CNGrid网格服务环境下解决期权定价问题的并行应用方法.这种方法基于BSDE(backward stochastic differential equation)模型.根据异构计算资源的特点,使用CUDA和MPI分别在GPU计算节点和CPU计算节点上实现并行算法,比较不同... 提出了一种在CNGrid网格服务环境下解决期权定价问题的并行应用方法.这种方法基于BSDE(backward stochastic differential equation)模型.根据异构计算资源的特点,使用CUDA和MPI分别在GPU计算节点和CPU计算节点上实现并行算法,比较不同编程在异构计算节点上的实现效率.通过监控计算节点上计算任务的负载状况,利用CNGrid所提供的计算服务,灵活地在异构计算节点上完成期权定价计算任务. 展开更多
关键词 网格 并行算法 消息传递接口 cuda BSDE 期权定价
原文传递
基于GPU加速的虚拟内窥镜手术实时冒烟仿真
16
作者 袁志勇 丁乙华 +1 位作者 张圆圆 赵俭辉 《武汉理工大学学报》 CAS CSCD 北大核心 2009年第18期55-58,共4页
采用计算流体力学建模方法提出了一种实时的动态三维冒烟仿真模型;利用定常、温度不变的不可压缩Navi-er-Stokes方程组构造冒烟仿真模型。为了满足虚拟内窥镜手术训练过程中冒烟仿真的实时性和视觉效果上逼真性的要求,利用基于CUDA+GPU... 采用计算流体力学建模方法提出了一种实时的动态三维冒烟仿真模型;利用定常、温度不变的不可压缩Navi-er-Stokes方程组构造冒烟仿真模型。为了满足虚拟内窥镜手术训练过程中冒烟仿真的实时性和视觉效果上逼真性的要求,利用基于CUDA+GPU软硬件体系结构的高性能计算平台,通过多线程的并发执行实现冒烟仿真模型的大规模并行计算,并使用基于硬件的光线跟踪算法对烟雾进行绘制。实验结果表明所述方法是有效的。 展开更多
关键词 实时动态冒烟仿真 计算流体力学 cuda(计算统一设备构架) GPU
原文传递
基于CUDA的各向异性热传导模型的图像修复
17
作者 周冰园 陈庆奎 《计算机应用研究》 CSCD 北大核心 2014年第6期1901-1905,共5页
针对文物数字图像修复处理中纹理信息缺失和计算复杂度高的问题,提出基于图像结构和不规则纹理的GPU并行修复算法。在现存研究基础上修改了热传导偏微分方程模型,在该模型设计中突出考虑图像结构和不规则纹理信息对热传导的影响,通过增... 针对文物数字图像修复处理中纹理信息缺失和计算复杂度高的问题,提出基于图像结构和不规则纹理的GPU并行修复算法。在现存研究基础上修改了热传导偏微分方程模型,在该模型设计中突出考虑图像结构和不规则纹理信息对热传导的影响,通过增加重要图像恢复信息的方式提高了修复效果;然而大量不规则纹理信息的处理降低了图像修复的效率,因此为保证算法的实时修复效果,通过GPU并行化修复过程中的雅可比迭代过程来提高数据密集计算的效率,保证图像修复的性能。实验证明,该图像修复模型进一步提高了修复效果并且增加了应用的普适性;同时与串行算法相比,计算速度提高了20倍以上。该并行图像修复方法具有较好的应用价值。 展开更多
关键词 同一设备计算架构 图像修复 结构 纹理 热传导模型 雅克比迭代法
下载PDF
基于异构平台的通量分裂格式性能研究
18
作者 梁正虹 黄俊 +2 位作者 刘志勤 陈波 杨茂 《计算机测量与控制》 2021年第2期144-149,共6页
通量分裂是在方程组条件下实现迎风特性的主要手段,为了实现典型通量分裂格式在CPU/GPU异构平台的性能分析。在NVIDIA GTX1660super上,使用统一设备计算架构(CUDA)编程模型实现一维欧拉求解器;以激波管Riemann问题为算例,对矢通量分裂格... 通量分裂是在方程组条件下实现迎风特性的主要手段,为了实现典型通量分裂格式在CPU/GPU异构平台的性能分析。在NVIDIA GTX1660super上,使用统一设备计算架构(CUDA)编程模型实现一维欧拉求解器;以激波管Riemann问题为算例,对矢通量分裂格式van leer、通量差分分裂格式Roe以及混合通量分裂AUSMPW+进行计算分析;数值结果表明,三种格式在异构计算体系能够得到合理且可用的计算结果;Roe格式激波分辨率最高且在CPU/GPU体系加速效果最好;Van Leer激波分辨率较低于Roe和AUSMPW+,计算效率高但其格式构造中存在大量判断分支,影响了加速性能;AUSMPW+格式激波分辨率与Roe相当,加速性能略好于Van Leer。 展开更多
关键词 通量分裂格式 GPU 统一设备计算架构 异构并行计算
下载PDF
基于Harr小波的动态场景全频阴影绘制算法 被引量:1
19
作者 赵沁平 车英慧 《软件学报》 EI CSCD 北大核心 2011年第8期1948-1959,共12页
针对现有的预计算辐射传递算法对三维场景限制严格、适合于低频光照环境等问题,提出了一种动态场景的全频阴影绘制算法.在预处理阶段使用球体对三维物体进行拟合,同时对光照函数和BRDF(bidirectional reflectance distribution function... 针对现有的预计算辐射传递算法对三维场景限制严格、适合于低频光照环境等问题,提出了一种动态场景的全频阴影绘制算法.在预处理阶段使用球体对三维物体进行拟合,同时对光照函数和BRDF(bidirectional reflectance distribution function)函数进行Harr小波变换;在运行时阶段利用不同基函数的优势,在像素基空间进行多个球体可见性函数的快速合并,在小波基空间进行光照函数、BRDF函数和可见性函数的三乘积分,得到最终的光照值.使用CUDA(computed unified device architecture)实现了该算法,充分利用了图形硬件的最新功能.实验结果表明,阴影绘制质量有很大的提高,可以基本达到实时绘制. 展开更多
关键词 预计算辐射传递 Harr小波 三乘积分 cuda(computed unified device architecture)
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部