期刊文献+
共找到1,299篇文章
< 1 2 65 >
每页显示 20 50 100
基于GPU并行的重力、重力梯度三维正演快速计算及反演策略 被引量:45
1
作者 陈召曦 孟小红 +1 位作者 郭良辉 刘国峰 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2012年第12期4069-4077,共9页
利用NVIDIA CUDA编程平台,实现了基于GPU并行的重力、重力梯度三维快速正演计算方法.采用当前在重力数据约束反演或联合反演中流行的物性模型(密度大小不同、规则排列的长方体单元)作为地下剖分单元,对任意三维复杂模型体均可用很多物... 利用NVIDIA CUDA编程平台,实现了基于GPU并行的重力、重力梯度三维快速正演计算方法.采用当前在重力数据约束反演或联合反演中流行的物性模型(密度大小不同、规则排列的长方体单元)作为地下剖分单元,对任意三维复杂模型体均可用很多物性模型进行组合近似,利用解析方法计算出所有物性模型在计算点的异常值并累加求和,得到整个模型体在某一计算点引起的重力(或重力梯度)值.针对精细的复杂模型体产生的问题,采用GPU并行计算技术,主要包括线程有效索引与优化的并行归约技术进行高效计算.在显卡型号为NVIDIAQuadro 2000相对于单线程CPU程序,重力和重力梯度Uxx、Uxy正演计算可以分别达到60与50倍的加速.本文还讨论了GPU并行计算在两种反演方法中的策略,为快速三维反演技术提供了借鉴. 展开更多
关键词 GPU cuda 正演计算 重力 重力梯度 加速比
下载PDF
CUDA并行计算的应用研究 被引量:43
2
作者 董荦 葛万成 陈康力 《信息技术》 2010年第4期11-15,共5页
统一设备架构(CUDA)是NVIDIA公司提出的一个基于GPU通用计算的开发环境,它针对GPU多处理单元的特性,通过并行计算提高大规模运算的速度。根据CUDA技术的特点,提出了基于CUDA的并行图像锐化、中值滤波和字符搜索算法,并论述其关键技术和... 统一设备架构(CUDA)是NVIDIA公司提出的一个基于GPU通用计算的开发环境,它针对GPU多处理单元的特性,通过并行计算提高大规模运算的速度。根据CUDA技术的特点,提出了基于CUDA的并行图像锐化、中值滤波和字符搜索算法,并论述其关键技术和基本执行流程。试验结果表明,提出的方法相对于CPU方法在运算速度上有不同程度的提高和下降。这同时体现了CUDA的优势和局限性,为其更复杂的应用提供了参考和依据。 展开更多
关键词 图形处理器 统一计算设备构架 图像锐化 中值滤波 并行计算
下载PDF
基于GPGPU的并行影像匹配算法 被引量:44
3
作者 肖汉 张祖勋 《测绘学报》 EI CSCD 北大核心 2010年第1期46-51,共6页
提出一种基于GPGPU的CUDA架构快速影像匹配并行算法,它能够在SIMT模式下完成高性能并行计算。并行算法根据GPU的并行结构和硬件特点,采用执行配置技术、高速存储技术和全局存储技术三种加速技术,优化数据存储结构,提高数据访问效率。实... 提出一种基于GPGPU的CUDA架构快速影像匹配并行算法,它能够在SIMT模式下完成高性能并行计算。并行算法根据GPU的并行结构和硬件特点,采用执行配置技术、高速存储技术和全局存储技术三种加速技术,优化数据存储结构,提高数据访问效率。实验结果表明,并行算法充分利用GPU的并行处理能力,在处理1280×1024分辨率的8位灰度图像时可达到最高多处理器warp占有率,速度是基于CPU实现的7倍。CUDA在高运算强度数据处理中呈现出的实时处理能力和计算能力,为进一步加速影像匹配性能和GPU通用计算提供了新的方法和思路。 展开更多
关键词 细粒度并行计算 图形处理器的通用计算 统一计算设备架构 影像匹配 单指令多线程
下载PDF
完全基于边缘信息的快速图像分割算法 被引量:36
4
作者 钮圣虓 王盛 +1 位作者 杨晶晶 陈更生 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2012年第11期1410-1419,共10页
为快速准确地进行图像分割和对象提取,达到图像实时处理的要求,提出一种完全基于边缘信息、具有良好并行计算特性的图像分割和对象提取算法.首先对经典Canny算子边缘检测进行改进、引入了断点检测和递归可控的低阈值边缘追踪算法,得到... 为快速准确地进行图像分割和对象提取,达到图像实时处理的要求,提出一种完全基于边缘信息、具有良好并行计算特性的图像分割和对象提取算法.首先对经典Canny算子边缘检测进行改进、引入了断点检测和递归可控的低阈值边缘追踪算法,得到图像的原始二值边缘图;然后采用基于断点的边缘连接算法得到待提取对象的完整闭合边缘;最后提出四向扫描区域填充算法从边缘图中完整地提取出有意义的对象.实验结果表明,文中算法不仅可以准确地处理图像中的各类复杂边缘、获得良好的图像分割效果,同时具有优秀的并行计算特性,可以以并行方式、基于GPU实现完全实时的图像处理. 展开更多
关键词 cuda CANNY 断点检测 断点追踪 边缘连接 区域填充 四向扫描区域填充算法 图像分割
下载PDF
图形处理器CUDA编程模型的应用研究 被引量:25
5
作者 钱悦 《计算机与数字工程》 2008年第12期177-180,共4页
由于图形处理器(GPU)最近几年的快速发展,基于GPU的通用计算已经成为一个新的研究领域。通过对nVIDIA公司最新的通用计算GPU编程模型—CUDA的研究,阐明了CUDA应用程序的结构和它本身特征,讨论和分析了CUDA编程方法与普通CPU编程的差别,... 由于图形处理器(GPU)最近几年的快速发展,基于GPU的通用计算已经成为一个新的研究领域。通过对nVIDIA公司最新的通用计算GPU编程模型—CUDA的研究,阐明了CUDA应用程序的结构和它本身特征,讨论和分析了CUDA编程方法与普通CPU编程的差别,并以H.264数字视频编解码中,以消除宏块边界锯齿为主要目的的去块滤波模块为实例,详细描述了CUDA编程的方法和特点,最后通过与CPU编程实现的去块滤波模块的性能比较,揭示了CUDA在计算能力上的优势,为进一步优化编解码器性能和GPU通用计算提供了新的方法和思路。 展开更多
关键词 图形处理器 通用计算 计算机统一设备架构 去块滤波
下载PDF
基于GPU的快速Sobel边缘检测算法 被引量:27
6
作者 左颢睿 张启衡 +1 位作者 徐勇 赵汝进 《光电工程》 CAS CSCD 北大核心 2009年第1期8-12,共5页
传统的Soble边缘检测算法的优化和实现都是针对常用处理器(CPU、DSP和FPGA等)提出的,难以应用在图像处理器(GPU)上。本文提出了一种基于NVIDIA公司CUDA架构图形处理器(GPU)的快速Sobel边缘检测算法。快速算法根据GPU的并行结构和硬件特... 传统的Soble边缘检测算法的优化和实现都是针对常用处理器(CPU、DSP和FPGA等)提出的,难以应用在图像处理器(GPU)上。本文提出了一种基于NVIDIA公司CUDA架构图形处理器(GPU)的快速Sobel边缘检测算法。快速算法根据GPU的并行结构和硬件特点,采用了纹理存储技术、多点访问技术和对称计算技术三种加速技术,优化了数据存储结构,提高了数据访问效率,降低了算法复杂度。实验结果表明,快速算法充分利用了GPU的并行处理能力,在处理4096×4096分辨力的8位灰度图像时速度可达190fps,是基于CPU实现的122倍。 展开更多
关键词 GPU cuda SOBEL 边缘检测
下载PDF
基于CUDA的高分辨率数字视频图像配准快速实现 被引量:27
7
作者 闫钧华 杭谊青 +1 位作者 许俊峰 储林臻 《仪器仪表学报》 EI CAS CSCD 北大核心 2014年第2期380-386,共7页
高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然... 高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然后基于CUDA并行快速实现高分辨率数字视频图像配准。实验结果表明:基于SIFT图像配准算法在CPU与CUDA上实现,在配准效果相近时,在CUDA上实现的处理速度比在CPU上实现的处理速度提高了100多倍,并且随着图像像素数的增加加速比有显著提高。 展开更多
关键词 图像配准 高分辨率 数字视频 cuda
下载PDF
基于CUDA的并行K-means聚类图像分割算法优化 被引量:29
8
作者 霍迎秋 秦仁波 +2 位作者 邢彩燕 陈曦 方勇 《农业机械学报》 EI CAS CSCD 北大核心 2014年第11期47-53,74,共8页
为提高K-means聚类算法的运算速度,基于CUDA架构提出一种分块、并行的K-means算法,并采用'合并访问'、'多级规约求和'、'负载均衡'和'指令优化'等策略优化并行算法。实验结果表明,并行K-means算法的分... 为提高K-means聚类算法的运算速度,基于CUDA架构提出一种分块、并行的K-means算法,并采用'合并访问'、'多级规约求和'、'负载均衡'和'指令优化'等策略优化并行算法。实验结果表明,并行K-means算法的分割效果与串行K-means算法相同,但运行速度得到了极大的提高,加速比最高达到560,很好地解决了农业工程实际中由于分割算法带来的瓶颈问题,能够极大地提高农业劳动生产率。 展开更多
关键词 图像分割 聚类分割算法 统一计算架构 图形处理器并行优化
下载PDF
遥感影像正射纠正的GPU-CPU协同处理研究 被引量:28
9
作者 杨靖宇 张永生 +1 位作者 李正国 龚辉 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2011年第9期1043-1046,共4页
提出了一种基于CUDA的遥感影像正射纠正GPU-CPU协同处理方法,以实现重采样操作的GPU细粒度并行化。根据GPU的并行结构和硬件特点,采用执行配置优化技术提高warp占有率,利用共享存储器优化减少对效率低下的全局存储器中坐标变换系数的重... 提出了一种基于CUDA的遥感影像正射纠正GPU-CPU协同处理方法,以实现重采样操作的GPU细粒度并行化。根据GPU的并行结构和硬件特点,采用执行配置优化技术提高warp占有率,利用共享存储器优化减少对效率低下的全局存储器中坐标变换系数的重复访问,通过纹理存储器代替全局存储器优化对原始影像数据的访问。实验结果表明,并行算法能够充分发挥GPU的并行处理能力,利用GeForce 9500 GT显卡,对大小为6 000像素×6 000像素的全色影像进行多项式纠正对比实验,最邻近灰度内插重采样和双线性灰度内插重采样的最终加速比分别能够达到8倍和10倍以上。 展开更多
关键词 正射纠正 图形处理器 统一计算设备架构 细粒度并行计算
原文传递
地球物理高性能计算的新选择:GPU计算技术 被引量:23
10
作者 赵改善 《勘探地球物理进展》 2007年第5期399-404,共6页
随着地球物理对高性能计算需求的不断提升,集群系统节点规模不断提高,一方面大大提高了系统建设、运行、维护、管理及应用软件开发的复杂性,另一方面在提高系统总体性能方面也受到越来越大的制约。随着微电子技术的发展,GPU计算技术与... 随着地球物理对高性能计算需求的不断提升,集群系统节点规模不断提高,一方面大大提高了系统建设、运行、维护、管理及应用软件开发的复杂性,另一方面在提高系统总体性能方面也受到越来越大的制约。随着微电子技术的发展,GPU计算技术与可重构计算技术,将有可能替代集群计算技术成为高性能计算的主流技术。充分利用GPU并行处理能力,可以将GPU作为计算加速器为基于CPU的通用计算平台提供高性能的科学计算能力补充,这样可以在现有通用计算平台的基础上实现高性价比的高性能计算解决方案。GPU计算平台上的应用软件开发比可重构计算平台上的应用软件开发要容易得多,这一点使得GPU计算技术可以更早地广泛应用于地球物理领域。GPU计算产品已达到很高的性能,相应的软件开发环境也已推出,对于GPU计算平台应用软件开发技术的研究将使得GPU计算技术在不远的将来广泛地应用于地球物理计算中。 展开更多
关键词 GPU计算 高性能计算 地球物理 cuda 流编程模式
下载PDF
三维交错网格有限差分地震波模拟的GPU集群实现 被引量:21
11
作者 龙桂华 赵宇波 +2 位作者 李小凡 高琴 王周 《地球物理学进展》 CSCD 北大核心 2011年第6期1938-1949,共12页
有限差分实现简单、速度快,作为地震波场模拟一种有效数值方法,被广泛用于正演计算密集的波形反演和逆时偏移中.三维地震波正演模拟计算量大,一直以来制约着三维叠前逆时偏移和反演的工业化应用,GPU通用计算技术的产生及其内在的数据并... 有限差分实现简单、速度快,作为地震波场模拟一种有效数值方法,被广泛用于正演计算密集的波形反演和逆时偏移中.三维地震波正演模拟计算量大,一直以来制约着三维叠前逆时偏移和反演的工业化应用,GPU通用计算技术的产生及其内在的数据并行性有望改变这一现状.本文通过分析三维交错网格有限差分方法在GPU上的实施,利用片内共享存储器实现了三维地震波数值模拟的高效算法,取得了较单核CPU快79x~108x的加速比;通过区域分解技术将单GPU上不能计算的地质体模型沿Z轴方向进行粗粒度分解,采用消息传递接口交换边界数据,运用MPI+CUDA的方式实现了大尺度三维地震波场模拟,并着重分析了影响GPU并行计算效率的一些关键因素.大尺度三维地震波场模拟的加速实现,为促进叠前逆时偏移和波形反演技术的工业化转化提供了可能,因此具有重要的研究意义. 展开更多
关键词 GPU 交错网格 有限差分 图形处理器 cuda
下载PDF
GPU-CA模型下的溃坝洪水演进实时模拟与分析 被引量:21
12
作者 尹灵芝 朱军 +3 位作者 王金宏 李毅 徐柱 曹振宇 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2015年第8期1123-1129,1136,共8页
基于元胞自动机(CA)的局部并行计算特性和统一计算设备架构(CUDA)并行计算架构,提出了GPU-CA的溃坝洪水演进计算模型,重点探讨了溃坝洪水演进元胞自动机模型、GPU模型映射、计算优化、CPU/GPU协同的溃坝洪水演进模拟与分析等关键问题,... 基于元胞自动机(CA)的局部并行计算特性和统一计算设备架构(CUDA)并行计算架构,提出了GPU-CA的溃坝洪水演进计算模型,重点探讨了溃坝洪水演进元胞自动机模型、GPU模型映射、计算优化、CPU/GPU协同的溃坝洪水演进模拟与分析等关键问题,研发了原型系统,并选择了案例进行初步试验。试验结果表明,在保证溃坝洪水演进模拟结果有效性的情况下,与基于CPU-CA串行计算模式相比,基于GPUCA的溃坝洪水演进模型计算可提高计算效率,加速比随着元胞格网分辨率的提升而增加,当元胞格网的大小为10m时,模型计算效率的加速比可以达到15.9倍,可支持实时溃坝洪水演进模拟分析与风险评估。 展开更多
关键词 溃坝洪水演进 元胞自动机 并行计算 cuda 模拟分析
原文传递
CUDA高性能计算并行编程 被引量:15
13
作者 李波 赵华成 张敏芳 《微型电脑应用》 2009年第9期55-57,64,共4页
针对GPU的计算处理能力,提出了用GPU解决高性能计算的问题,其中包括详细描述CUDA编程的方法、优化处理原则等。采用了对比实验,结果表明了CUDA在并行计算上有很强的能力,为GPU的通用计算提供了新的方法和思路。
关键词 GPU cuda 性能优化
下载PDF
CUDA并行程序的内存访问优化技术研究 被引量:17
14
作者 邹岩 杨志义 张凯龙 《计算机测量与控制》 CSCD 北大核心 2009年第12期2504-2506,共3页
对统一计算设备架构CUDA技术进行了研究,分析了CUDA体系结构及其内存访问机制的显著特点,总结了CUDA并行程序常见的内存访问问题,针对全局内存的非对齐访问和共享内存的访问冲突,提出了相应的内存访问优化策略;最后,利用直方图均衡算法... 对统一计算设备架构CUDA技术进行了研究,分析了CUDA体系结构及其内存访问机制的显著特点,总结了CUDA并行程序常见的内存访问问题,针对全局内存的非对齐访问和共享内存的访问冲突,提出了相应的内存访问优化策略;最后,利用直方图均衡算法对此优化技术进行了测试,对比了优化前后的程序执行时间;实验结果表明,利用此优化技术可以大大缩短CUDA程序的执行时间,并且图像像素越大,优化效果越好。 展开更多
关键词 cuda 并行计算 优化技术
下载PDF
基于卷积神经网络(CNN)和CUDA加速的实时视频人脸识别 被引量:21
15
作者 孔英会 王之涵 车辚辚 《科学技术与工程》 北大核心 2016年第35期96-100,107,共6页
为了兼顾视频人脸识别中识别准确率和实时性,提出了基于卷积神经网络(CNN)和CUDA加速的实时视频人脸识别方法。构建了一个6层结构的CNN人脸识别网络,在视频帧中通过Adaboost算法检测到的人脸输入所构建的CNN中进行视频人脸识别,结合CUD... 为了兼顾视频人脸识别中识别准确率和实时性,提出了基于卷积神经网络(CNN)和CUDA加速的实时视频人脸识别方法。构建了一个6层结构的CNN人脸识别网络,在视频帧中通过Adaboost算法检测到的人脸输入所构建的CNN中进行视频人脸识别,结合CUDA并行计算架构,对算法进行加速。此外为了更适用于实际视频监控情况,通过对CNN网络结构末尾Softmax分类器的分类结果进行多级判决引入了开集人脸识别功能。从多个角度对该方法进行了实验验证,结果证明,此方法可满足识别准确率和实时性要求,同时对于视频中人脸姿态变化、光照变化、距离远近等都具有良好的鲁棒性。 展开更多
关键词 卷积神经网络 识别准确率 统一计算设备 实时性 鲁棒性
下载PDF
基于CUDA的高速并行小波算法及其在电力系统谐波分析中的应用 被引量:19
16
作者 韩志伟 刘志刚 +1 位作者 鲁晓帆 周登登 《电力自动化设备》 EI CSCD 北大核心 2010年第1期98-101,105,共5页
针对小波分解计算速度慢、实际工程应用少的问题,采用图形处理器(GPU)作为计算平台,提出一种基于计算统一设备架构(CUDA)的细粒度高速并行小波分解算法。通过分析小波Mallat算法的并行性,并考虑GPU单个处理单元计算能力相对较弱的特点及... 针对小波分解计算速度慢、实际工程应用少的问题,采用图形处理器(GPU)作为计算平台,提出一种基于计算统一设备架构(CUDA)的细粒度高速并行小波分解算法。通过分析小波Mallat算法的并行性,并考虑GPU单个处理单元计算能力相对较弱的特点及CUDA的多层式存储器结构、多层式线程组织结构和单指令流多线程流(SIMT)体系结构,采用数据分组及轻量级线程任务分解的方式,提出了适合CUDA程序设计模型的高速并行小波分解算法,并将其用于电力系统谐波分析。实验证明,该算法相对于CPU串行小波分解和Matlab engine小波分解的计算耗时,最高可分别达到26倍和65倍的速度提升,且算法具有线性加速能力。 展开更多
关键词 电力系统 并行小波算法 计算统一设备架构 图形处理器 谐波分析
下载PDF
基于线程池的GPU任务并行计算模式研究 被引量:21
17
作者 李涛 董前琨 +3 位作者 张帅 孔令晏 康宏 杨愚鲁 《计算机学报》 EI CSCD 北大核心 2018年第10期2175-2192,共18页
GPU已经成为具有高并发高内存带宽的通用协处理器,但是GPU与CPU在体系结构和编程模型上存在很大差异,导致CPU-GPU异构计算系统的编程复杂度提高,即使采用统一计算设备架构(CUDA)提供的kernel并发技术和多流技术也较难充分控制和利用GPU... GPU已经成为具有高并发高内存带宽的通用协处理器,但是GPU与CPU在体系结构和编程模型上存在很大差异,导致CPU-GPU异构计算系统的编程复杂度提高,即使采用统一计算设备架构(CUDA)提供的kernel并发技术和多流技术也较难充分控制和利用GPU上的计算资源,难以有效地处理不规则的并行应用问题.为从体系结构角度探索GPU硬件支持的页锁定内存和统一虚拟地址空间等特征,该文提出了CPU辅助任务调度管理下的基于线程池技术的GPU任务并行计算模型CAGTP,实现了CPU-GPU异构计算系统上的共享内存式程序设计.提出并设计了CPU端的任务队列、计算线程块级任务调度器、任务槽和GPU端的任务复用kernel函数等机制,实现了CPU与GPU间的高效细粒度任务交互,避免了原生CUDA程序中多次启停kernel函数的开销,有效地支持了GPU上的细粒度不规则并行任务计算,而且利用模型API接口函数能够降低CPU-GPU异构计算系统的编程难度.实验结果表明,CAGTP模型中任务调度的开销是kernel函数调用的5%,有效提升了通用矩阵乘、乔列斯基分解和K均值、T近邻等典型线性代数和机器学习算法的计算性能;CAGTP模型易于扩展使用多块GPU,且在性能差异较大的多个GPU之间达到负载均衡,能够高效求解混合任务和具有不规则并行性的应用问题. 展开更多
关键词 异构计算系统 统一计算设备架构 线程池 任务并行 任务复用函数
下载PDF
城市二维内涝模型的GPU并行方法 被引量:18
18
作者 向小华 陈颖悟 +3 位作者 吴晓玲 李超 王志伟 康爱卿 《河海大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第6期528-533,共6页
针对二维水动力模型应用于城市内涝模拟时,在大尺度区域或精细分辨率情形下运行耗时过长的问题,通过耦合SWMM模型和LISFLOOD-FP模型构建城市内涝模型,采用GPU的并行计算技术加速城市二维内涝模型。以盐城响水县城区的内涝模拟为例,对并... 针对二维水动力模型应用于城市内涝模拟时,在大尺度区域或精细分辨率情形下运行耗时过长的问题,通过耦合SWMM模型和LISFLOOD-FP模型构建城市内涝模型,采用GPU的并行计算技术加速城市二维内涝模型。以盐城响水县城区的内涝模拟为例,对并行模型的效率进行分析,结果表明,基于GPU的并行计算技术可以显著提升模型运行效率,在5 m分辨率下能够8 min内模拟12 h的内涝事件,可用于突发内涝事件下的快速响应;并行模型的加速效果在更高的空间分辨率下表现更明显,在2 m分辨率下取得最高10.86倍的加速比;要最大化发挥GPU计算效率,首先需要单步长有较大的计算量,其次是要尽量减少与GPU的数据频繁传输导致的额外开销。 展开更多
关键词 城市二维内涝模型 GPU加速 cuda 加速比 网格分辨率
下载PDF
基于CUDA的高效并行遥感影像处理 被引量:17
19
作者 许雪贵 张清 《地理空间信息》 2011年第6期47-54,4,共8页
近年来,随着空间遥感技术的发展,使得遥感影像数据呈几何级数增长,遥感影像的处理面临数据量大、密集度高、计算复杂度高和运算量大等问题。在分析最新GPU(图形处理单元)的并行架构和统一计算设备架构(CUDA)灵活的可编程性的基础上,提... 近年来,随着空间遥感技术的发展,使得遥感影像数据呈几何级数增长,遥感影像的处理面临数据量大、密集度高、计算复杂度高和运算量大等问题。在分析最新GPU(图形处理单元)的并行架构和统一计算设备架构(CUDA)灵活的可编程性的基础上,提出了一种基于CUDA的遥感影像的高效处理方法,以遥感影像处理中常用的快速傅里叶变换、边缘检测和模板匹配3种方法为例,详述了基于CUDA的高效并行处理过程,且对不同大小的实际影像进行了实验。实验结果表明,与CPU计算相比,利用CUDA计算能够获得高达10到40倍的加速比,大大的提升了对遥感影像的处理能力。 展开更多
关键词 GPU cuda 遥感影像 并行处理
下载PDF
复杂多相流动分子动力学模拟在GPU上的实现 被引量:17
20
作者 陈飞国 葛蔚 李静海 《中国科学(B辑)》 CSCD 北大核心 2008年第12期1120-1128,共9页
利用CUDA(Compute Unified Device Architecture)技术进行了图形处理器(GPU)上的分子动力学(MD)模拟.在一片TeslaC870上,其速度20~60倍于Intel Xeon 5430 CPU之单核,最高可达150 Gflops.通过方腔流及颗粒一气泡接触等实例初... 利用CUDA(Compute Unified Device Architecture)技术进行了图形处理器(GPU)上的分子动力学(MD)模拟.在一片TeslaC870上,其速度20~60倍于Intel Xeon 5430 CPU之单核,最高可达150 Gflops.通过方腔流及颗粒一气泡接触等实例初步展示了此方式从微观上模拟介观行为的能力. 展开更多
关键词 多相流动 分子动力学 cuda GPU 并行计算
原文传递
上一页 1 2 65 下一页 到第
使用帮助 返回顶部