期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
一种基于视觉无损压缩的雷达视频显示预处理方法 被引量:3
1
作者 杨东华 王志祥 邱晗 《南京理工大学学报》 EI CAS CSCD 北大核心 2019年第4期489-494,共6页
采用通用计算图形处理器实现软件化雷达视频显示处理是雷达终端重要的技术方向之一。雷达视频带宽的激增对软件化雷达视频显示处理提出了新的挑战,目前国内外对大带宽雷达视频的显示处理还未能给出有效的解决方法。该文分析该项技术的瓶... 采用通用计算图形处理器实现软件化雷达视频显示处理是雷达终端重要的技术方向之一。雷达视频带宽的激增对软件化雷达视频显示处理提出了新的挑战,目前国内外对大带宽雷达视频的显示处理还未能给出有效的解决方法。该文分析该项技术的瓶颈,创新性地提出了一种基于视觉无损压缩的雷达视频显示预处理方法,并进行了工程实现与验证。该预处理方法大幅降低了视频数据传输带宽和处理器资源占用率,提高了软件化视频显示处理的技术指标,提升了雷达终端的稳定性,为大带宽雷达视频的软件化显示处理提供了有效途径。 展开更多
关键词 软件化雷达终端 视觉无损压缩 通用图形处理器 游程长度编码
下载PDF
GPGPU Accelerated Fast Convolution Back-Projection for Radar Image Reconstruction
2
作者 周斌 彭应宁 +1 位作者 叶春茂 汤俊 《Tsinghua Science and Technology》 SCIE EI CAS 2011年第3期256-263,共8页
This paper describes a parallel fast convolution back-projection algorithm design for radar image reconstruction. State-of-the-art general purpose graphic processing units (GPGPU) were utilized to accelerate the pro... This paper describes a parallel fast convolution back-projection algorithm design for radar image reconstruction. State-of-the-art general purpose graphic processing units (GPGPU) were utilized to accelerate the processing. The implementation achieves much better performance than conventional processing systems, with a speedup of more than 890 times on NVIDIA Tesla C1060 supercomputing cards compared to an Intel P4 2.4 GHz CPU. 256×256 pixel images could be reconstructed within 6.3 s, which makes real-time imaging possible. Six platforms were tested and compared. The results show that the GPGPU super-computing system has great potential for radar image processing. 展开更多
关键词 convolution back projection (CBP) synthetic aperture radar (SAR) inverse synthetic aperture radar (ISAR) general purpose graphic processing units (GPGPU)
原文传递
基于GPU加速的实时视频超分辨率重建 被引量:1
3
作者 陈湘骥 韩国强 张芝源 《计算机应用》 CSCD 北大核心 2013年第12期3540-3543,共4页
基于稀疏表示的超分辨率算法的图像重建质量好,但算法复杂,现有的CPU串行执行算法无法满足视频实时处理的需要。为此提出了基于GPU加速的稀疏表示的实时视频超分辨率算法。该算法着重于优化数据并行处理流程,提高GPU资源利用率,通过设... 基于稀疏表示的超分辨率算法的图像重建质量好,但算法复杂,现有的CPU串行执行算法无法满足视频实时处理的需要。为此提出了基于GPU加速的稀疏表示的实时视频超分辨率算法。该算法着重于优化数据并行处理流程,提高GPU资源利用率,通过设置视频帧队列、提高显存访问并发率、采用主成分分析(PCA)降维、优化字典查找等手段,使算法执行速度比现有CPU串行算法提高了2个数量级,在显示分辨率为669×546的视频回放测试中达到每秒33帧。 展开更多
关键词 视频 实时 超分辨率 稀疏表示 通用计算图形处理器
下载PDF
熔盐堆堆芯流体力学计算的GPU并行方法研究 被引量:1
4
作者 胡传伟 鄂彦志 +1 位作者 邹杨 徐洪杰 《核技术》 CAS CSCD 北大核心 2017年第11期57-63,共7页
使用计算流体力学(Computational Fluid Dynamics,CFD)数值方法对熔盐堆堆芯的流动和热传导等相关物理问题进行模拟求解,需要大量的计算时间。利用图形处理器(Graphics Processing Unit,GPU)加速技术对开源CFD软件Code_Saturne进行二次... 使用计算流体力学(Computational Fluid Dynamics,CFD)数值方法对熔盐堆堆芯的流动和热传导等相关物理问题进行模拟求解,需要大量的计算时间。利用图形处理器(Graphics Processing Unit,GPU)加速技术对开源CFD软件Code_Saturne进行二次开发,研究求解熔盐堆堆芯流场的GPU并行算法。采用OpenACC语言在GPU上实现了向量运算、矩阵向量相乘等基本线性代数运算,从而实现预处理共轭梯度法(Preconditioned Conjugate Gradients,PCG)的GPU并行算法,并使用该算法求解压力状态方程。模拟了方腔驱动流模型及带下降段的熔盐堆堆芯模型的流场分布。结果表明,GPU加速后的软件与原版软件的结果一致,但计算时间更少,证明了GPU算法的正确性及有效的加速性。 展开更多
关键词 熔盐堆 计算流体力学 共轭梯度法 通用图形计算技术 Open ACC
原文传递
基于GPGPU的Lattice-Boltzmann数值模拟算法 被引量:11
5
作者 周季夫 钟诚文 +2 位作者 尹世群 解建飞 张勇 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2008年第7期912-918,共7页
对Lattice Boltzmann方法(LBM)在GPGPU下的建模和算法进行了一系列研究,使得该方法在GPU下的计算加速比提升,大大缩短计算过程的时间消耗.重新设计了GPU的计算流程,在舍弃pixel buffer离屏渲染的同时,采用最新的帧缓存对象,多重纹理、... 对Lattice Boltzmann方法(LBM)在GPGPU下的建模和算法进行了一系列研究,使得该方法在GPU下的计算加速比提升,大大缩短计算过程的时间消耗.重新设计了GPU的计算流程,在舍弃pixel buffer离屏渲染的同时,采用最新的帧缓存对象,多重纹理、多通道渲染和乒乓技术来设计一套基于方腔的LBM数值模拟程序,最终使GPU的计算时间缩短到CPU计算时间的六分之一. 展开更多
关键词 基于图形处理器的通用计算 帧缓存扩展 多重渲染目标 Lattice-Boltzmann方法 反弹边界 乒乓技术
下载PDF
基于GPGPU的生物序列快速比对 被引量:5
6
作者 马海晨 韦刚 吴百峰 《计算机工程》 CAS CSCD 2012年第4期241-244,共4页
在CPU-GPU异构平台下,提出一种高效的生物序列比对方案。该方案利用GPU的并行处理能力,通过对读延迟、写延迟、重组函数及数据传输进行优化,在OpenCL框架下重构Smith-Waterman算法,加快生物序列比对速度。实验结果证明,与CPU上传统的串... 在CPU-GPU异构平台下,提出一种高效的生物序列比对方案。该方案利用GPU的并行处理能力,通过对读延迟、写延迟、重组函数及数据传输进行优化,在OpenCL框架下重构Smith-Waterman算法,加快生物序列比对速度。实验结果证明,与CPU上传统的串行算法相比,该算法最高可获得约100倍的性能提升。 展开更多
关键词 生物信息学 序列比对 通用图形处理器 SMITH-WATERMAN算法 OpenCL框架
下载PDF
并行时空处理模型下的快速N-body算法 被引量:3
7
作者 王伟 曾栩鸿 +2 位作者 王福焕 傅丽丽 曾国荪 《计算机科学与探索》 CSCD 2011年第11期1006-1013,共8页
图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的... 图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的应用程序接口(application programming interface,API),便于程序员发挥GPU的并行计算能力。采用图形硬件进行加速计算,通过一种新的GPU处理模型——并行时间空间模型,对现有GPU上的N-body实现进行了分析,从而提出了一种新的GPU上快速仿真N-body问题的算法,并在AMD的HD Radeon 5850上进行了实现。实验结果表明,相对于CPU上的实现,获得了400倍左右的加速;相对于已有GPU上的实现,也获得了2至5倍的加速。 展开更多
关键词 N-BODY 并行计算 通用图形处理器(GPGPU) 时间空间模型
下载PDF
基于GPGPU和CUDA的高速AES算法的实现和优化 被引量:3
8
作者 顾青 高能 +1 位作者 包珍珍 向继 《中国科学院研究生院学报》 CAS CSCD 北大核心 2011年第6期776-785,共10页
随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(comput... 随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(compute unified devicearchitecture,统一计算架构)的出现更加速了GPGPU应用面的扩张.基于GPGPU和CUDA技术对AES算法的实现进行加速,得到整体吞吐量6~7Gbit/s的速度.如果不考虑数据加载时间,对于1MB以上的输入规模,吞吐量可以达到20Gbit/s. 展开更多
关键词 通用图像处理器 统一计算架构 AES算法 并行计算
下载PDF
新的图像几何矩快速算法 被引量:2
9
作者 高月芳 冯志炜 +1 位作者 徐东风 田绪红 《小型微型计算机系统》 CSCD 北大核心 2010年第7期1448-1451,共4页
矩技术作为一种有效的图像描述方法,在图像分析方面有着重要应用,但由于涉及大量计算,在一定程度上制约其应用.提出一种新的基于GPU的快速计算方法,它首先将图像加载成纹理,然后在像素着色器中利用GPU内核同时对多个像素进行处理,快速... 矩技术作为一种有效的图像描述方法,在图像分析方面有着重要应用,但由于涉及大量计算,在一定程度上制约其应用.提出一种新的基于GPU的快速计算方法,它首先将图像加载成纹理,然后在像素着色器中利用GPU内核同时对多个像素进行处理,快速计算所需矩值.实验结果表明,与当前的直接法和对称核快速算法相比,文中提出的算法可有效节省计算时间,尤其在图像尺寸较大及所使用的矩的阶数较高的情况下,计算性能更优. 展开更多
关键词 几何矩 通用图形处理器 快速计算 图像处理
下载PDF
面向CPU-GPU架构的源到源自动映射方法 被引量:2
10
作者 朱正东 刘袁 +3 位作者 魏洪昌 颜康 王寅峰 董小社 《计算机工程与应用》 CSCD 北大核心 2015年第21期41-47,共7页
针对GPU上应用开发移植困难的问题,提出了一种串行计算源程序到并行计算源程序的映射方法。该方法从串行源程序中获得可并行化循环的层次信息,建立循环体结构与GPU线程的对应关系,生成GPU端核心函数代码;根据变量引用读写属性生成CPU端... 针对GPU上应用开发移植困难的问题,提出了一种串行计算源程序到并行计算源程序的映射方法。该方法从串行源程序中获得可并行化循环的层次信息,建立循环体结构与GPU线程的对应关系,生成GPU端核心函数代码;根据变量引用读写属性生成CPU端控制代码。基于该方法实现了一个编译原型系统,完成了C语言源程序到CUDA源程序的自动生成。对原型系统在功能和性能方面的测试结果表明,该系统生成的CUDA源程序与C语言源程序在功能上一致,其性能有显著提高,在一定程度上解决了计算密集型应用向CPU-GPU异构多核系统移植困难的问题。 展开更多
关键词 通用计算图形处理器(GPGPU) 统一计算架构(CUDA) 自动映射 源到源编译
下载PDF
面向GPU的循环合并 被引量:1
11
作者 杨扬 崔慧敏 冯晓兵 《高技术通讯》 CAS CSCD 北大核心 2013年第3期257-262,共6页
针对现有的将C或Fortran程序映射到通用图形处理单元(GPU)的自动转换工具主要关注将单个循环生成一个独立的GPU内核,从而阻碍了对循环间数据重用的利用的问题,提出一种新的面向GPU的循环合并的代码变换方法,该方法通过循环分块(strip mi... 针对现有的将C或Fortran程序映射到通用图形处理单元(GPU)的自动转换工具主要关注将单个循环生成一个独立的GPU内核,从而阻碍了对循环间数据重用的利用的问题,提出一种新的面向GPU的循环合并的代码变换方法,该方法通过循环分块(strip mining)和冗余计算等手段达到消除迭代间数据依赖的目的,并可充分利用GPU片上的共享内存进行线程间数据交换,从而将此类程序高效地映射到GPU上。通过典型程序在GPU上的实验表明,该新方法由于能够减少对全局内存的访问,带来了最多高达1.96倍的加速比。 展开更多
关键词 通用图形处理单元(GPU) 循环合并 并行 CUDA 循环间数据重用
下载PDF
一种图像全局显著区域快速检测算法
12
作者 何家荣 田绪红 高月芳 《现代计算机(中旬刊)》 2013年第4期26-30,共5页
图像显著性区域检测是计算机视觉的重要一环,并广泛应用于图像分割、目标识别和自适应压缩等领域。在实际应用中,由于全局显著性检测算法涉及大量计算,在一定程度上制约其应用。提出一种基于GPU的快速计算方法,它首先将图像数据加载到G... 图像显著性区域检测是计算机视觉的重要一环,并广泛应用于图像分割、目标识别和自适应压缩等领域。在实际应用中,由于全局显著性检测算法涉及大量计算,在一定程度上制约其应用。提出一种基于GPU的快速计算方法,它首先将图像数据加载到GPU,然后利用GPU内核同时对多个区域进行检测,快速计算各个区域的显著性值。实验结果表明,所提出的算法可有效节省计算时间,尤其在图像尺寸较大的情况下,计算性能良好。 展开更多
关键词 图像显著性检测 通用图形处理器 快速计算 图像处理 计算机视觉
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部