期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
一种高图像质量的虚拟视点绘制方法及GPU加速 被引量:6
1
作者 陈璐瑶 陈思洁 +1 位作者 岑宽 朱威 《小型微型计算机系统》 CSCD 北大核心 2020年第10期2212-2218,共7页
自由视点视频允许用户自由选择观看视角,给人带来传统视频无法比拟的交互式视觉体验.本文针对自由视点视频实时显示应用,提出了一种高图像质量的虚拟视点绘制方法,并对其进行GPU加速.首先,将参考视点深度图向前映射得到虚拟视点深度图,... 自由视点视频允许用户自由选择观看视角,给人带来传统视频无法比拟的交互式视觉体验.本文针对自由视点视频实时显示应用,提出了一种高图像质量的虚拟视点绘制方法,并对其进行GPU加速.首先,将参考视点深度图向前映射得到虚拟视点深度图,再对该深度图进行中值滤波以减少小空洞;然后对滤波后的深度图进行反向映射得到初始的虚拟视点彩色图像;接着对空洞掩模图进行基于边界检测的膨胀处理,以消除虚假边缘,并融合经过亮度校正后的两幅虚拟视点图像,以填充大空洞;最后采用考虑深度的插值方法填补剩余的空洞,提升虚拟视点的图像质量.此外,本文进一步采用CUDA编程技术,将虚拟视点绘制的主要计算都放在GPU内进行,减少CPU和GPU之间的数据拷贝,并在每个计算环节为每个像素单独分配线程,实现像素级的并行处理.实验结果表明,本文方法的主客观图像质量优于现有方法,并且经过GPU加速之后,运行速度达到实时处理的要求. 展开更多
关键词 自由视点视频 虚拟视点绘制 cuda编程 GPU加速
下载PDF
分布动载荷识别的并行算法研究 被引量:5
2
作者 殷海涛 姜金辉 +1 位作者 张方 侯友政 《国外电子测量技术》 2012年第8期21-25,共5页
引入并行算法用于求解分布动载荷识别,以改善串行算法造成的大规模数学计算带来的高耗时和内存不足的问题。以一维分布动载荷识别频域法为例,利用C/C++语言编写CUDA并行计算程序,实现了一维分布动载荷识别的并行计算,通过算例证明了并... 引入并行算法用于求解分布动载荷识别,以改善串行算法造成的大规模数学计算带来的高耗时和内存不足的问题。以一维分布动载荷识别频域法为例,利用C/C++语言编写CUDA并行计算程序,实现了一维分布动载荷识别的并行计算,通过算例证明了并行计算的准确性和高效。为提高动载荷识别中的效率提供了新的思路。 展开更多
关键词 并行算法 分布动载荷识别 高效 cuda编程
下载PDF
基于CUDA和卡尔曼预测的实时电子稳像方法 被引量:4
3
作者 朱振伍 何凯 王新磊 《吉林大学学报(信息科学版)》 CAS 2015年第1期45-51,共7页
针对传统电子稳像方法无法实现视频的实时处理的问题,提出以SURF(Speed-Up Robust Features)配准算法为基础,基于CUDA(Compute Unified Device Architecture)编程实现算法的加速,并利用卡尔曼预测器进行实时预测。算法利用CUDA并行编程... 针对传统电子稳像方法无法实现视频的实时处理的问题,提出以SURF(Speed-Up Robust Features)配准算法为基础,基于CUDA(Compute Unified Device Architecture)编程实现算法的加速,并利用卡尔曼预测器进行实时预测。算法利用CUDA并行编程实现帧间特征点的提取和配准,获得帧间运动矢量;利用卡尔曼预测器获得稳定后的运动矢量,实现对当前帧的运动矢量的补偿,以达到实时稳像的目的。仿真实验结果表明,该方法可有效去除视频帧间的抖动,稳像效果良好,实现了视频的实时处理。 展开更多
关键词 电子稳像 cuda编程 SURF图像配准 卡尔曼预测
下载PDF
CUDA编程模型 被引量:3
4
作者 吴焰斌 《科技风》 2009年第3期63-64,共2页
CUDA表示Compute Unified Device Architecture(统一计算设备架构),是NVIDIA为自家的GPU编写的一套编译器及相关的库文件。使用CUDA可以发挥显卡的大规模并行计算能力。CUDA采用C语言作为编程语言提供大量的高性能计算指令开发能力,使... CUDA表示Compute Unified Device Architecture(统一计算设备架构),是NVIDIA为自家的GPU编写的一套编译器及相关的库文件。使用CUDA可以发挥显卡的大规模并行计算能力。CUDA采用C语言作为编程语言提供大量的高性能计算指令开发能力,使开发者能够在GPU的强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案。 展开更多
关键词 cuda编程 线程体系 编程模型
下载PDF
GPU提速叠前时间体偏移技术 被引量:3
5
作者 张慧宇 刘路佳 +2 位作者 张兵 刘伟峰 周李军 《物探化探计算技术》 CAS CSCD 2011年第5期568-571,466,共4页
为了进一步提高叠前时间体偏移的计算效率,实现了在GPU\CPU协同并行计算模式下Kirchhoff叠前时间体偏移技术,并进行优化。经在Nvida Tesla C1060 GPU上的测试表明,GPU(Graphic Processing Unit)的处理速度是CPU(单核)的四十倍左右。同... 为了进一步提高叠前时间体偏移的计算效率,实现了在GPU\CPU协同并行计算模式下Kirchhoff叠前时间体偏移技术,并进行优化。经在Nvida Tesla C1060 GPU上的测试表明,GPU(Graphic Processing Unit)的处理速度是CPU(单核)的四十倍左右。同时表明,CUDA(Com-pute Unified Device Architectare)编程为CPU向GPU的转化提供了一个较为方便的语言环境。 展开更多
关键词 cuda编程 GPU计算 Kirchhoff叠前时间体偏移 并行计算
下载PDF
一种跨平台的并行编程框架设计与实现 被引量:1
6
作者 李婷 徐云 +1 位作者 聂鹏宇 潘玮华 《计算机工程》 CAS CSCD 2014年第8期43-47,共5页
并行程序设计的复杂性及并行计算平台的多样性导致程序可移植性较差。为此,设计并实现一种跨平台、分层次的并行编程框架OpenCH。该框架通过两层并行函数库和层次化的API设计,对上层应用程序隐藏并行化细节,为基于不同计算平台的库函数... 并行程序设计的复杂性及并行计算平台的多样性导致程序可移植性较差。为此,设计并实现一种跨平台、分层次的并行编程框架OpenCH。该框架通过两层并行函数库和层次化的API设计,对上层应用程序隐藏并行化细节,为基于不同计算平台的库函数设计了统一的函数接口,使底层平台的变化对上层应用程序透明。根据底层函数库的开发,给出一种填充式的编程方法和任务调度系统。将OpenCH应用于遥感影像分类,实验结果证明,基于该框架开发的并行程序可运行于多种并行计算平台,并具有较高的并行加速比,编程框架本身造成的时间开销低于15%。 展开更多
关键词 并行计算 并行编程框架 跨平台 OpenMP编程 MPI编程 cuda编程
下载PDF
基于GPU的图像增强实验设计与实现 被引量:2
7
作者 傅志中 赵宇飞 徐进 《实验技术与管理》 CAS 北大核心 2017年第5期37-40,94,共5页
图像增强旨在改善和提高图像的显示质量,通过梯度进行增强是一种十分有效的方法。图形计算单元(GPU)因为其较高并行性和其特殊的结构特性,正被广泛地应用在算法加速和科学计算领域。为了提高学生对图像增强原理的理解,以及使学生掌握利... 图像增强旨在改善和提高图像的显示质量,通过梯度进行增强是一种十分有效的方法。图形计算单元(GPU)因为其较高并行性和其特殊的结构特性,正被广泛地应用在算法加速和科学计算领域。为了提高学生对图像增强原理的理解,以及使学生掌握利用GPU进行算法实现的原理与过程,设计了基于GPU的图像增强实验。 展开更多
关键词 图像增强 梯度场 图形计算单元 cuda编程 实验设计
下载PDF
基于GPU的局部指纹频谱特性估计的实现 被引量:1
8
作者 南余荣 王福良 《浙江工业大学学报》 CAS 北大核心 2018年第5期492-495,共4页
针对已知指纹图像增强系统中指纹局部频谱特性估计的计算负荷大,基于CPU实现后执行时间较长的问题,提出了一种基于GPU的CUDA并行实现方法来提高运算速度.利用不同CUDA线程块来并行处理不同的局部指纹图像,同时线程块中的多线程对相应局... 针对已知指纹图像增强系统中指纹局部频谱特性估计的计算负荷大,基于CPU实现后执行时间较长的问题,提出了一种基于GPU的CUDA并行实现方法来提高运算速度.利用不同CUDA线程块来并行处理不同的局部指纹图像,同时线程块中的多线程对相应局部指纹的频谱特性估计进行并行优化,从而完成整个指纹图像的局部频谱特性估计的优化.通过对FVC2000数据库中大量的指纹图像进行测试,得到相应的执行时间并与其基于CPU实现的执行时间相比较.结果显示:通过该基于GPU的CUDA并行实现方法,局部指纹频谱特性估计的执行时间显著减少,从而可以提高已知指纹图像增强系统的运算速度. 展开更多
关键词 指纹 图像增强 cuda编程 GPU 并行运算
下载PDF
三维医学图像核回归算法的GPU加速研究 被引量:1
9
作者 王玉琨 刘蓉 +1 位作者 温铁祥 李凌 《中国医学物理学杂志》 CSCD 2018年第12期1417-1425,共9页
核回归理论被广泛应用于医学图像处理和医学图像重建领域,并取得了十分显著的效果。它包括传统核回归方法(CKR)和控制核回归方法(SKR)。三维SKR算法比三维CKR算法具有更优的去噪效果和边缘保持效果,但三维SKR算法的计算量过于庞大且复杂... 核回归理论被广泛应用于医学图像处理和医学图像重建领域,并取得了十分显著的效果。它包括传统核回归方法(CKR)和控制核回归方法(SKR)。三维SKR算法比三维CKR算法具有更优的去噪效果和边缘保持效果,但三维SKR算法的计算量过于庞大且复杂,使其应用领域受到限制。目前,医学图像重建使用的是基于GPU的三维CKR算法,所以基于GPU的三维SKR算法的实现是一项有研究价值且具有挑战性的工作。本文首先优化三维SKR算法的计算过程,然后利用GPU进行CUDA编程实现三维SKR并行加速算法。实验表明,基于GPU的三维SKR算法与基于CPU单线程三维SKR算法相比能获得约244.9~246.3倍的加速比,与基于CPU多线程三维SKR算法相比能获得约123.0~137.4倍的加速比。 展开更多
关键词 GPU加速 cuda编程 三维传统核回归方法 三维控制核回归方法
下载PDF
蛋白质系统发育分析并行计算方法研究
10
作者 李易禅 凌诚 《计算机工程》 CAS CSCD 北大核心 2019年第2期296-302,共7页
在目前系统发育学研究中,多数系统发育分析工具不能在GPU架构上分析蛋白质序列。为此,提出一种大规模系统发育分析方法 tgpMC^3。以添加虚字符的形式重新构造条件似然概率矩阵,降低由于多线程分支发散导致的时间消耗。设计粒度适中的半... 在目前系统发育学研究中,多数系统发育分析工具不能在GPU架构上分析蛋白质序列。为此,提出一种大规模系统发育分析方法 tgpMC^3。以添加虚字符的形式重新构造条件似然概率矩阵,降低由于多线程分支发散导致的时间消耗。设计粒度适中的半任务间并行策略,增加流多处理器上活跃的线程块数量。通过简单的键值对应方法传输含有模糊状态的转移概率矩阵,实现数据访问速度的提升。实验结果表明,与MrBayes v3. 1. 2串行版本方法相比,该方法最高可实现117的加速比,与taMC^3方法相比,该方法的并行分析性能更好。 展开更多
关键词 系统发育分析 条件似然概率 cuda编程 并行计算 MC3算法
下载PDF
一种基于GPU的核苷酸分子系统发育树条件似然概率可扩展并行计算方法
11
作者 黄佳为 李晓鹏 凌诚 《计算机科学》 CSCD 北大核心 2022年第S02期919-925,共7页
贝叶斯与Metropolis-Hastings算法的高效实现让MrBayes成为使用广泛的分子序列系统发育分析工具。然而,分子序列与进化参数的增加导致候选分子树样本空间急剧扩大,使得系统发育树的重构工作面临巨大计算挑战。为降低MrBayes系统发育分... 贝叶斯与Metropolis-Hastings算法的高效实现让MrBayes成为使用广泛的分子序列系统发育分析工具。然而,分子序列与进化参数的增加导致候选分子树样本空间急剧扩大,使得系统发育树的重构工作面临巨大计算挑战。为降低MrBayes系统发育分析中分子树条件似然概率的计算时间,提高分析效率,近年来出现一批基于图形处理器(GPU)的并行加速方法。为提高并行方法的可扩展性,提出了一种优化的似然概率多线程并行计算方法。根据位点间可变进化速率模型中分子状态似然概率的计算需要对应不同转移概率矩阵,将前期使用多线程对不同位点似然概率的并行计算,进一步分解为多位点间不同转移概率矩阵下的条件似然概率的计算。该策略在不改变单个线程计算传输比的基础上,通过增加线程数量,优化了线程warp间的并行重叠度,提高了并行效率。此外,由于每个线程warp只计算同一种转移概率矩阵下的似然概率,避免了在使用共享内存时不同warp间的同步开销,进一步提升了内核计算效率。所提方法与前期方法在4组实际数据和30组模拟数据上的计算结果表明,在核心似然函数的计算加速上,本文取得的计算性能超过tgMC3(2.0版)和nMC3(2.1.1版)方法,最高达1.78和2.04倍。 展开更多
关键词 MRBAYES 似然计算 GPU 并行计算 cuda编程
下载PDF
GPU加速技术在治疗计划系统剂量计算中的应用
12
作者 王玉 王宏 黄海龙 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第5期649-652,共4页
基于CUDA编程技术,研究了如何将NVIDIA的GPGPU模型应用于剂量计算,并首次将该技术应用于基于点核卷积/迭加模型的三维放射治疗计划系统商业化产品.本工作对原有剂量计算模型做了改进,使其可以在device端进行并行处理.在程序架构设计中使... 基于CUDA编程技术,研究了如何将NVIDIA的GPGPU模型应用于剂量计算,并首次将该技术应用于基于点核卷积/迭加模型的三维放射治疗计划系统商业化产品.本工作对原有剂量计算模型做了改进,使其可以在device端进行并行处理.在程序架构设计中使用MFC导出类及动态库技术,避免了大量代码移植工作.对结果数据进行了比较与分析,确定了基于特定显卡效率最高的thread数目.结果表明:基于实际患者计划数据执行结果的评估,采用GPU技术加速,大大提高了系统剂量计算速度,使射野剂量计算速度在1 s以内,大大增强了产品市场竞争力. 展开更多
关键词 放射治疗 剂量计算 卷积/迭加 cuda编程 GPGPU模型
下载PDF
一种基于GPU的高效合成孔径雷达信号处理器 被引量:12
13
作者 俞惊雷 柳彬 +2 位作者 王开志 刘兴钊 郁文贤 《信息与电子工程》 2010年第4期415-419,共5页
随着合成孔径雷达(SAR)应用的不断扩展,其所需要处理的数据量也在不断增加,传统的SAR信号处理器的处理速度成为其应用扩展的瓶颈。为了应对这些挑战,需要高效的SAR信号处理器来加快计算速度。文章利用图形处理器(GPU)这一新颖高效的的... 随着合成孔径雷达(SAR)应用的不断扩展,其所需要处理的数据量也在不断增加,传统的SAR信号处理器的处理速度成为其应用扩展的瓶颈。为了应对这些挑战,需要高效的SAR信号处理器来加快计算速度。文章利用图形处理器(GPU)这一新颖高效的的计算平台进行SAR信号处理,利用GPU通用并行计算,使用CUDA实现SAR成像算法,充分发挥其计算能力。实验结果表明,其处理速度是基于CPU的传统SAR信号处理器的10倍以上。它为解决在未来SAR信号处理中可能出现的问题提供了一种可靠的方法。 展开更多
关键词 合成孔径雷达 信号处理器 图形处理器 通用计算 cuda编程模型
下载PDF
GPU加速逆时偏移技术的应用和分析 被引量:2
14
作者 张向阳 冯超敏 文玲 《计算机应用与软件》 CSCD 北大核心 2012年第8期223-225,共3页
在地震资料的处理应用中,逆时偏移等处理技术由于计算资源的需求量巨大,而不能在实际生产中被广泛采用。GPU及CUDA编程架构的引入大幅提高其运算性能,是解决类似技术应用的有效途径。同时,GPU独特的物理特性使得一些应用不仅不能提高性... 在地震资料的处理应用中,逆时偏移等处理技术由于计算资源的需求量巨大,而不能在实际生产中被广泛采用。GPU及CUDA编程架构的引入大幅提高其运算性能,是解决类似技术应用的有效途径。同时,GPU独特的物理特性使得一些应用不仅不能提高性能,甚至使性能急剧下降。通过逆时偏移技术应用实例来说明GPU的加速效果,同时将其和常规流程进行对比和分析给出应用软件的GPU适用性评价方法。 展开更多
关键词 GPU 逆时偏移 cuda编程架构 GPU加速
下载PDF
基于GPU并行射线跟踪的电波预测算法研究 被引量:1
15
作者 谭南 陈辉 《微计算机信息》 2011年第11期104-106,共3页
针对利用射线跟踪算法进行小区电波预测的计算量非常大,运行时间较长,在实际工程中难以应用等的问题,本文在研究已有并行射线跟踪算法,即主从模式和对等模式并行射线跟踪的基础上,采用图形处理器(GPU)作为计算平台,结合GPU高并行处理能... 针对利用射线跟踪算法进行小区电波预测的计算量非常大,运行时间较长,在实际工程中难以应用等的问题,本文在研究已有并行射线跟踪算法,即主从模式和对等模式并行射线跟踪的基础上,采用图形处理器(GPU)作为计算平台,结合GPU高并行处理能力,运用CUDA的编程框架,并在NVIDIA公司出厂的GEFORCE 9800GT上,实现了对城市小区的简单模型环境的电波预测。实验结果表明,基于GPU并行射线跟踪算法适用于城市小区的电波预测研究,该算法能大大节省通信时间,缩短计算时间,更方便更实用。 展开更多
关键词 电波传播预测 射线跟踪 并行算法 GPU cuda编程框架
下载PDF
GPU优化的大规模线性方程组并行求解的研究与比较
16
作者 王驰 刘羽 《信息通信》 2016年第12期9-11,共3页
采用CUDA平台提供的通用并行处理架构,在Gauss-Jordan消去法的基础上,给出了一种适合CUDA平台的并行算法来进行大规模线性方程组的加速求解。算法在GPU端进行整体线性方程组的求解,从Device传回的为方程组的解向量,大大减少了来自Host端... 采用CUDA平台提供的通用并行处理架构,在Gauss-Jordan消去法的基础上,给出了一种适合CUDA平台的并行算法来进行大规模线性方程组的加速求解。算法在GPU端进行整体线性方程组的求解,从Device传回的为方程组的解向量,大大减少了来自Host端和Device端数据传输所带来的延时。算法对任务划分及处理进行了充分的分析。在耗时最为严重的消去阶段,通过增加单个线程的算术逻辑运算来减少线程块之间切换带来的整体算法耗时,并对算法的其余每个阶段都进行了充分的优化。最后在本机上进行了不同线性方程组维数的并行算法与串行算法的加速比,实验结果表明了该并行算法能够充分利用GPU硬件特性,并充分降低了大规模线性方程组的求解时间。 展开更多
关键词 cuda编程平台 并行算法 任务划分 线性方程组
下载PDF
基于改进PSO算法的物流网点选址研究 被引量:4
17
作者 邵玉华 贾玉卫 陈帝霖 《铁道运输与经济》 北大核心 2015年第12期22-25,30,共5页
在阐述目前设施选址模型和快递网点布局研究的基础上,针对物流网点整体偏少并且布局不合理的问题,以建立物流网点所需满足时效性及经济成本最小化要求为目标构建模型,采用改进后P-中值选址模型对物流网点在某区域的选址问题进行研究,在... 在阐述目前设施选址模型和快递网点布局研究的基础上,针对物流网点整体偏少并且布局不合理的问题,以建立物流网点所需满足时效性及经济成本最小化要求为目标构建模型,采用改进后P-中值选址模型对物流网点在某区域的选址问题进行研究,在标准粒子群算法的基础上采用CUDA并行编程模型求解以提高计算速度,最后通过某区域物流网点的选址实例验证算法的可行性。 展开更多
关键词 物流网点 P-中值模型 粒子群算法 cuda并行编程模型
下载PDF
基于GPU的AC模式匹配改进算法 被引量:1
18
作者 汪宏 王鹏 《计算机工程与应用》 CSCD 北大核心 2015年第18期7-12,共6页
字符串匹配算法的应用非常广泛,在信息检索、信息安全等领域都起着关键的作用。近年来,由于GPU通用计算的高速发展,且GPU具有很强的并行计算能力和很高的存储器访问带宽,利用GPU来加速字符串匹配算法吸引了越来越多的关注。提出的改进... 字符串匹配算法的应用非常广泛,在信息检索、信息安全等领域都起着关键的作用。近年来,由于GPU通用计算的高速发展,且GPU具有很强的并行计算能力和很高的存储器访问带宽,利用GPU来加速字符串匹配算法吸引了越来越多的关注。提出的改进的AC模式匹配算法,在对前人工作的基础上,进一步消除了output表的存储,将纹理存储器中的查表操作转换为数值比较操作,与改进前算法相比,速度提高了80%以上;进一步的,引入了多个可变参数,提高AC算法的有效数据匹配率,并优化线程块的大小,优化后的算法与采用一种特殊匹配方式的高效的PFAC算法相比,速度提高了9%以上。 展开更多
关键词 图形处理器(GPU)计算 模式匹配 AHO-CORASICK算法 统一计算架构(cuda)编程模型
下载PDF
基于CUDA的GPU技术快速处理海量数据应用探析
19
作者 米淳 李翔 +1 位作者 许星 付为民 《河南科技》 2013年第9期6-6,共1页
随着科技界对GPU的深入研究,GPU的作用已经不再局限于3D图形处理了,特别是在NVIDIA推出CUDA高性能计算系列解决方案后,专业技术人员能够凭借这项技术解决以前无法解决的问题。另一方面在信息化社会中,各行业涉及业务信息量急剧增加,如... 随着科技界对GPU的深入研究,GPU的作用已经不再局限于3D图形处理了,特别是在NVIDIA推出CUDA高性能计算系列解决方案后,专业技术人员能够凭借这项技术解决以前无法解决的问题。另一方面在信息化社会中,各行业涉及业务信息量急剧增加,如何快速处理海量数据,GPU技术在未来将大有作为。 展开更多
关键词 GPU cuda编程模型 海量数据处理
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部