期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于OpenCL的图像灰度化并行算法研究 被引量:8
1
作者 肖汉 郭宝云 +1 位作者 李彩林 肖诗洋 《江西师范大学学报(自然科学版)》 CAS 北大核心 2020年第5期462-471,共10页
随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化... 随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化数据处理的并行性,对任务进行了层次化分解,设计了2级并行的并行算法并映射到“CPU+GPU”异构计算平台上.实验结果显示:图像灰度化并行算法在OpenCL架构下NVIDIA GPU计算平台上相比串行算法、多核CPU并行算法和CUDA并行算法的性能分别获得了27.04倍、4.96倍和1.21倍的加速比.该文提出的并行优化方法的有效性和性能可移植性得到了验证. 展开更多
关键词 图像灰度化 加权平均 图形处理器 开放式计算语言 并行算法
下载PDF
面向OpenCL架构的Harris角点检测算法 被引量:7
2
作者 肖汉 马歌 周清雷 《计算机科学》 CSCD 北大核心 2014年第7期306-309,321,共5页
Harris角点检测算法是计算机视觉领域中使用非常广泛的点特征提取算法,它计算简单,稳定性强,但运算速度慢。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。为此提出一种基于开放式计算语言(OpenCL)... Harris角点检测算法是计算机视觉领域中使用非常广泛的点特征提取算法,它计算简单,稳定性强,但运算速度慢。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。为此提出一种基于开放式计算语言(OpenCL)设计思想的Harris角点检测并行算法,其采用图形处理器(GPU)中共享存储器、常量存储器和锁页内存机制在OpenCL框架下完成影像角点检测的全过程。实验结果表明,基于OpenCL的Harris角点检测并行算法相比CPU上的串行算法可获得的加速比高达77倍,执行效率明显提高,对于大规模数据处理表现出良好的实时处理能力。 展开更多
关键词 图形处理器 开放式计算语言 影像 角点检测 HARRIS算子
下载PDF
基于异构平台的图像中值滤波的OpenCL加速算法 被引量:1
3
作者 肖诗洋 王镭 +1 位作者 杜莹 肖汉 《河北大学学报(自然科学版)》 CAS 北大核心 2024年第1期92-103,共12页
图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,... 图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,对图像中值滤波功能模块进行了并行优化,降低了算法复杂度.通过充分激活NDRange索引空间中的工作组和工作项来提高数据访问效率,优化内核工作组配置参数,实现了中值滤波器的并行处理.实验结果表明,在图像质量保持不变的情况下,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,图像中值滤波并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了29.74、17.29、1.15倍的加速比.验证了算法的有效性和平台的可移植性,基本满足应用的实时性处理要求. 展开更多
关键词 中值滤波 椒盐噪声 图形处理器 开放式计算语言 并行算法
下载PDF
领域专用低延迟高带宽TCP/IP卸载引擎设计与实现 被引量:6
4
作者 冯一飞 丁楠 +1 位作者 叶钧超 柴志雷 《计算机工程》 CAS CSCD 北大核心 2022年第9期162-170,共9页
针对量化高频交易应用场景对数据传输低延迟高带宽的需求,定制一种领域专用的TCP/IP协议栈,并将其卸载到专用硬件加速模块上。采用模块化设计实现专用硬件逻辑,并与FAST协议硬件加速模块共同构成完整的低延迟高带宽高频交易系统。通过... 针对量化高频交易应用场景对数据传输低延迟高带宽的需求,定制一种领域专用的TCP/IP协议栈,并将其卸载到专用硬件加速模块上。采用模块化设计实现专用硬件逻辑,并与FAST协议硬件加速模块共同构成完整的低延迟高带宽高频交易系统。通过调整最大报文长度,实现64 Byte数据对齐,提升内核与高带宽内存(HBM)间的读写速率,并对内存结构进行优化,实现主机端与HBM间的4通道并行读写管理。对各功能模块进行数据流优化,最终构建全流水线架构。模块间统一使用AXI4-Stream接口连接,并绕过内存进行数据传输,实现传输性能的提升。实验结果表明,TCP/IP卸载引擎在Xilinx Alevo U50数据中心加速卡上可获得38.28 Gb/s的网络吞吐率,基础网络通信穿刺延迟最低为468.4 ns,在叠加FAST解码协议后延迟为677.9 ns,与传统软件处理网络堆栈(Intel i9-9900x+9802BF)的方式相比,TCP/IP引擎的吞吐率提升1倍,延迟降低为1/12,且延迟稳定,波动范围在10 ns左右,在满足量化高频交易场景需要的同时,有效减轻了CPU的负载。 展开更多
关键词 领域专用 传输控制协议/互联网协议卸载引擎 高带宽低延迟 可编程逻辑门阵列 开放运算语言
下载PDF
基于OpenCL的Gzip数据压缩算法 被引量:7
5
作者 赵雅倩 李龙 +4 位作者 郭跃超 史宏志 郭振华 魏士欣 陈继承 《计算机应用》 CSCD 北大核心 2018年第A01期112-115,130,共5页
目前,数据压缩算法主要基于串行编程模型设计和实现,导致数据压缩速率较低,因而无法满足大数据分析和处理等应用的实时性需求。为了解决这个问题,以常用数据压缩算法Gzip为蓝本,提出一种实现无损数据压缩算法的专用硬件电路。首先,采用... 目前,数据压缩算法主要基于串行编程模型设计和实现,导致数据压缩速率较低,因而无法满足大数据分析和处理等应用的实时性需求。为了解决这个问题,以常用数据压缩算法Gzip为蓝本,提出一种实现无损数据压缩算法的专用硬件电路。首先,采用多字典并行查找的设计方案提高重复数据的查找速率;接着,采用匹配长度拼接技术提升数据的压缩效果;最后,采用开放计算语言(Open CL)实现了所提出的专用硬件电路。基于现场可编程门阵列(FPGA)进行功能验证和性能评测,结果表明:与基于串行编程模型设计和实现的数据压缩算法相比,所提出的硬件电路在取得适当压缩率的同时,显著地提高了数据的压缩速率,压缩速率可达12 Gb/s。 展开更多
关键词 数据压缩 开放计算语言 Gzip算法 现场可编程门阵列 硬件加速
下载PDF
基于OpenCL的MD5破解算法 被引量:5
6
作者 翁捷 吴强 杨灿群 《计算机工程》 CAS CSCD 北大核心 2011年第4期119-121,共3页
在基于GPU的异构平台上,采用开放计算语言(OpenCL)实现破解算法,利用分轮生成攻击密码、图形渲染管线加速存取以及多密码并行等方法对算法进行优化,在Intel四核CPU Q8230(2.3 GHz)和一片NVIDIA GT200组成的平台上进行实验。实验结果表明... 在基于GPU的异构平台上,采用开放计算语言(OpenCL)实现破解算法,利用分轮生成攻击密码、图形渲染管线加速存取以及多密码并行等方法对算法进行优化,在Intel四核CPU Q8230(2.3 GHz)和一片NVIDIA GT200组成的平台上进行实验。实验结果表明,在相同CPU平台上该算法能够获得高于破解软件John the ripper 17倍的破解速度。 展开更多
关键词 开放计算语言 带随机数的MD5算法 图形处理器 强力攻击
下载PDF
基于GPU加速的全源对最短路径并行算法
7
作者 肖汉 肖诗洋 +1 位作者 李焕勤 周清雷 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第5期1022-1032,共11页
针对最短路径算法处理大规模数据集低效的问题,提出了基于图形处理器(Graphics Processing Unit,GPU)加速的全源对最短路径并行算法.首先通过优化矩阵乘法算法实现了在工作组内和组间进行并行运算数据,然后减少了非规则行造成的工作项分... 针对最短路径算法处理大规模数据集低效的问题,提出了基于图形处理器(Graphics Processing Unit,GPU)加速的全源对最短路径并行算法.首先通过优化矩阵乘法算法实现了在工作组内和组间进行并行运算数据,然后减少了非规则行造成的工作项分支,最后降低了工作项对邻接矩阵计算条带存储资源的访问延时.实验结果表明,与基于AMD Ryzen5 1600X CPU的串行算法、基于开放多处理(Open Multi-Processing, OpenMP)并行算法和基于统一计算设备架构(Compute Unified Device Architecture, CUDA)并行算法相比,最短路径并行算法在开放式计算语言(Open Computing Language, OpenCL)架构下NVIDIA GeForce GTX 1 070计算平台上分别获得了196.35、36.76和2.25倍的加速比,验证了提出的并行优化方法的有效性和性能可移植性. 展开更多
关键词 最短路径 重复平方法 图形处理器 开放式计算语言 并行算法
下载PDF
OclDNN:一种可应用于TensorFlow的通用DNN库
8
作者 陈锐 孙羽菲 +4 位作者 郭强 隋轶丞 周振辉 石昌青 张玉志 《计算机工程》 CAS CSCD 北大核心 2023年第4期138-148,共11页
深度学习模型的构建、训练以及推理离不开TensorFlow等机器学习框架中深度学习算子的支撑,对于卷积、池化等深度学习中被高频调用或计算量较大的算子,机器学习框架一般通过调用深度神经网络(DNN)库来提升计算效能。现有DNN库主要由英伟... 深度学习模型的构建、训练以及推理离不开TensorFlow等机器学习框架中深度学习算子的支撑,对于卷积、池化等深度学习中被高频调用或计算量较大的算子,机器学习框架一般通过调用深度神经网络(DNN)库来提升计算效能。现有DNN库主要由英伟达、AMD等少数国外厂商开发并根据自有硬件设备特点进行优化,但其封闭性导致其他厂商生产的通用加速器难以在深度学习领域发挥作用。为解决现有DNN库无法支持国产加速器的问题,使得深度学习模型能够调用国产加速器进行运算,研究跨平台的通用DNN库,通过对开源MIOpen的结构特点和调用方式进行分析,提出修改和重构该库的方法,并实现一种基于OpenCL的DNN(OclDNN)库。考虑到TensorFlow较高的流行度及其对DNN库调用的特殊性与复杂性,研究通用DNN库在TensorFlow中的集成方法,通过StreamExecutor中的OpenCL平台实现对OclDNN的调用。实验结果表明,OclDNN在英伟达、华为等不同厂商的计算设备上运算结果正确可靠,在相同实验环境下,深度学习算子使用OclDNN时的加速性能比传统CPU并行算法提升了5~60倍。 展开更多
关键词 深度神经网络库 深度学习 开放计算语言 硬件加速器 TensorFlow框架
下载PDF
面向OpenCL模型的DCT并行化 被引量:3
9
作者 向阳霞 张惠民 王子强 《电脑知识与技术(过刊)》 2013年第9X期6007-6011,共5页
为了提高DCT变换的速度,文中对面向OpenCL模型的DCT并行化过程进行了研究,首先分析了GPU和OpenCL的特性和优势,研究了传统DCT变换的工作原理,然后针对CPU和GPU两种不同平台对DCT变换进行测试和结果分析,实验结果表明基于OpenCL模型的并... 为了提高DCT变换的速度,文中对面向OpenCL模型的DCT并行化过程进行了研究,首先分析了GPU和OpenCL的特性和优势,研究了传统DCT变换的工作原理,然后针对CPU和GPU两种不同平台对DCT变换进行测试和结果分析,实验结果表明基于OpenCL模型的并行化能够有效地提高DCT变换的速度。 展开更多
关键词 GPU处理器 opencl模型 离散余弦变化 并行化
下载PDF
CPU+GPU异构并行的矩阵转置算法研究 被引量:3
10
作者 肖汉 李彩林 +1 位作者 李琦 周清雷 《东北师大学报(自然科学版)》 CAS 北大核心 2019年第4期70-77,共8页
针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射... 针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植. 展开更多
关键词 矩阵转置 图形处理器 开放式计算语言 并行算法
下载PDF
异构平台上基于OpenCL的矩阵乘并行算法 被引量:3
11
作者 肖汉 肖诗洋 +1 位作者 李彩林 周清雷 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第11期147-153,共7页
在分析开放式计算语言(OpenCL)平台底层硬件构架的基础上,从数据本地化、计算资源利用率和访存带宽利用率等多个不同角度优化了矩阵乘算法,并实现了矩阵乘算法在OpenCL架构下的加速.实验数据显示,与基于CPU的单线程算法、基于OpenMP多... 在分析开放式计算语言(OpenCL)平台底层硬件构架的基础上,从数据本地化、计算资源利用率和访存带宽利用率等多个不同角度优化了矩阵乘算法,并实现了矩阵乘算法在OpenCL架构下的加速.实验数据显示,与基于CPU的单线程算法、基于OpenMP多线程算法和基于统一计算设备架构(CUDA)并行算法相比,基于OpenCL架构的矩阵乘并行算法效率更高. 展开更多
关键词 矩阵乘 图形处理器 开放式计算语言 并行算法
下载PDF
面向异构架构的传递闭包并行算法 被引量:3
12
作者 肖汉 郭宝云 +1 位作者 李彩林 周清雷 《计算机工程》 CAS CSCD 北大核心 2021年第8期131-139,共9页
传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言(OpenCL)框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于Op... 传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言(OpenCL)框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于OpenCL的传递闭包并行算法。利用本地存储器优化的并行子矩阵乘算法来优化计算步骤,提高图形处理器(GPU)的存储器利用率,降低数据获取延迟。通过分块矩阵乘并行计算算法实现大数据量的矩阵乘,提高GPU计算核心的利用率。数据结果表明,与CPU串行算法、基于开放多处理的并行算法和基于统一设备计算架构的并行算法相比,传递闭包并行算法在OpenCL架构下NVIDIA GeForce GTX 1070计算平台上分别获得了593.14倍、208.62倍和1.05倍的加速比。 展开更多
关键词 矩阵乘 传递闭包 图形处理器 开放式计算语言 并行算法
下载PDF
Real-time flow-based video abstraction using OpenCL
13
作者 Yong-jin PARK Jin-woo KIM +1 位作者 Jin-hong PARK Tack-don HAN 《Journal of Measurement Science and Instrumentation》 CAS 2012年第1期46-50,共5页
A non-photorealistic rendering technique is a method to show various effects different from those of realistic image generation.Of the various techniques,flow-based image abstraction displays the shape and color featu... A non-photorealistic rendering technique is a method to show various effects different from those of realistic image generation.Of the various techniques,flow-based image abstraction displays the shape and color features well and performs a stylistic visual abstraction.But real-time rendering is impossible when CPU is used because it applies various filtering and iteration methods.In this paper,we present real-time processing methods of video abstraction using open open computing language(OpenCL),technique of general-purpose computing on graphics processing units(GPGPU).Through the acceleration of general-purpose computing(GPU),16 frame-per-second(FPS)or greater is shown to process video abstraction. 展开更多
关键词 non-photorealistic rendering video abstraction general-purpose computing on graphics processing units(GPGPU) open computing language(opencl)
下载PDF
基于OpenCL的GPU加速三维时域有限差分电磁场仿真算法研究 被引量:2
14
作者 代健 褚天舒 杨照 《数值计算与计算机应用》 CSCD 2014年第1期8-20,共13页
提出了一种基于开放运算语言(OpenCL)的GPU加速三维时域有限差分(FDTD)电磁场仿真计算的方法.该方法利用图形处理单元(GPU)的并行处理特性并结合OpenCL接口标准实现了时域卷积完全匹配层(CPML)吸收边界条件的三维FDTD的高性能加速计算.... 提出了一种基于开放运算语言(OpenCL)的GPU加速三维时域有限差分(FDTD)电磁场仿真计算的方法.该方法利用图形处理单元(GPU)的并行处理特性并结合OpenCL接口标准实现了时域卷积完全匹配层(CPML)吸收边界条件的三维FDTD的高性能加速计算.首先设置FDTD仿真参数并动态申请内存空间,然后初始化OpenCL的计算参数,对三维电磁模型基于OpenCL进行FDTD加速仿真.本方法显著提升了FDTD电磁场仿真速度,与利用CPU计算相比速度提升可达5-8倍,且具有CPML吸收边界条件,可以模拟电磁波在自由空间的传播;基于OpenCL编译的语言程序可以运行在CPU或GPU硬件上,并可充分发挥多核CPU的并行计算能力,使得FDTD电磁场仿真具有更广泛的实际应用. 展开更多
关键词 图形处理单元 时域有限差分算法 加速电磁计算 开放运算语言 卷积完全匹配层
原文传递
面向OpenCL的GPGPU微基准测试程序集的研究与实现 被引量:2
15
作者 杨海燕 史晓华 +3 位作者 孙清越 晏望龙 严鑫 金茂忠 《系统工程与电子技术》 EI CSCD 北大核心 2013年第12期2631-2642,共12页
随着通用图形处理器(general-purpose graphics processing unit,GPGPU)的广泛应用,GPGPU成为当前实现计算并行化的主要硬件平台之一。开放计算语言(open computing language,OpenCL)是一个开放的、面向异构系统平台的并行计算标准,支... 随着通用图形处理器(general-purpose graphics processing unit,GPGPU)的广泛应用,GPGPU成为当前实现计算并行化的主要硬件平台之一。开放计算语言(open computing language,OpenCL)是一个开放的、面向异构系统平台的并行计算标准,支持在包括图形处理器(graphics processing unit,GPU)在内的多种微处理器架构上开发和运行并行程序。针对OpenCL平台开发了一套较完整的GPGPU微基准测试程序集,全面测试了GPU的单精浮点运算能力、GPU体系结构中各类存储单元的读写带宽及最佳访问模式等。这些面向OpenCL的GPGPU微基准测试程序,对OpenCL及GPGPU软件架构的设计者及使用者,均具有重要的实用和参考价值。 展开更多
关键词 计算机系统结构 微基准测试程序集 通用图形处理器 开放计算语言
下载PDF
改进的肝脏软组织分割算法及实时绘制 被引量:1
16
作者 康飞龙 杨杰 《高技术通讯》 CAS CSCD 北大核心 2011年第11期1164-1170,共7页
提出了一种基于GraphCut算法的高精度CT肝脏软组织分割算法,并利用开放运算语言(OpenCL)实现了肝脏软组织实时高效绘制。这种改进的GraphCut算法分割准确度高,平均正确率达到96.2%,而且利用OpenCL实现的基于八叉树的改进RayCast... 提出了一种基于GraphCut算法的高精度CT肝脏软组织分割算法,并利用开放运算语言(OpenCL)实现了肝脏软组织实时高效绘制。这种改进的GraphCut算法分割准确度高,平均正确率达到96.2%,而且利用OpenCL实现的基于八叉树的改进RayCasting算法大大提升了并行绘制速度,得到了近于200倍的加速,从而为实现实时跨平台虚拟手术系统提供了有力保障,也使得医生可以更高效更准确地诊断、治疗病患,该方法有良好的实用前景。 展开更多
关键词 GRAPH Cut算法 opencl语言 医学肝脏分割 RayCasting算法 八叉树 实时绘制
下载PDF
基于OpenCL的累积汇流并行计算
17
作者 龙满生 罗文浪 《计算机工程与应用》 CSCD 2014年第3期22-29,116,共9页
大尺度、高分辨率数字地形数据应用需求的增长,给计算密集型的累积汇流等数字地形分析算法带来了新的挑战。针对CPU/GPU(Graphics Processing Unit)异构计算平台的特点,提出了一种基于OpenCL(Open Computing Language)的多流向累积汇流... 大尺度、高分辨率数字地形数据应用需求的增长,给计算密集型的累积汇流等数字地形分析算法带来了新的挑战。针对CPU/GPU(Graphics Processing Unit)异构计算平台的特点,提出了一种基于OpenCL(Open Computing Language)的多流向累积汇流算法的并行化策略,具有更好的平台独立性和可移植性,简化了CPU/GPU异构平台下的并行应用程序设计。累积汇流并行算法包括时空独立型的流量分配和空间依赖型的累积入流两个过程,均定义为OpenCL内核并交由OpenCL设备并行执行,其中累积入流过程借助流量转移矩阵由递归式转换为迭代式来实现并行计算。与基于流量转移矩阵的并行汇流算法相比,尽管基于单元入度矩阵的并行汇流算法可以降低迭代过程中的计算冗余,但需要采用具有较大延迟的原子操作以及需要更多的迭代次数,在有限的GPU计算资源下,两种算法性能差异不明显。实验结果表明,并行累积汇流算法在NVIDIA GeForce GT 650M GPU上获得了较好的加速比,加速性能随格网尺度增加而有所增加,其中流量分配获得了约50~70倍的加速比,累积入流获得了10~20倍的加速比,展示了利用OpenCL在GPU等并行计算设备上进行大规模数字地形分析的潜在优势。 展开更多
关键词 并行计算 累积汇流 图形处理器 开放计算语言
下载PDF
基于开放运算语言加速的数字全息卷积重建算法实现
18
作者 罗洪艳 周珞一 +2 位作者 赵震 郭洪 冯晓波 《电子与信息学报》 EI CSCD 北大核心 2022年第9期3258-3265,共8页
针对数字全息重建算法计算速度慢、实时应用能力弱以及现有GPU加速策略跨平台移植性差等问题,该文提出一种利用开放运算语言(OpenCL)架构提高数字全息重建算法执行效率的方案。该方案充分利用OpenCL架构的异构协同计算能力,对数字全息... 针对数字全息重建算法计算速度慢、实时应用能力弱以及现有GPU加速策略跨平台移植性差等问题,该文提出一种利用开放运算语言(OpenCL)架构提高数字全息重建算法执行效率的方案。该方案充分利用OpenCL架构的异构协同计算能力,对数字全息卷积重建算法进行CPU+GPU的异构运行设计,并采用数据并行模式编程实现。针对不同分辨率数字全息图、不同GPU加速平台的测试结果表明,该加速策略的平均执行时间均比CPU低1个数量级,最高总加速比达到54.2,并行运算加速比甚至高达94.7,且具有规模增长性及良好的跨平台特性,加速效率显著,更加适用于数字全息技术的工程化实现及实时性应用场合。 展开更多
关键词 数字全息 重建算法 开放运算语言 并行计算
下载PDF
并行Harris特征点检测算法 被引量:1
19
作者 朱超 吴素萍 《计算机科学》 CSCD 北大核心 2019年第S11期289-293,共5页
针对三维重建大数据量问题中的特征点提取算法,存在运算量大、耗时多、效率低等问题,文中对Harris特征点检测算法进行改进,提出了基于OpenMP的多核CPU和基于CUDA及OpenCL框架的GPU下的Harris特征点检测并行算法。在不同实验平台进行对... 针对三维重建大数据量问题中的特征点提取算法,存在运算量大、耗时多、效率低等问题,文中对Harris特征点检测算法进行改进,提出了基于OpenMP的多核CPU和基于CUDA及OpenCL框架的GPU下的Harris特征点检测并行算法。在不同实验平台进行对比实验,实验结果表明,基于CUDA及OpenCL框架的GPU并行特征点检测算法具有良好的数据和平台可扩展性,基于GPU并行特征点检测算法的加速比最高可达91.19,加速效果显著。基于OpenMP的多核CPU特征点检测算法具有良好的多核可扩展性。 展开更多
关键词 HARRIS 特征点检测 共享存储并行编程 计算机统一设备架构 开放式计算语言 并行算法
下载PDF
基于均匀尺度不变局部三元模式的背景建模及其在Intel HD显卡上的并行实现 被引量:1
20
作者 林泽诚 朱建清 +1 位作者 廖胜才 李子青 《计算机应用》 CSCD 北大核心 2015年第8期2274-2279,共6页
针对尺度不变局部三元模式(SILTP)背景建模算法复杂度较高、计算速度较慢,不利于高速视频处理的问题,提出了一种新的均匀尺度不变局部三元模式(USILTP)背景建模并行算法。首先,通过规范SILTP编码的跳变次数得到USILTP纹理特征,实现了SI... 针对尺度不变局部三元模式(SILTP)背景建模算法复杂度较高、计算速度较慢,不利于高速视频处理的问题,提出了一种新的均匀尺度不变局部三元模式(USILTP)背景建模并行算法。首先,通过规范SILTP编码的跳变次数得到USILTP纹理特征,实现了SILTP特征降维;其次,设计并实现基于英特尔核芯显卡(Intel HD)及开放式计算语言(Open CL)的USILTP背景建模并行算法,进一步加速了USILTP背景建模算法;最后,通过融合多颜色通道模型结果,优化了USILTP背景建模算法的前景效果。实验结果表明,在Intel HD 4600上处理320×240分辨率的视频,该算法将速度提升至98 frame/s,比SILTP背景建模算法快4倍;在前景检测方面,该算法在背景公开数据库上的性能比SILTP背景建模算法提升了2.1%。 展开更多
关键词 尺度不变局部三元模式 英特尔核芯显卡 开放式计算语言 背景建模
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部