期刊文献+
共找到223篇文章
< 1 2 12 >
每页显示 20 50 100
面向OpenCL模型的GPU性能优化 被引量:21
1
作者 陈钢 吴百锋 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2011年第4期571-581,共11页
GPU的高性价比吸引了越来越多的通用计算.为充分发挥异构处理平台下GPU的通用计算能力,提出面向OpenCL模型的性能优化方法.该方法建立源程序的多面体表示,分别对GPU的全局存储器和快速存储器进行优化与分配;通过检测存储访问模式... GPU的高性价比吸引了越来越多的通用计算.为充分发挥异构处理平台下GPU的通用计算能力,提出面向OpenCL模型的性能优化方法.该方法建立源程序的多面体表示,分别对GPU的全局存储器和快速存储器进行优化与分配;通过检测存储访问模式发掘可向量化的存储访问实例,利用数据空间变换对存储访问模式进行转换,进而使用向量数据类型提高片外存储器的带宽利用率;通过检测程序中的数据重用,根据数据的访问属性和OpenCL存储模型的特性实现快速存储器的有效分配与优化,提高了片上存储器的使用效率.采用文中方法对6个测试程序进行实验的结果表明,程序的性能提高了1.6~8.4倍,证实了其有效性. 展开更多
关键词 opencl GPU 性能优化 异构处理 通用计算 多面体表示
下载PDF
基于OpenCL的拉普拉斯图像增强算法优化研究 被引量:17
2
作者 贾海鹏 张云泉 +2 位作者 龙国平 徐建良 李焱 《计算机科学》 CSCD 北大核心 2012年第5期271-277,共7页
OpenCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上实现性能移植仍是有待研究的问题。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。在分析了不同... OpenCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上实现性能移植仍是有待研究的问题。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。在分析了不同GPU平台底层硬件架构的基础上,从Global Memory的访存效率、GPU计算资源的有效利用率及其硬件资源的限制等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响;并在此基础上实现了基于OpenCL的拉普拉斯图像增强算法。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMD和NVIDIA GPU上都取得了3.7~136.1倍、平均56.7倍的性能加速,优化后的kernel比NVIDIA NPP库中相应函数也取得了12.3%~346.7%、平均143.1%的性能提升,验证了提出的优化方法的有效性和性能可移植性。 展开更多
关键词 opencl 通用计算 拉普拉斯算法 跨平台
下载PDF
基于OpenCL的Viola-Jones人脸检测算法性能优化研究 被引量:12
3
作者 贾海鹏 张云泉 +1 位作者 袁良 李士刚 《计算机学报》 EI CSCD 北大核心 2016年第9期1775-1789,共15页
Viola-Jones人脸检测算法是最为成功的可实用的人脸检测算法之一.然而,随着该算法所在领域数据处理规模的不断扩大,现有算法的性能已经越来越无法满足日益增长的交互性与实时性要求.使用GPU计算平台提升该算法性能,以满足日益增长的实... Viola-Jones人脸检测算法是最为成功的可实用的人脸检测算法之一.然而,随着该算法所在领域数据处理规模的不断扩大,现有算法的性能已经越来越无法满足日益增长的交互性与实时性要求.使用GPU计算平台提升该算法性能,以满足日益增长的实时性要求已经成为研究热点.然而,该算法在对GPU的实现和优化中,存在线程间负载不均衡的非规则特性,如果仅使用传统的优化方法,则难以在GPU计算平台上达到较高性能.针对此种情况,该文构建了针对此类算法的并行优化框架,通过Uberkernel、粗粒度并行、Persistent Thread、线程与数据的动态映射、全局及本地队列等优化方法的应用,突破了负载不均衡非规则特性导致的性能瓶颈,大幅提高了人脸检测算法在GPU计算平台上的性能.同时,该文通过对不同GPU计算平台关键性能参数的定义、抽取和传递,实现了该算法在不同GPU计算平台间的性能移植.实验结果表明,与OpenCV2.4中经过高度优化的CPU版本在Intel Xeon X5550CPU上的性能相比,优化后的算法在AMD HD7970和NVIDIA GTX680两个不同GPU计算平台上分别达到了11.24-20.27和9.24-17.62倍的加速比,不仅实现了高性能,而且实现了在不同GPU计算平台间的性能移植. 展开更多
关键词 opencl 负载不均衡 任务队列 线程与任务动态映射 性能移植
下载PDF
基于OpenGL的数控加工三维仿真系统的研究与开发 被引量:8
4
作者 赵琳 贺永 傅建中 《机电工程》 CAS 2003年第5期9-11,共3页
介绍了一种基于OpenGL的数控加工三维仿真系统,该系统以WindowsXP为开发平台,Visual C++6.0为开发工具,采用OpenGL技术,开发了数控铣三维仿真加工软件。
关键词 数控加工 三维仿真系统 OPENGL 数控机床 数控程序
下载PDF
图形硬件加速的柔性物体连续碰撞检测 被引量:10
5
作者 唐敏 林江 童若锋 《计算机学报》 EI CSCD 北大核心 2010年第10期2022-2030,共9页
给出了一种图形硬件加速的柔性物体连续碰撞检测算法,可以实时检测复杂柔性物体场景中所有物体间碰撞和自碰撞.算法将柔性物体的碰撞检测过程进行流式分解,映射到图形硬件上并行执行,同时使用了并行流式登记算法,在图形硬件上高效实现... 给出了一种图形硬件加速的柔性物体连续碰撞检测算法,可以实时检测复杂柔性物体场景中所有物体间碰撞和自碰撞.算法将柔性物体的碰撞检测过程进行流式分解,映射到图形硬件上并行执行,同时使用了并行流式登记算法,在图形硬件上高效实现了变长数据结构.该算法已经使用OpenCL在AMD Radeon HD5870图形硬件上实现.针对一组各具特色的柔性物体仿真场景进行测试,对比CPU(Intel Q6600@2.4GHz)上的单线程优化实现,可以获得9.2~11.4倍的计算加速. 展开更多
关键词 柔性物体 连续碰撞检测 流式映射 图形硬件 opencl
下载PDF
FPGA异构计算平台及其应用 被引量:11
6
作者 胡雷钧 陈乃刚 +2 位作者 李健 韩峰 赵雅倩 《电力信息与通信技术》 2016年第7期6-11,共6页
当前摩尔定律已遇到瓶颈,通用处理器的计算能力受到制约,而深度学习等新型企业计算对数据中心服务器功耗和计算性能提出了更大的挑战。现场可编程门阵列(FieldProgrammable Gate Array,FPGA)具有高性能、低功耗等特点,FPGA异构计算平台... 当前摩尔定律已遇到瓶颈,通用处理器的计算能力受到制约,而深度学习等新型企业计算对数据中心服务器功耗和计算性能提出了更大的挑战。现场可编程门阵列(FieldProgrammable Gate Array,FPGA)具有高性能、低功耗等特点,FPGA异构计算平台可有效解决数据中心能效问题。文章阐述了FPGA异构计算平台的硬件体系结构和软件编程模型,分析了基于Open CL的FPGA异构计算平台的高性能、低功耗、动态可重构等优势。应用实践表明,FPGA异构平台可在降低系统功耗的同时提升系统性能,从而实现系统能效的有效提升。 展开更多
关键词 FPGA opencl 异构计算 可重构
下载PDF
MPFFT:An Auto-Tuning FFT Library for OpenCL GPUs 被引量:10
7
作者 Yan Li Yun-Quan Zhang +2 位作者 Yi-Qun Liu Guo-Ping Long Hai-Peng Jia 《Journal of Computer Science & Technology》 SCIE EI CSCD 2013年第1期90-105,共16页
Fourier methods have revolutionized many fields of science and engineering, such as astronomy, medical imaging, seismology and spectroscopy, and the fast Fourier transform (FFT) is a computationally efficient method... Fourier methods have revolutionized many fields of science and engineering, such as astronomy, medical imaging, seismology and spectroscopy, and the fast Fourier transform (FFT) is a computationally efficient method of generating a Fourier transform. The emerging class of high performance computing architectures, such as GPU, seeks to achieve much higher performance and efficiency by exposing a hierarchy of distinct memories to software. However, the complexity of GPU programming poses a significant challenge to developers. In this paper, we propose an automatic performance tuning framework for FFT on various OpenCL GPUs, and implement a high performance library named MPFFT based on this framework. For power-of-two length FFTs, our library substantially outperforms the cIAmdFft library on AMD GPUs and achieves comparable performance as the CUFFT library on NVIDIA GPUs. Furthermore, our library also supports non-power-of-two size. For 3D non-power-of-two FFTs, our library delivers 1.5x to 28x faster than FFTYV with 4 threads and 20.01x average speedup over CUFFT 4.0 on Tesla C2050. 展开更多
关键词 fast Fourier transform GPU opencl AUTO-TUNING
原文传递
一种CPU-GPU协同计算的三维地形实时渲染算法 被引量:9
8
作者 郭向坤 林浒 +1 位作者 刘继申 王鸿亮 《小型微型计算机系统》 CSCD 北大核心 2018年第4期825-829,共5页
提出一种基于Open CL的CPU-GPU协同计算的大规模地形实时渲染算法,该算法侧重于把批LOD模型的构建从CPU移植到GPU.CPU主要负责把外存中的数据块实时调度到内存中,并把相应的地形块载入GPU中的显存.GPU负责利用Open CL平台并行构建LOD模... 提出一种基于Open CL的CPU-GPU协同计算的大规模地形实时渲染算法,该算法侧重于把批LOD模型的构建从CPU移植到GPU.CPU主要负责把外存中的数据块实时调度到内存中,并把相应的地形块载入GPU中的显存.GPU负责利用Open CL平台并行构建LOD模型.为了避免相邻LOD模型出现裂缝,利用地形块的裂缝检测和删除顶点的方法消除裂缝;为了解决两个LOD层次的转换过程中出现地表突跳现象,采用morphing方法实现地形的平滑过渡.实验结果表明,该算法将大量的几何计算移植到GPU上并行计算,降低了CPU的计算负载,提高了LOD模型的构建效率,加快了场景的渲染速度. 展开更多
关键词 opencl CPU—GPU协同计算 LOD模型 平滑过渡
下载PDF
异构平台上基于OpenCL的FFT实现与优化 被引量:8
9
作者 李焱 张云泉 +1 位作者 王可 赵美超 《计算机科学》 CSCD 北大核心 2011年第8期284-286,296,共4页
快速傅立叶变换作为20世纪公认的最重要的基础算法之一,在大规模科学计算处理、数字信号处理、图形图像仿真等众多领域有着广泛的应用。OpenCL是首个面向异构系统通用的并行编程标准,为软件开发人员提供了统一的面向异构系统的并行编程... 快速傅立叶变换作为20世纪公认的最重要的基础算法之一,在大规模科学计算处理、数字信号处理、图形图像仿真等众多领域有着广泛的应用。OpenCL是首个面向异构系统通用的并行编程标准,为软件开发人员提供了统一的面向异构系统的并行编程环境。首先,在异构平台Cell和GPU上使用OpenCL实现了基于2的幂一维FFT,并对其进行了测试和分析,在Cell平台上当数据规模适中时它能够达到SDK性能的65%,当数据规模继续增大时,相对性能有所降低。此外,针对Nvidia Fermi平台,手工调优了小因子的FFT,使其性能接近于CUFFT的140%。 展开更多
关键词 FFT opencl Cell CUDA GPU 快速傅立叶变换
下载PDF
基于FPGA的CNN图像识别加速与优化 被引量:9
10
作者 齐延荣 周夏冰 +1 位作者 李斌 周清雷 《计算机科学》 CSCD 北大核心 2021年第4期205-212,共8页
目前,CNN已广泛应用于许多应用场景中,包括图像分类、语音识别、视频分析、文档分析等。由于CNN计算密集,常以GPU进行加速,但GPU功耗高,不适用于CNN推理阶段。基于此,文中研究了基于FPGA的CNN图像识别加速与优化的应用方法,利用Intel F... 目前,CNN已广泛应用于许多应用场景中,包括图像分类、语音识别、视频分析、文档分析等。由于CNN计算密集,常以GPU进行加速,但GPU功耗高,不适用于CNN推理阶段。基于此,文中研究了基于FPGA的CNN图像识别加速与优化的应用方法,利用Intel FPGA提供的OpenCL SDK,在FPGA板卡上设计并优化了CNN前向模型。首先,针对计算量问题,通过功能模块划分,充分发挥FPGA的高计算效能优势。其次,优化核心算法,提高运行速度;分析特征图处理操作,利用参数共享策略降低数据存储量;采用通道传输数据,减少访问片外存储次数。最后,对数据缓存、数据流、循环进行优化设计,缓解了FPGA片上的资源限制;通过量化参数降低FPGA内存资源占用量。实验结果表明,FPGA具有较低的功耗,CPU的功耗是其2.1倍,而GPU的功耗是其6.5倍;与近年来相关领域文献中提出的方法相比,所提方法具有较高的吞吐量和计算性能。 展开更多
关键词 CNN FPGA 图像识别 opencl 模块划分 数据流优化
下载PDF
基于GPU的分子动力学模拟并行化及实现 被引量:9
11
作者 费辉 张云泉 +1 位作者 王可 许亚武 《计算机科学》 CSCD 北大核心 2011年第9期275-278,287,共5页
分子动力学模拟作为获得液体、固体性质的重要计算手段,广泛应用于化学、物理、生物、医药、材料等众多领域。模拟体系的复杂性和精确性的需求,使得计算量巨大,耗费时间长。并行计算是加速大规模分子动力学模拟的重要途径。GPU以几百GFl... 分子动力学模拟作为获得液体、固体性质的重要计算手段,广泛应用于化学、物理、生物、医药、材料等众多领域。模拟体系的复杂性和精确性的需求,使得计算量巨大,耗费时间长。并行计算是加速大规模分子动力学模拟的重要途径。GPU以几百GFlops甚至上TFlops的运算能力,为分子动力学模拟等的计算密集型应用提供了新的加速方案。提出了一种基于GPU的分子动力学模拟并行算法——oApT-AD,并在OpenCL和CUDA框架下加以实现。性能测试显示,在Tesla C1060显卡上,该算法在OpenCL框架下的实现相对于CPU的串行实现,最高达到120倍加速比。通过对比发现,该算法在CUDA上的性能与OpenCL基本相当。同时,该算法还可以扩展到两块及以上的GPU上,具有良好的可扩展性。 展开更多
关键词 分子动力学 GPU opencl CUDA 原子分解法
下载PDF
基于OpenCL的FPGA设计优化方法研究 被引量:8
12
作者 范兴山 彭军 黄乐天 《电子技术应用》 北大核心 2014年第1期16-19,共4页
FPGA因其强大的运算能力成为了众多高性能应用的最佳选择,但其传统的开发方法存在门槛高、周期长等众多不足。OpenCL作为跨平台的开发语言,为FPGA提供了一种全新的开发方法。此方法开发周期短、抽象层次高、可移植性强,弥补了传统开发... FPGA因其强大的运算能力成为了众多高性能应用的最佳选择,但其传统的开发方法存在门槛高、周期长等众多不足。OpenCL作为跨平台的开发语言,为FPGA提供了一种全新的开发方法。此方法开发周期短、抽象层次高、可移植性强,弥补了传统开发方式的不足。介绍了OpenCL开发FPGA的相关优化方法,以矩阵乘法和QR分解为例,深入分析了各种优化方法的优缺点及适用情况。 展开更多
关键词 FPGA opencl 矩阵乘法 QR分解
下载PDF
基于高性能计算的雷达信号处理研究综述 被引量:11
13
作者 耿昭谦 朱虎明 +2 位作者 李旭明 陈梅青 杨贵鹏 《电子科技》 2021年第9期1-6,共6页
随着软件定义雷达技术的发展和信号处理算法日趋复杂,以多核处理器和图形处理器等为代表的高性能计算技术在雷达系统中得到了更多的应用。文中重点介绍了高性能计算硬件系统最新的技术进展,对比分析了并行计算软件框架CUDA、OpenCL、Ope... 随着软件定义雷达技术的发展和信号处理算法日趋复杂,以多核处理器和图形处理器等为代表的高性能计算技术在雷达系统中得到了更多的应用。文中重点介绍了高性能计算硬件系统最新的技术进展,对比分析了并行计算软件框架CUDA、OpenCL、OpenMP、MPI和Pthread的技术特点,并利用多线程流水线技术设计了基于CPU的并行雷达信号处理算法,探讨了高性能计算在雷达信号处理中的应用技术发展趋势。 展开更多
关键词 雷达信号处理 高性能计算 并行计算 图形处理器 加速器 并行编程模型 开放计算语言 流水线
下载PDF
基于OpenCL的实时KD-Tree与动态场景光线跟踪 被引量:8
14
作者 卢贺齐 鲍鹏 冯结青 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2013年第7期963-973,共11页
目前,基于GPU或多核CPU加速的光线跟踪算法是与硬件相关的.研究具有跨平台性能的实时光线跟踪算法既具有挑战性,又具有很强的应用价值.为此,提出一种基于OpenCL并且跨平台的动态场景实时光线跟踪绘制算法.首先通过对通用GPU并行处理性... 目前,基于GPU或多核CPU加速的光线跟踪算法是与硬件相关的.研究具有跨平台性能的实时光线跟踪算法既具有挑战性,又具有很强的应用价值.为此,提出一种基于OpenCL并且跨平台的动态场景实时光线跟踪绘制算法.首先通过对通用GPU并行处理性能进行发掘,将光线跟踪中KD-Tree建立、场景遍历和绘制3个过程均设计在GPU上,而CPU只负责其中各过程的调度,从而充分利用了GPU的计算性能,并有效地降低了数据传输开销;通过设计并行分区、并行SAH、紧密的数据管理以及区间性叶结点存储等算法,在GPU中高效、高质量地建立动态场景的KD-Tree,同时高质量的KD-Tree也有效地加速了场景的遍历速度.该算法以广度优先和大规模并行模式建立KD-Tree,更具通用性,既可以运行于NVIDIA GPU(CUDA GPU),也可以运行于AMD GPU.实验结果表明,文中算法可以在NVIDIA GPU和AMD GPU上对中等规模的动态场景实现实时光线跟踪绘制. 展开更多
关键词 KD—Tree 表面积启发式 GPU并行计算 opencl 光线跟踪 动态场景
下载PDF
基于Caffe的嵌入式多核处理器深度学习框架并行实现 被引量:7
15
作者 高榕 张良 梅魁志 《西安交通大学学报》 EI CAS CSCD 北大核心 2018年第6期36-41,113,共7页
针对开源深度学习快速特征嵌入的卷积框架(Caffe)在Android移动端进行前向计算时存在的兼容性和时间性能差的问题,提出了基于Caffe的嵌入式同构、异构并行化改进设计方法。该方法将Caffe及其第三方库通过交叉编译移植到嵌入式移动平台后... 针对开源深度学习快速特征嵌入的卷积框架(Caffe)在Android移动端进行前向计算时存在的兼容性和时间性能差的问题,提出了基于Caffe的嵌入式同构、异构并行化改进设计方法。该方法将Caffe及其第三方库通过交叉编译移植到嵌入式移动平台后,利用同构的多核多线程方法分别对卷积层、输入帧之间的部分前向计算过程进行了并行化;实现了采用开放运算语言(OpenCL)的异构图形处理器(GPU)卷积计算,进一步提升了框架的处理速度。对3种经典的深度神经网络模型MNIST、Cifar-10和CaffeNet进行了测试对比,测试结果表明:在没有任何模型精度损失的条件下,并行后的前向计算耗时明显低于并行前,时间性能提升最高达到2倍。所提方法能够将深度学习框架Caffe高效地、并行地部署和应用于嵌入式移动多核芯片上。 展开更多
关键词 深度学习 移动端 前向计算 并行 opencl
下载PDF
基于OpenCL的图像积分图算法优化研究 被引量:6
16
作者 贾海鹏 张云泉 徐建良 《计算机科学》 CSCD 北大核心 2013年第2期1-7,共7页
图像积分图算法在快速特征检测中有着广泛的应用,通过GPU对其进行性能加速有着重要的现实意义。然而由于GPU硬件架构的复杂性和不同硬件体系架构间的差异性,完成图像积分图算法在GPU上的优化,进而实现不同GPU平台间的性能移植是一件非... 图像积分图算法在快速特征检测中有着广泛的应用,通过GPU对其进行性能加速有着重要的现实意义。然而由于GPU硬件架构的复杂性和不同硬件体系架构间的差异性,完成图像积分图算法在GPU上的优化,进而实现不同GPU平台间的性能移植是一件非常困难的工作。在分析不同GPU平台底层硬件架构的基础上,从片外访存带宽利用率、计算资源利用率和数据本地化等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响。并在此基础上实现了基于OpenCL的图像积分图算法。实验结果表明,优化后的算法在AMD和NVIDIA GPU上分别取得了11.26和12.38倍的性能加速,优化后的GPU kernel比NVIDIA NPP库中的相应函数也分别取得了55.01%和65.17%的性能提升。验证了提出的优化方法的有效性和性能可移植性。 展开更多
关键词 opencl GPU 图像积分图算法 跨平台
下载PDF
基于激光导引头信号的并行高速FFT算法设计 被引量:7
17
作者 朱立坤 贾方秀 李兴隆 《激光技术》 CAS CSCD 北大核心 2018年第1期89-93,共5页
为了减少激光半主动武器中测量光学器件光斑点坐标时噪声和干扰对探测精度影响、增加脉冲信号的测量带宽、提取信号的有效值,同时克服串行快速傅里叶变换(FFT)运算耗时及时间复杂度较大的问题,基于多核和并行架构的SoC-FPGA平台以及Ope... 为了减少激光半主动武器中测量光学器件光斑点坐标时噪声和干扰对探测精度影响、增加脉冲信号的测量带宽、提取信号的有效值,同时克服串行快速傅里叶变换(FFT)运算耗时及时间复杂度较大的问题,基于多核和并行架构的SoC-FPGA平台以及OpenCL软件,提出了实现并行FFT的计算方法。结果表明,利用该方法可使FFT(1-D)的时间复杂度下降到原来的1/Q,得到了较好的加速效果;通过3种平台(先进精简指令集微处理器、数字信号处理器和片上系统现场可编程门阵列)的运算耗时实验对比,该算法运算耗时为6.0449ms(1-D4096点),要比同点数其它两种平台运算耗时少。并行FFT算法不仅满足激光半主动导引头信号实时性的要求,而且可以达到去噪的效果,能有效地降低噪声和背景光的影响。 展开更多
关键词 测量与计量 并行快速傅里叶变换 SoC-FPGA opencl 时间复杂度 激光半主动
下载PDF
面向神威·太湖之光的国产异构众核处理器OpenCL编译系统 被引量:7
18
作者 伍明川 黄磊 +2 位作者 刘颖 何先波 冯晓兵 《计算机学报》 EI CSCD 北大核心 2018年第10期2236-2250,共15页
近年来硬件设计呈现出异构化的趋势,如何有效开发并行程序成为制约异构系统发展的瓶颈之一已成为业界共识.我国自主研制的"神威·太湖之光"超级计算机,采用了国产片上异构众核处理器SW26010,为了降低程序员的编程难度,同... 近年来硬件设计呈现出异构化的趋势,如何有效开发并行程序成为制约异构系统发展的瓶颈之一已成为业界共识.我国自主研制的"神威·太湖之光"超级计算机,采用了国产片上异构众核处理器SW26010,为了降低程序员的编程难度,同时提高软件的移植效率,作者设计并实现了支持国产SW26010众核处理器的OpenCL编译系统.该编译系统实现了OpenCL平台模型、内存模型和执行模型到SW26010众核处理器的映射与优化机制,同时生成性能良好的可执行文件.最后通过实验验证了该编译系统的正确性和有效性,典型OpenCL应用经该编译系统编译后,在中小输入规模下,性能显著优于Intel Xeon Phi,与NVIDIA GPU可比;在较大输入规模下,受限于局存SPM的容量限制,性能略低于NVIDIA GPU. 展开更多
关键词 opencl 异构 国产众核处理器 编译系统
下载PDF
面向国产CPU的可重构计算系统设计及性能探究 被引量:7
19
作者 彭福来 于治楼 +2 位作者 陈乃阔 耿士华 李凯一 《计算机工程与应用》 CSCD 北大核心 2018年第23期36-41,共6页
为了提升国产平台的计算性能,采用国产CPU+FPGA的异构架构,设计了基于国产CPU的可重构计算系统。该系统包括基于国产CPU的主机单元和FPGA可重构加速单元,主机单元负责逻辑判断与管理调度等任务,FPGA负责对计算密集型任务进行加速,并采用... 为了提升国产平台的计算性能,采用国产CPU+FPGA的异构架构,设计了基于国产CPU的可重构计算系统。该系统包括基于国产CPU的主机单元和FPGA可重构加速单元,主机单元负责逻辑判断与管理调度等任务,FPGA负责对计算密集型任务进行加速,并采用OpenCL框架模型进行编程,以缩短FPGA的开发周期。为了验证该系统的性能,采用AES加密算法来测试该系统的计算性能,通过对不同长度的明文进行AES加密测试,并与CPU串行处理结果进行对比,得出:相比于单核FT-1500A CPU串行加密方式,采用可重构计算系统并行加密能够获得120多倍的加速比,且此加速比会随着明文长度的增加而成非线性增大。实验结果表明:基于国产CPU的可重构计算系统能够大幅提升国产平台的计算性能。 展开更多
关键词 可重构计算 国产CPU 现场可编程门阵列(FPGA) AES算法 opencl
下载PDF
基于FPGA的大数据K-means算法优化 被引量:7
20
作者 胡雷钧 庞松涛 +2 位作者 朱炯 公维峰 赵雅倩 《电力信息与通信技术》 2016年第8期1-6,共6页
K-means算法是机器学习中的经典聚类算法,可用于石油、电力、金融等领域的数据挖掘。当前大数据的发展进一步推动了K-means算法的应用,但也对其计算性能提出了更高的要求。文章在对K-means算法的实现原理进行分析的基础上,提出了基于现... K-means算法是机器学习中的经典聚类算法,可用于石油、电力、金融等领域的数据挖掘。当前大数据的发展进一步推动了K-means算法的应用,但也对其计算性能提出了更高的要求。文章在对K-means算法的实现原理进行分析的基础上,提出了基于现场可编程门阵列(Field Programmable Gate Array,FPGA)的大数据K-means算法优化方案,以降低系统能耗与成本。K-means算法对比实验数据表明,与基于Spark框架的8核心CPU平台相比,FPGA异构平台的计算性能提升2.5~4.4倍,能耗下降68%,能效比提升7.8~13.8倍。 展开更多
关键词 K-MEANS算法 SPARK FPGA异构计算 opencl
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部