期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
基于神经网络的格子玻尔兹曼算法
1
作者 韦伟汛 贺胜圣 黄志刚 《机电工程技术》 2024年第1期115-118,共4页
在科学研究和工业应用的复杂流域、多相流以及多物理流动问题的处理中,相较于传统计算流体力学方法(Computational Fluid Dynamics,CFD),格子玻尔兹曼算法(Lattice Boltzmann Method,LBM)具有程序结构简单、对复杂边界和非线性问题适应... 在科学研究和工业应用的复杂流域、多相流以及多物理流动问题的处理中,相较于传统计算流体力学方法(Computational Fluid Dynamics,CFD),格子玻尔兹曼算法(Lattice Boltzmann Method,LBM)具有程序结构简单、对复杂边界和非线性问题适应性强以及便于并行计算等诸多优点。然而,其作为一种显式算法,在计算过程中的迭代次数较多,进而消耗大量计算资源。利用神经网络在预测与回归方面的强大能力,基于LBM设计了一个具备单隐藏层的浅层人工神经网络预测模型并将其命名为ML-LBM(Machine Learning LBM)模型。该模型通过动态调整碰撞算子中不同驰豫时间,以粗化网格来重现精细分辨的参考模拟。对于顶盖驱动流问题,模型完成训练后,对测试集均方误差在6×10-5以下,精度得到了保障。相较于经典LBGK模型,ML-LBM模型的计算效率提升约9倍。 展开更多
关键词 格子玻尔兹曼算法 碰撞算子 神经网络结构 算法加速
下载PDF
基于深度学习的实时图像目标检测系统设计 被引量:14
2
作者 李林 张盛兵 吴鹃 《计算机测量与控制》 2019年第7期15-19,共5页
针对图像目标检测的嵌入式实时应用需求,采用合并计算层的方法对基于MobileNet和单发多框检测器(SSD)的深度学习目标检测算法进行了优化,并采用软硬件结合的设计方法,基于ZYNQ可扩展处理平台设计了实时图像目标检测系统;在系统中,根据... 针对图像目标检测的嵌入式实时应用需求,采用合并计算层的方法对基于MobileNet和单发多框检测器(SSD)的深度学习目标检测算法进行了优化,并采用软硬件结合的设计方法,基于ZYNQ可扩展处理平台设计了实时图像目标检测系统;在系统中,根据优化后的算法设计了一款多处理器核的深度学习算法加速器,并采用PYTHON语言设计了系统的软件;经过多个实验测试,深度学习目标检测系统处理速度可以达到45FPS,是深度学习软件框架在CPU上运行速度的4.9倍,在GPU上的1.7倍,完全满足实时图像目标检测的需求。 展开更多
关键词 深度学习 图像目标检测 实时 算法加速器
下载PDF
基于2m级大口径望远镜的幸运成像算法的实验研究 被引量:9
3
作者 毛栊哗 李彬华 +2 位作者 张西亮 季凯帆 金振宇 《光学技术》 CAS CSCD 北大核心 2018年第5期542-548,共7页
幸运成像技术是一种相对简单的事后图像处理技术,主要是对短曝光图像进行像质评价,之后选取出高质量图像进行配准、叠加来复原出高分辨率目标图像。根据幸运成像技术的理论算法,提出了一种适用于地基2.4m大口径望远镜的幸运成像技术方案... 幸运成像技术是一种相对简单的事后图像处理技术,主要是对短曝光图像进行像质评价,之后选取出高质量图像进行配准、叠加来复原出高分辨率目标图像。根据幸运成像技术的理论算法,提出了一种适用于地基2.4m大口径望远镜的幸运成像技术方案和GPU局部加速算法流程。使用该方案拍摄的短曝光图像进行幸运成像,获得了间距为0.3″的双星高分辨率图像。在选图过程中利用GPU设备进行并行计算,探讨了加速幸运成像算法的可行性以及计算瓶颈的问题。实验结果表明,在近红外条件下,2m级大口径望远镜所拍摄的图像,可以使用幸运成像算法重建出高分辨率的图像,其FWHM约0.2″;GPU设备能够实现幸运成像算法的加速,并提高整个算法的效率。 展开更多
关键词 幸运成像 大口径 高分辨率 算法加速 双星
原文传递
畸变差改正算法OpenCL并行加速研究 被引量:4
4
作者 于梦华 王双亭 +2 位作者 李英成 朱祥娥 刘晓龙 《遥感信息》 CSCD 北大核心 2019年第3期88-92,共5页
针对畸变差改正算法的处理速度不高和CUDA实现算法加速的设备局限性问题,提出了一种OpenCL并行改进畸变差纠正算法实现加速的方法。该方法是对传统的畸变差纠正算法进行并行改进,通过调用计算机GPU的计算单元实现算法加速;采用CPU+GPU... 针对畸变差改正算法的处理速度不高和CUDA实现算法加速的设备局限性问题,提出了一种OpenCL并行改进畸变差纠正算法实现加速的方法。该方法是对传统的畸变差纠正算法进行并行改进,通过调用计算机GPU的计算单元实现算法加速;采用CPU+GPU的异构模式实现算法加速,将传统算法中逐像素密集计算部分分配到GPU进行处理;与CUDA实现算法加速针对NVIDIA显卡设备不同,OpenCL并行改进的算法没有了设备的限制。实验结果表明,相对于传统算法来说,影像畸变差纠正处理速度显著提升,总体加速比最高达5.976,计算部分加速比最高达到63.432,同时在AMD显卡设备上也得到了较好的加速效果。 展开更多
关键词 OPENCL 算法加速 畸变差改正 并行改进 加速比
下载PDF
基于纹理指示图的非局域去噪改进算法 被引量:3
5
作者 徐进 郑鹏程 吕锐 《计算机工程与应用》 CSCD 2013年第6期190-194,共5页
非局域均值算法(NLM)是一种有效的去噪算法,能够在去噪的同时充分保护图像纹理信息。但是在像素的平滑中,权重分配过度依赖像素块相似性,缺乏其他更有效信息的指导,另外原算法计算量过大也是制约其应用的一个瓶颈。提出了一种基于图像... 非局域均值算法(NLM)是一种有效的去噪算法,能够在去噪的同时充分保护图像纹理信息。但是在像素的平滑中,权重分配过度依赖像素块相似性,缺乏其他更有效信息的指导,另外原算法计算量过大也是制约其应用的一个瓶颈。提出了一种基于图像纹理指示图的NLM快速改进算法TNLM。该指示图利用二维DCT变换对图像每一个像素为中心的小块进行分析,获得全图像素的纹理重要性指示图,将该指示图引入到传统NLM算法以改进去噪效果。同时,也对算法进行加速优化,通过改进的积分图技术、快速傅里叶变换和块预选技术,提高了算法的速度。实验证明,该算法的处理效果和速度都优于传统算法。 展开更多
关键词 非局域均值 离散余弦变换 纹理分析 算法加速
下载PDF
基于GPU的K-近邻算法实现 被引量:3
6
作者 田盼 华蓓 陆李 《计算机工程》 CAS CSCD 北大核心 2015年第2期189-192,198,共5页
K-近邻计算在数据集规模较大时计算复杂度较高,因此,利用图形处理器(GPU)强大的并行计算能力对K-近邻算法进行加速。在分析现有K-近邻算法的基础上,针对该算法时间开销过大的问题,结合GPU的体系结构特征实现基于GPU的K-近邻算法。利用... K-近邻计算在数据集规模较大时计算复杂度较高,因此,利用图形处理器(GPU)强大的并行计算能力对K-近邻算法进行加速。在分析现有K-近邻算法的基础上,针对该算法时间开销过大的问题,结合GPU的体系结构特征实现基于GPU的K-近邻算法。利用全局存储器的合并访问特性,提高GPU全局存储器访问数据的效率,通过事先过滤数据的方法来减少参与排序的数据量,进而减少排序阶段的线程串行化时间。在KDD,Poker,Covertype 3个数据集上进行实验,结果表明,该实现方法在距离计算阶段每秒执行的浮点运算次数为266.37×109次,而排序阶段为26.47×109次,优于已有方法。 展开更多
关键词 K-近邻问题 图形处理器 并行计算 算法加速 合并访问 全局存储器
下载PDF
基于Zynq的虹膜识别系统设计与实现 被引量:2
7
作者 李萌 徐驰 俞度立 《自动化与仪器仪表》 2020年第2期8-11,共4页
针对虹膜识别系统存在成本高、操作难度大等不足,给出一种基于Zynq的虹膜识别系统设计方法,进一步拓展虹膜识别系统在民用市场中的运用面。具体讲,就是将虹膜图像存储在SD卡内,通过linux的ramfs(am file system)将SD卡中的虹膜图像加载... 针对虹膜识别系统存在成本高、操作难度大等不足,给出一种基于Zynq的虹膜识别系统设计方法,进一步拓展虹膜识别系统在民用市场中的运用面。具体讲,就是将虹膜图像存储在SD卡内,通过linux的ramfs(am file system)将SD卡中的虹膜图像加载到RAM,使用VDMA将虹膜数据从RAM搬运至虹膜降噪IP核进行算法加速,完成矩阵卷积的硬件加速,加速完成的数据通过VDMA,搬运回至RAM,供虹膜处理的下一个阶段使用。实验结是证明了所提方法的有效性。 展开更多
关键词 虹膜识别 图像存储 降噪IP核 算法加速
原文传递
基于Facet模型与方向相对极差的红外小目标检测方法 被引量:2
8
作者 吴志佳 陈小林 +1 位作者 王雨青 李荅群 《红外》 CAS 2019年第5期10-17,共8页
在对Facet.模型的方向导数特征进行研究的基础上,针对红外弱小目标提出了一种利用局部方向相对极差计算显著性的方法,以快速有效地提取复杂背景下的红外弱小目标。基于弱小目标单帧检测理论,首先计算原始图像的Facet方向导数特征,然后在... 在对Facet.模型的方向导数特征进行研究的基础上,针对红外弱小目标提出了一种利用局部方向相对极差计算显著性的方法,以快速有效地提取复杂背景下的红外弱小目标。基于弱小目标单帧检测理论,首先计算原始图像的Facet方向导数特征,然后在Facet方向导数特征图的局部内,沿着导数方向计算相对极差对比度显著图。通过对各个方向上的相对极差对比度显著图进行融合得到最终的显著性图像。最后,采用适当的阈值分割从该图像中提取目标。实验结果表明,本文算法对复杂红外弱小目标图像具有很高的信杂比增益和背景抑制因子。另外,该算法的计算复杂度低且可利用二维卷积加速计算,具有良好的算法实时性,适用于各种处理器平台的工程实现。 展开更多
关键词 红外弱小目标检测 相对极差 局部对比度 方向导数特征 算法加速
下载PDF
基于CPU-FPGA异构系统的排序算法加速 被引量:2
9
作者 寇远博 邱泽宇 +1 位作者 王亮 黄建强 《电子技术应用》 2022年第1期18-23,30,共7页
传统的排序方法主要以软件串行的方式实现,包括冒泡排序、选择排序等。这些算法往往采用顺序比较,运算的时间复杂度较高。近年来已经提出了一些并行度较高的排序算法,但是由于CPU的硬件特点,不能很好地利用这些算法的并行性。而FPGA具... 传统的排序方法主要以软件串行的方式实现,包括冒泡排序、选择排序等。这些算法往往采用顺序比较,运算的时间复杂度较高。近年来已经提出了一些并行度较高的排序算法,但是由于CPU的硬件特点,不能很好地利用这些算法的并行性。而FPGA具有良好的灵活性、并行性和集成性等特点,因此在FPGA上可以更好地发挥这些并行算法的优势,从而大大提高数据排序的实时性。基于此设计了一个CPU-FPGA异构系统,将一些排序算法移植到FPGA上,并进行功能验证和理论性能评估。结果显示,该系统对于并行性高的排序算法具有良好的加速效果,但逻辑资源消耗巨大,适用于实时性要求高的算法加速场景。 展开更多
关键词 FPGA 排序算法 异构系统 算法加速
下载PDF
基于SIMD的CFAR算法加速 被引量:1
10
作者 李寿阳 何国强 刘巍 《国外电子测量技术》 2019年第1期42-47,共6页
针对雷达信号处理领域中的恒虚警率(constant false alarm rate,CFAR)算法的广泛应用,在高性能DSP上实现CFAR算法的性能优化具有研究价值。首先阐述了CFAR算法在雷达信号处理流程中用来解决杂波背景数据的干扰问题的基本原理;其次给出... 针对雷达信号处理领域中的恒虚警率(constant false alarm rate,CFAR)算法的广泛应用,在高性能DSP上实现CFAR算法的性能优化具有研究价值。首先阐述了CFAR算法在雷达信号处理流程中用来解决杂波背景数据的干扰问题的基本原理;其次给出了高性能DSP向量核的硬件架构设计,给出了流水排布优化、Cache预取等利于算法并行化运算的硬件优化实现方案;最后运用单指令多数据流(SIMD)指令对CFAR算法进行了重写优化。实验结果表明,设计的向量核模块与SIMD指令集使CFAR算法能够充分发挥处理器的计算性能,与C接口的CFAR算法相比可以大幅度缩小算法实现时间。 展开更多
关键词 恒虚警率算法 SIMD 向量运算部件 算法加速实现
下载PDF
对Schoof算法加速方法的研究
11
作者 杨元华 邵桂芳 《现代计算机》 2009年第4期36-39,共4页
介绍两种计算椭圆曲线离散对数的求解算法——袋鼠算法和BSGS算法,并比较了它们各自的特点。将它们应用于对Schoof算法的加速过程中,提出了加速后的算法。实验结果说明加速后可以获得很大的速度的提升。
关键词 算法 袋鼠算法 算法 算法加速
下载PDF
基于Jetson-TX2的输电线路设备实时巡检系统 被引量:1
12
作者 杨学杰 陈文栋 +2 位作者 许荣浩 李宋林 李建业 《山东科学》 CAS 2021年第2期81-89,共9页
针对输电线路及设备巡检效率低的问题,设计了一种基于Jetson-TX2的输电线路设备实时巡检系统。该系统包括基于YOLO v3算法的Jetson-TX2主控模块和云台相机控制模块。Jetson-TX2主控模块通过TensorRT加速库,对YOLO v3算法模型进行优化加... 针对输电线路及设备巡检效率低的问题,设计了一种基于Jetson-TX2的输电线路设备实时巡检系统。该系统包括基于YOLO v3算法的Jetson-TX2主控模块和云台相机控制模块。Jetson-TX2主控模块通过TensorRT加速库,对YOLO v3算法模型进行优化加速,完成视频流目标实时识别与定位;采用PID算法控制云台(PTZ)相机,实现设备的高清图像采集。该系统对输电线路设备整体识别准确率达95%,可实现对视频流的实时检测,有效提高输电线路巡检效率。 展开更多
关键词 输电线路巡检 视频实时检测 算法加速 云台控制 Jetson-TX2 YOLO v3 目标定位
下载PDF
基于Eigen和OpenCV的图像算法加速 被引量:1
13
作者 舒畅 秦肖臻 《微型机与应用》 2017年第24期40-43,共4页
OpenCV作为一款免费、开源的计算机视觉库已广泛应用于图像处理的各种项目开发中。在算法实现中,高性能的线性代数运算库能提升算法的执行效率和算法实现灵活性。介绍了Eigen线性代数运算库,并在矩阵运算效率上与OpenCV进行了比较。以基... OpenCV作为一款免费、开源的计算机视觉库已广泛应用于图像处理的各种项目开发中。在算法实现中,高性能的线性代数运算库能提升算法的执行效率和算法实现灵活性。介绍了Eigen线性代数运算库,并在矩阵运算效率上与OpenCV进行了比较。以基于SVD分解的图像压缩算法为例,将Eigen和OpenCV进行联合编程并给出了主要代码。 展开更多
关键词 OPENCV EIGEN 图像处理 算法加速
下载PDF
压缩感知重构算法的并行化及GPU加速 被引量:1
14
作者 何文杰 何伟超 孙权森 《山东大学学报(工学版)》 CAS 北大核心 2018年第3期110-114,共5页
针对压缩感知重构算法计算实时性太差的问题,提出压缩采样追踪匹配(compressive sampling matching pursuit,Co Sa M P)算法的并行化加速算法。基于多线程技术实现重构算法的粗粒度并行化,分析Co Sa M P算法的计算热点,将其中耗时较多... 针对压缩感知重构算法计算实时性太差的问题,提出压缩采样追踪匹配(compressive sampling matching pursuit,Co Sa M P)算法的并行化加速算法。基于多线程技术实现重构算法的粗粒度并行化,分析Co Sa M P算法的计算热点,将其中耗时较多的矩阵操作移植在图形处理器(graphics processing unit,GPU)上,实现算法的细粒度并行化。在测试图像上进行试验,结果表明:并行化加速算法取得50倍的加速效果,有效地降低重构算法的计算时间开销。 展开更多
关键词 压缩感知 重构算法 算法加速 并行化计算 图形处理器
原文传递
物联网中压缩感知算法的云加速方法 被引量:1
15
作者 张永平 张功萱 朱昭萌 《电子科技大学学报》 EI CAS CSCD 北大核心 2014年第3期413-419,共7页
为了减少采集的数据量,提出在物联网中引入"边采样边压缩"的新型采样方法——压缩感知。针对压缩感知理论中信号重建算法计算复杂度较高的问题,设计并实现了一个基于云平台和代码迁移的算法加速方案;该方案解决了代码并行化... 为了减少采集的数据量,提出在物联网中引入"边采样边压缩"的新型采样方法——压缩感知。针对压缩感知理论中信号重建算法计算复杂度较高的问题,设计并实现了一个基于云平台和代码迁移的算法加速方案;该方案解决了代码并行化的自动翻译、算法向云端迁移、本地和云端执行同步等问题,对可并行化的算法,仅需要增加几个新定义的接口及插入一些描述性的注释,就可以利用云资源实现算法的加速;实验表明,该方案是可行的、有效的。该文还研究了基于物联网资源的云加速方法,提出了基于云加速方案、结合多核/多CPU方法和GPGPU方法,能充分利用已有物联网资源的混合压缩感知算法加速框架,并初步设计了理论运行流程。 展开更多
关键词 算法加速 云计算 压缩感知 物联网 并行化
下载PDF
一种基于ARMv8架构CPU的算法加速方法
16
作者 孟承 王静娇 《雷达与对抗》 2023年第3期37-39,47,共4页
基于目前主流的硬件平台ARMv8架构CPU,提出一种使用SIMD技术的算法加速方法,以atan2函数为例,与标准库的性能作对比。实验结果表明,在FT1500计算平台上,采用此种方式优化的算法性能有显著提升。
关键词 雷达信号处理 CPU SIMD 算法加速
下载PDF
多相异步电机电磁仿真加速算法
17
作者 方唯可 《通信电源技术》 2018年第4期59-60,共2页
现代电机设计中,仿真是优化电机技术指标和加快设计过程的必备手段。多相异步电机由于相数多、机械结构和控制算法复杂,其电磁仿真计算量很大,需要通过优化仿真算法和合理简化来加速仿真过程。利用Matlab工具,通过算法优化,仿真时间可缩... 现代电机设计中,仿真是优化电机技术指标和加快设计过程的必备手段。多相异步电机由于相数多、机械结构和控制算法复杂,其电磁仿真计算量很大,需要通过优化仿真算法和合理简化来加速仿真过程。利用Matlab工具,通过算法优化,仿真时间可缩减70%。对比实验表明,算法加速前后的仿真结果基本一致。 展开更多
关键词 多相交流 异步电机 电磁仿真 算法加速 MATLAB
下载PDF
基于深度神经网络的格子玻尔兹曼算法
18
作者 陈辛阳 聂滋森 +2 位作者 蒋子超 杨耿超 姚清河 《中山大学学报(自然科学版)(中英文)》 CAS CSCD 北大核心 2021年第5期39-49,共11页
格子玻尔兹曼算法(LBM,Lattice Boltzmann method)相较于传统计算流体力学方法具有程序结构简单,对复杂边界和非线性问题适应性强以及便于并行计算等诸多优点。然而,其作为一种显式算法,在计算过程中的迭代次数较多,进而消耗大量计算资... 格子玻尔兹曼算法(LBM,Lattice Boltzmann method)相较于传统计算流体力学方法具有程序结构简单,对复杂边界和非线性问题适应性强以及便于并行计算等诸多优点。然而,其作为一种显式算法,在计算过程中的迭代次数较多,进而消耗大量计算资源。利用深度学习在预测与回归方面的强大能力,基于LBM设计了一个由卷积层与卷积长短期记忆层组成的人工神经网络预测模型并将其命名为C-LBM(compressed LBM)。该模型能等效替代多个普通LBM迭代。对于方腔环流问题,模型完成训练后,对测试集均方差在5×10^(-6)以下,对泛化算例在10-5以下,精度得到了保障。相较于串行LBM程序,C-LBM模型计算效率提升约15倍。 展开更多
关键词 格子玻尔兹曼算法 数据驱动模型 深度学习 算法加速
下载PDF
基于肌电信号和加速度信号的动态手势识别方法 被引量:7
19
作者 谢小雨 刘喆颉 《计算机应用》 CSCD 北大核心 2017年第9期2700-2704,共5页
为了增强手势识别的多样性和简便性,提出了一种基于肌电信号(EMG)和加速度(ACC)信息融合的方法来识别动态手势。首先,利用MYO传感器采集EMG和ACC的手势动作信息;然后分别对ACC和EMG信号作特征降维和预处理;最后,为减少训练样本数,提出... 为了增强手势识别的多样性和简便性,提出了一种基于肌电信号(EMG)和加速度(ACC)信息融合的方法来识别动态手势。首先,利用MYO传感器采集EMG和ACC的手势动作信息;然后分别对ACC和EMG信号作特征降维和预处理;最后,为减少训练样本数,提出用协作稀疏表示分类器来识别基于ACC信号的姿态手势,用动态时间规整(DTW)算法和K-最邻近分类器(KNN)来分类EMG信号的手形手势。其中在利用协作稀疏表示分类器识别ACC姿态信号时,通过对创建字典最佳样本个数以及特征降维的维数进行研究来降低手势识别的复杂度。实验结果表明,手形手势的平均识别率达到了99.17%,对于向上向下、向左向右4种姿态手势平均识别率达到96.88%,而且计算速度快;对于总体的12个动态手势,其平均识别率达到96.11%。该方法对动态手势的识别率较高,计算速度快。 展开更多
关键词 手势识别 协作稀疏表示 肌电信号 动态时间规整算法 加速度
下载PDF
基于开源处理器Rocket的异构SoC设计与验证 被引量:4
20
作者 高营 刘德 鞠虎 《电子与封装》 2021年第3期62-66,共5页
随着神经网络隐层数的增多,训练计算量增大。为提高算法的执行效率,包含硬件算法加速器的异构片上系统(So C)相继被提出。开源处理器Rocket core项目含有核生成器,不仅能够定制核的个数而且含有协处理扩展接口,易于异构So C的研究和设... 随着神经网络隐层数的增多,训练计算量增大。为提高算法的执行效率,包含硬件算法加速器的异构片上系统(So C)相继被提出。开源处理器Rocket core项目含有核生成器,不仅能够定制核的个数而且含有协处理扩展接口,易于异构So C的研究和设计工作。基于开源处理器Rocket core和开源项目Si-Five Blocks,以ReLU协处理器和向量内积加速器为例搭建了精简的So C,并以FPGA开发板VC707为验证平台,完成了ReLU和向量内积加速器的原型验证,结果证明了该异构So C对加速卷积神经网络运算的有效性和实用性。 展开更多
关键词 开源处理器 硬件算法加速器 平台验证 异构SoC
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部