期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
GPU加速与L-ORB特征提取的全景视频实时拼接 被引量:11
1
作者 杜承垚 袁景凌 +1 位作者 陈旻骋 李涛 《计算机研究与发展》 EI CSCD 北大核心 2017年第6期1316-1325,共10页
全景视频是在同一视点拍摄记录全方位场景的视频.随着虚拟现实(VR)技术和视频直播技术的发展,全景视频的采集设备受到广泛关注.然而制作全景视频要求CPU和GPU都具有很强的处理能力,传统的全景产品往往依赖于庞大的设备和后期处理,导致... 全景视频是在同一视点拍摄记录全方位场景的视频.随着虚拟现实(VR)技术和视频直播技术的发展,全景视频的采集设备受到广泛关注.然而制作全景视频要求CPU和GPU都具有很强的处理能力,传统的全景产品往往依赖于庞大的设备和后期处理,导致高功耗、低稳定性、没有实时性且不利于信息安全.为了解决这些问题,首先提出了L-ORB特征点提取算法,该算法优化了分割视频图像的特征检测区域以及简化ORB算法对尺度和旋转不变性的支持;然后利用局部敏感Hash(Multi-Probe LSH)算法对特征点进行匹配,用改进的样本一致性(progressive sample consensus,PROSAC)算法消除误匹配,得到帧图像拼接映射关系,并采用多频带融合算法消除视频间的接缝.此外,使用整合了ARM A57CPU和Maxwell GPU的Nvidia Jetson TX1异构嵌入式系统,利用其Teraflops的浮点计算能力和内建的视频采集、存储、无线传输模块,实现了多摄像头视频信息的实时全景拼接系统,有效地利用GPU指令的块、线程、流并行策略对图像拼接算法进行加速.实验结果表明,算法在图像拼接的特征提取、特征匹配等各个阶段均有很好的性能提升,其算法速度是传统ORB算法的11倍、传统SIFT算法的639倍;系统较传统的嵌入式系统性能提升了29倍,但其功耗低至10W. 展开更多
关键词 全景视频 图像拼接 异构计算 嵌入式gpu ORB
下载PDF
基于深度学习的行为识别及在电力系统的应用 被引量:10
2
作者 安妙 孔英会 +1 位作者 沈辉 车辚辚 《电力科学与工程》 2019年第3期59-65,共7页
变电站在电力系统中发挥着重要的作用,随着智能监控系统的快速发展,无人值守变电站已经成为一种普遍的变电站管理模式。针对监控视频中的人体行为进行识别和分析对于电力系统有着重要的研究意义和广阔的应用前景。采用长效递归卷积网络(... 变电站在电力系统中发挥着重要的作用,随着智能监控系统的快速发展,无人值守变电站已经成为一种普遍的变电站管理模式。针对监控视频中的人体行为进行识别和分析对于电力系统有着重要的研究意义和广阔的应用前景。采用长效递归卷积网络(Long-term Recurrent Convolutional Networks,LRCN)模型结合视频中的外观信息和动态信息实现对视频中的人体行为进行识别。通过实验验证了LRCN模型在标准数据集上表现了良好的鲁棒性和泛化能力;并针对变电站及电力施工相关场景下的监控视频进行了测试,验证了LRCN模型能够用于电力系统智能监控中进行行为的识别;最后将LRCN行为识别模型移植到嵌入式GPU模块上实现可移动的智能视频处理系统,使行为识别技术更好地应用到电力系统相关场景中。 展开更多
关键词 变电站 行为识别 长效递归卷积网络 嵌入式gpu
下载PDF
嵌入式GPU滑动聚束SAR实时成像方法 被引量:9
3
作者 胡善清 李慧星 +3 位作者 李炳沂 谢宜壮 陈亮 陈禾 《北京理工大学学报》 EI CAS CSCD 北大核心 2020年第9期1018-1025,共8页
针对SAR实时成像系统的传统计算平台实时性不足与功耗过高的问题,研究了一种基于嵌入式GPU的实现方法.为了充分利用嵌入式GPU中有限的内存资源,提出一种内存分割与重配置方案,采用页锁定内存和zero-copy技术,实现数传计算并行化处理;为... 针对SAR实时成像系统的传统计算平台实时性不足与功耗过高的问题,研究了一种基于嵌入式GPU的实现方法.为了充分利用嵌入式GPU中有限的内存资源,提出一种内存分割与重配置方案,采用页锁定内存和zero-copy技术,实现数传计算并行化处理;为解决实时性问题,在算法并行计算环节,利用共享内存、寄存器等资源实现大规模数据并行.结果表明,在TX2上完成16384×8192点滑聚SAR成像处理时间为12.66 s,功耗为15 W.该优化方法也适用于其他模式的雷达处理算法,并可为未来嵌入式实时成像处理提供参考. 展开更多
关键词 嵌入式gpu 滑动聚束 合成孔径雷达 在轨实时处理
下载PDF
轻量化目标检测算法研究及应用 被引量:6
4
作者 黄靖淞 左颢睿 张建林 《计算机工程》 CAS CSCD 北大核心 2021年第10期236-241,共6页
基于卷积神经网络的目标检测算法在追求较高精度的同时,忽略了检测速度,使得算法难以在有限算力的情况下实现实时检测。在YOLO目标检测算法的基础上,采用一系列轻量化的方法,运用Mobilenetv1网络替换Darknet53基础网络,将YOLO head部分3... 基于卷积神经网络的目标检测算法在追求较高精度的同时,忽略了检测速度,使得算法难以在有限算力的情况下实现实时检测。在YOLO目标检测算法的基础上,采用一系列轻量化的方法,运用Mobilenetv1网络替换Darknet53基础网络,将YOLO head部分3×3标准卷积替换为深度可分离卷积,根据灵敏度对卷积层滤波器进行排序和修剪,并在嵌入式GPU TX2平台上进行C++推理部署。在VOC数据集上的测试结果表明,改进算法在精度仅下降0.75个百分点的前提下实现了2.4倍加速,模型占用内存仅为原来的21.5%。 展开更多
关键词 目标检测 轻量化 深度可分离卷积 剪枝 嵌入式gpu C++推理部署
下载PDF
基于无损压缩和量化感知的SAR舰船检测网络边缘部署
5
作者 胡卫杰 刘颖冰 +1 位作者 马飞 张帆 《信号处理》 CSCD 北大核心 2024年第9期1674-1684,共11页
基于深度神经网络的方法在合成孔径雷达(Synthetic Aperture Radar,SAR)图像舰船目标检测任务上展现出巨大优势,但是庞大的参数量和算力需求导致其难以在资源受限的边缘环境下部署。针对该问题,本文从网络轻量化和模型部署优化两个层面... 基于深度神经网络的方法在合成孔径雷达(Synthetic Aperture Radar,SAR)图像舰船目标检测任务上展现出巨大优势,但是庞大的参数量和算力需求导致其难以在资源受限的边缘环境下部署。针对该问题,本文从网络轻量化和模型部署优化两个层面对单阶段目标检测网络YOLO(You Only Look Once)v5s进行改进,提出了面向边缘环境的SAR图像舰船目标检测网络部署方法。在网络轻量化层面,本文联合基于批归一化层缩放因子的通道级网络剪枝和基于特征响应的细粒度知识蒸馏实现了舰船检测网络的无损压缩。轻量化模型的参数量和计算量相较于基线分别下降了80.3%和51.3%,并且没有引起检测精度的损失,在SAR图像舰船检测数据集(SAR Ship Detection Dataset,SSDD)上的平均准确率为0.979(基线为0.980)。在模型部署优化层面,本文基于嵌入式GPU(Graphic Process Unit)提出了量化感知训练指导的混合精度TensorRT(Tensor Real-Time)推理引擎,大幅提升模型推理速度的同时降低了设备的运行功耗。轻量化推理引擎在尺寸为640×640 pixels的SAR图像上的推理速度为208帧每秒,达到了基线的3.41倍,同时设备的推理功耗仅6.2 W,相比基线下降了61.0%。另外,得益于量化感知训练,混合精度TensorRT推理引擎在取得与8位整型精度TensorRT推理引擎相似的推理速度和功耗的同时,平均准确率提升了44.1%,仅比基线下降了0.9%。试验数据证明,本文所提方法能够很好地兼顾边缘环境下SAR图像舰船目标检测的实时性、精准性和低功耗特性等要求。 展开更多
关键词 合成孔径雷达图像 舰船目标检测 模型压缩 嵌入式gpu
下载PDF
基于嵌入式CPU+GPU异构平台的遥感图像滤波加速
6
作者 谭鹏源 薛长斌 周莉 《空间科学学报》 CAS CSCD 北大核心 2024年第1期95-102,共8页
针对遥感图像在轨实时处理提出一种基于嵌入式CPU+GPU异构平台的遥感图像滤波加速设计方法.以加速拉普拉斯滤波为例,利用GPU的并行计算特点,通过数据划分及数据映射的方法对算法进行并行设计;利用GPU的向量单元和缓存等硬件资源,通过采... 针对遥感图像在轨实时处理提出一种基于嵌入式CPU+GPU异构平台的遥感图像滤波加速设计方法.以加速拉普拉斯滤波为例,利用GPU的并行计算特点,通过数据划分及数据映射的方法对算法进行并行设计;利用GPU的向量单元和缓存等硬件资源,通过采取向量化和向量重组以及工作组调优方法进一步提高了算法的运行速度.在嵌入式开发板上验证了加速设计的可行性和高效性.实验结果表明,相比于单CPU的串行实现,在增加GPU并行处理后的拉普拉斯滤波获得了4.08~16.92倍的加速比.进一步利用GPU硬件资源优化性能后,加速比可达15.38~56.41倍. 展开更多
关键词 嵌入式gpu 遥感图像滤波 OPENCL 向量化 向量重组
下载PDF
EG-STC: An Efficient Secure Two-Party Computation Scheme Based on Embedded GPU for Artificial Intelligence Systems
7
作者 Zhenjiang Dong Xin Ge +2 位作者 Yuehua Huang Jiankuo Dong Jiang Xu 《Computers, Materials & Continua》 SCIE EI 2024年第6期4021-4044,共24页
This paper presents a comprehensive exploration into the integration of Internet of Things(IoT),big data analysis,cloud computing,and Artificial Intelligence(AI),which has led to an unprecedented era of connectivity.W... This paper presents a comprehensive exploration into the integration of Internet of Things(IoT),big data analysis,cloud computing,and Artificial Intelligence(AI),which has led to an unprecedented era of connectivity.We delve into the emerging trend of machine learning on embedded devices,enabling tasks in resource-limited environ-ments.However,the widespread adoption of machine learning raises significant privacy concerns,necessitating the development of privacy-preserving techniques.One such technique,secure multi-party computation(MPC),allows collaborative computations without exposing private inputs.Despite its potential,complex protocols and communication interactions hinder performance,especially on resource-constrained devices.Efforts to enhance efficiency have been made,but scalability remains a challenge.Given the success of GPUs in deep learning,lever-aging embedded GPUs,such as those offered by NVIDIA,emerges as a promising solution.Therefore,we propose an Embedded GPU-based Secure Two-party Computation(EG-STC)framework for Artificial Intelligence(AI)systems.To the best of our knowledge,this work represents the first endeavor to fully implement machine learning model training based on secure two-party computing on the Embedded GPU platform.Our experimental results demonstrate the effectiveness of EG-STC.On an embedded GPU with a power draw of 5 W,our implementation achieved a secure two-party matrix multiplication throughput of 5881.5 kilo-operations per millisecond(kops/ms),with an energy efficiency ratio of 1176.3 kops/ms/W.Furthermore,leveraging our EG-STC framework,we achieved an overall time acceleration ratio of 5–6 times compared to solutions running on server-grade CPUs.Our solution also exhibited a reduced runtime,requiring only 60%to 70%of the runtime of previously best-known methods on the same platform.In summary,our research contributes to the advancement of secure and efficient machine learning implementations on resource-constrained embedded devices,paving the way for broader adoption o 展开更多
关键词 Secure two-party computation embedded gpu acceleration privacy-preserving machine learning edge computing
下载PDF
基于嵌入式GPU的pyramid LK光流法高速计算方法研究 被引量:3
8
作者 孙瑞鑫 朱国梁 +2 位作者 谢双镱 郭雪亮 柴志雷 《计算机应用研究》 CSCD 北大核心 2022年第7期1966-1972,共7页
在嵌入式计算平台上实现双向约束LK金字塔高精度光流的实时计算,是该算法能否应用于自动驾驶等场景的重要影响因素。为了实现该目的,提出了基于网格划分的特征提取方法及新的双向约束方法;然后设计了动态窗口的金字塔模型,解决了光流计... 在嵌入式计算平台上实现双向约束LK金字塔高精度光流的实时计算,是该算法能否应用于自动驾驶等场景的重要影响因素。为了实现该目的,提出了基于网格划分的特征提取方法及新的双向约束方法;然后设计了动态窗口的金字塔模型,解决了光流计算过程中的负载不均衡问题;最后通过降低计算位宽,使得整体性能获得进一步提升。实验结果表明:在Jetson TX2上,针对真实场景所用的720P视频,所提出方法的性能比OpenCV的GPU版本提升了4.1倍,达到30 fps以上;将采用该方法的SLAM系统成功应用于车载场景并在真实环境中测试,使得系统的性能达到了28 fps。新方法有效地提升了位姿和点云的精度,较好地满足了车载场景的实时处理需求。 展开更多
关键词 LK光流 嵌入式gpu CUDA SLAM 并行计算
下载PDF
一种嵌入式GPU上的实时图像语义分割方法 被引量:4
9
作者 董建升 袁景凌 钟忺 《小型微型计算机系统》 CSCD 北大核心 2019年第11期2445-2449,共5页
复杂的深度学习网络在嵌入式平台上的推理速度较低,很难满足实际应用需求.因此针对自动驾驶、智能机器人等实时性应用背景,提出了一个轻量级图像语义分割网络,并利用NVIDIA的推理加速器TensorRT进行合并层、精度校准、并行优化等操作,... 复杂的深度学习网络在嵌入式平台上的推理速度较低,很难满足实际应用需求.因此针对自动驾驶、智能机器人等实时性应用背景,提出了一个轻量级图像语义分割网络,并利用NVIDIA的推理加速器TensorRT进行合并层、精度校准、并行优化等操作,提高模型的计算效率,在嵌入式平台上实现了对深度学习模型的推理加速.实验结果表明,提出的模型在Cityscapes数据集上取得了72. 17%的m Io U,对于尺寸为512×1024的输入图像,经过TensorRT的推理加速后,在嵌入式平台NVIDIA Jetson Xavier上达到了45 FPS的推理速度,该速度约为原模型的1. 8倍.提出的模型和优化方法在保留较高准确度的前提下,实现了嵌入式平台上的实时图像语义分割,为深度学习模型在嵌入式平台上的实时性应用提供了支持. 展开更多
关键词 语义分割 深度学习 嵌入式gpu TensorRT
下载PDF
基于嵌入式GPU的特征畸变单目视觉定位系统的研究
10
作者 陈泽鹏 李文湧 +4 位作者 劳子健 陈羽 李佼洋 王嘉辉 郑民 《应用光学》 CAS 北大核心 2023年第3期469-475,共7页
视觉定位和导航在物流仓储等领域具有广泛的应用前景,传统单目视觉难以实现准确的定位,而双目视觉虽能完成精确的定位和导航,但硬件成本高且影响车体尺寸。提出一种基于特征物形变的单目定位技术,利用单个相机对地面铺设的特征物(带编... 视觉定位和导航在物流仓储等领域具有广泛的应用前景,传统单目视觉难以实现准确的定位,而双目视觉虽能完成精确的定位和导航,但硬件成本高且影响车体尺寸。提出一种基于特征物形变的单目定位技术,利用单个相机对地面铺设的特征物(带编码的圆环图案)的畸变进行记录,以嵌入式图像处理单元(graphics processing unit,GPU)进行分析,实现端到端的单目视觉定位。其中嵌入式GPU对相机采集的图像通过深度学习目标检测算法识别特征圆环的编码图案,经传统图像处理获取图案物像的形变信息,将该形变信息输入至经极端梯度提升算法(extreme gradient boosting,XGBoost)训练好的回归模型,预测出相机相对图案中心的坐标,同时结合该特征圆环的绝对坐标,最终解算出相机的室内绝对坐标。实验结果表明:在2 m×2 m的范围内定位平均误差仅为0.55 cm,优于文献报道1个数量级,且算法在电脑端和在嵌入式GPU上的定位解算帧率分别为20帧和4帧,具有实时性。 展开更多
关键词 嵌入式gpu 室内定位 深度学习 回归模型 圆环编码图案
下载PDF
计算机视觉创新实验平台研制 被引量:4
11
作者 叶晨 丁永超 《实验技术与管理》 CAS 北大核心 2019年第5期144-149,共6页
研制了一款基于NVIDIA JetsonTX1的计算机视觉创新实验平台。由于原基于ARM的MCU或者DSP已经无法满足其对算力的要求,因此该实验平台采用了内置GPU的TX1嵌入式芯片组,并且具备丰富外设接口,使得面向计算机视觉的创新实验不再局限于PC机... 研制了一款基于NVIDIA JetsonTX1的计算机视觉创新实验平台。由于原基于ARM的MCU或者DSP已经无法满足其对算力的要求,因此该实验平台采用了内置GPU的TX1嵌入式芯片组,并且具备丰富外设接口,使得面向计算机视觉的创新实验不再局限于PC机,可以进行面向应用的嵌入式开发,做到理论结合实践,增强实验教学效果。 展开更多
关键词 计算机视觉 嵌入式系统 实验平台 gpu
下载PDF
基于嵌入式GPU的三天线GNSS基带信号处理加速技术 被引量:3
12
作者 杨智博 金天 《导航定位与授时》 2020年第3期23-29,共7页
GNSS软件接收机因其可移植性及灵活性等优点,持续受到业内关注。但传统的软件接收机存在计算量大、耗时长的捕获和跟踪基带信号处理过程,使得软件接收机往往跟踪通道较少,且难以在嵌入式系统上运行。利用嵌入式图形处理器(GPU)的高浮点... GNSS软件接收机因其可移植性及灵活性等优点,持续受到业内关注。但传统的软件接收机存在计算量大、耗时长的捕获和跟踪基带信号处理过程,使得软件接收机往往跟踪通道较少,且难以在嵌入式系统上运行。利用嵌入式图形处理器(GPU)的高浮点性能和并行运算能力,对GNSS软件接收机中耗时长且并行性明显的模块进行加速,实现采用CUDA流的数据读取,以及多采样点并行的捕获和多采样点、多卫星并行的跟踪。采用嵌入式GPU进行加速后,可将数据读取速度提高3.43倍,卫星搜捕速度提高16.83倍,卫星跟踪速度提高11.28倍。实验结果表明,在嵌入式Jetson TX2平台上可以支持超过90个62MHz采样的GNSS卫星信号处理。研制了三天线GNSS信号的定位和测姿接收机,为未来小型嵌入式PNT系统的研制提供新思路。 展开更多
关键词 GNSS 软件接收机 基带信号处理 嵌入式gpu PNT
下载PDF
在线光束平差法的高速计算方法研究 被引量:1
13
作者 谢双镱 孙瑞鑫 +1 位作者 郭雪亮 柴志雷 《计算机应用研究》 CSCD 北大核心 2022年第7期1973-1978,共6页
光束平差法(bundle adjustment,BA)是同步定位和地图构建(simultaneous localization and mapping,SLAM)后端优化的关键技术。在线使用光束平差时能否满足实时性要求,是将其应用于自动驾驶车端等实时系统的关键因素。首先分析特定场景中... 光束平差法(bundle adjustment,BA)是同步定位和地图构建(simultaneous localization and mapping,SLAM)后端优化的关键技术。在线使用光束平差时能否满足实时性要求,是将其应用于自动驾驶车端等实时系统的关键因素。首先分析特定场景中SLAM数据特点,提出滑动窗口机制降低计算规模;分析局部BA计算中稀疏矩阵性质提升算法的可并行性;最后基于嵌入式GPU对算法进行并行加速。将其应用于车载SLAM系统并在真实场景下测试,实验结果表明,在AGX Xavier嵌入式GPU上,针对720P道路场景,该方法比同平台CPU上处理性能平均提升4.8倍,可以处理15 fps的相机位姿地图数据,满足了30 fps的视频处理需求,达到了车载系统的实时性要求。 展开更多
关键词 光束平差法 嵌入式gpu SLAM CUDA
下载PDF
基于嵌入式GPU的低功耗渔船驾驶舱人员检测方法 被引量:2
14
作者 邹勇搏 陈明 冯国富 《山东农业大学学报(自然科学版)》 北大核心 2020年第2期289-293,共5页
针对传统图像检测方法占用过多处理器资源、功耗高、发热量大,无法适应渔船船载电子设备防水防腐防盐雾的密封无风扇设计要求等问题,本文基于嵌入式低功耗处理平台,以可变形部件模型(DPM)算法为基础,采用嵌入式GPU及Open CL编程模型对... 针对传统图像检测方法占用过多处理器资源、功耗高、发热量大,无法适应渔船船载电子设备防水防腐防盐雾的密封无风扇设计要求等问题,本文基于嵌入式低功耗处理平台,以可变形部件模型(DPM)算法为基础,采用嵌入式GPU及Open CL编程模型对算法的滑动窗口检测部分进行并行化加速。在保证系统识别效果的前提下,提高了系统综合运行效率。实验结果表明,与CPU版本的检测性能相比,优化后的方法获得了3.75~4.23倍的加速比;与现有基于工控计算机的船载检测系统的检测方法相比,优化后的方法可以获得6.74~7.37倍的加速比,有效解决了在渔船上进行人员检测效率过低及功耗过高的问题。 展开更多
关键词 嵌入式gpu 渔船 图像检测
下载PDF
嵌入式GPU中U型存储布局tile缓存的设计与实现 被引量:2
15
作者 郝武 杜慧敏 +1 位作者 张丽果 黄世远 《微电子学与计算机》 北大核心 2019年第3期91-95,共5页
针对嵌入式GPU tile缓存在线性布局和Z型布局写回时由于地址跨度大而导致cache频繁冲突缺失的问题,设计了一种支持多级U型存储布局的tile缓存,使像素数据写回的地址连续,减少cache的冲突缺失,提高cache命中率.实验结果表明,当配置不同... 针对嵌入式GPU tile缓存在线性布局和Z型布局写回时由于地址跨度大而导致cache频繁冲突缺失的问题,设计了一种支持多级U型存储布局的tile缓存,使像素数据写回的地址连续,减少cache的冲突缺失,提高cache命中率.实验结果表明,当配置不同尺寸的tile缓存时,U型布局相对于线性布局cache命中率提高4%~13%,相对于Z型布局cache命中率提高1%~9%. 展开更多
关键词 嵌入式gpu tile缓存 U型布局
下载PDF
嵌入式GPU存储管理单元的设计与实现 被引量:2
16
作者 张丽果 刘雄 《西安邮电大学学报》 2018年第3期92-96,共5页
针对虚拟存储技术,设计并实现一种适用于嵌入式GPU的存储管理单元的硬件结构。采用两级页表同时匹配方式,对地址转换后援缓冲器结构进行改进,减少页切换;通过每级页表项存储检查标志位,实现存储保护;利用硬件机制处理异常,减少流水线暂... 针对虚拟存储技术,设计并实现一种适用于嵌入式GPU的存储管理单元的硬件结构。采用两级页表同时匹配方式,对地址转换后援缓冲器结构进行改进,减少页切换;通过每级页表项存储检查标志位,实现存储保护;利用硬件机制处理异常,减少流水线暂停导致的时钟周期浪费,从而实现虚拟地址到物理地址的转换。在SIMC0.18μm工艺库进行综合,并在ZC706开发板进行系统级验证,结果表明,该设计频率可达225 MHz,能够实现嵌入式GPU存储管理的要求。 展开更多
关键词 嵌入式gpu 存储管理元 转换后援缓冲器
下载PDF
重心坐标插值的三角形着色算法硬件实现 被引量:2
17
作者 杜慧敏 季凯柏 +1 位作者 蒋忭忭 郭冲宇 《西安邮电大学学报》 2016年第5期39-42,共4页
针对三角形的平滑着色技术,设计并实现一种三角形颜色插值的硬件加速器。根据三角形建立单元输入的三角形顶点数据,利用边界方程计算三角形的面积以及面积倒数。通过扫描转化模块筛选出每个三角形覆盖的有效像素块,最后利用三角形建立... 针对三角形的平滑着色技术,设计并实现一种三角形颜色插值的硬件加速器。根据三角形建立单元输入的三角形顶点数据,利用边界方程计算三角形的面积以及面积倒数。通过扫描转化模块筛选出每个三角形覆盖的有效像素块,最后利用三角形建立单元得到的边界方程值与三角形面积倒数值,通过插值模块实现经过扫描转换模块处理后的三角形内所有片元的颜色插值。测试结果表明,该加速器最大工作频率可达约为222.2 MHz,能够实现嵌入式GPU中图形平滑着色的要求。 展开更多
关键词 重心坐标插值 平滑着色 嵌入式gpu
下载PDF
基于双目相机与嵌入式GPU的SLAM系统设计 被引量:1
18
作者 佘黎煌 童文昊 +1 位作者 孙健伟 许洪瑞 《科技创新与应用》 2021年第4期59-61,66,共4页
定位与地图构建(Simultaneous Localization And Mapping,SLAM)技术在机器人、无人机以及虚拟现实等领域有着广泛的应用。然后由于计算资源等条件的限制,在嵌入式系统中应用SLAM技术仍是一种挑战。文章基于嵌入式GPU技术和双目流摄像头... 定位与地图构建(Simultaneous Localization And Mapping,SLAM)技术在机器人、无人机以及虚拟现实等领域有着广泛的应用。然后由于计算资源等条件的限制,在嵌入式系统中应用SLAM技术仍是一种挑战。文章基于嵌入式GPU技术和双目流摄像头设计实现了嵌入式实时SLAM系统,并结合深度学习的目标识别技术,来进一步优化环境信息的获取并解决环境认知和自身定位等问题。本应用系统样例,综合应用了人工智能、嵌入式操作系统和嵌入式GPU边缘计算技术,是嵌入式技术课程深入建设发展的重要趋势之一。 展开更多
关键词 嵌入式教学 嵌入式gpu 双目SLAM 深度学习
下载PDF
基于嵌入式GPU的水声信号处理平台研究
19
作者 刘建涛 张海彬 《舰船电子工程》 2022年第1期146-149,共4页
GPU具有大规模并行运算的特点,使用GPU作为计算节点可以大量节省硬件投入成本。论文通过对GPU硬件架构分析研究GPU做为新一代信号处理平台的优势,通过对CUDA软件架构的分析,研究影响信号处理算法在GPU上的性能的主要因素和提升性能的方... GPU具有大规模并行运算的特点,使用GPU作为计算节点可以大量节省硬件投入成本。论文通过对GPU硬件架构分析研究GPU做为新一代信号处理平台的优势,通过对CUDA软件架构的分析,研究影响信号处理算法在GPU上的性能的主要因素和提升性能的方法。最后在Jetson agx xavier平台上实现波束形成算法,并和CPU与DSP上的运算性能进行对比。 展开更多
关键词 信号处理 嵌入式gpu CUDA 并行
下载PDF
基于众核处理器的多计算模式构造技术研究 被引量:1
20
作者 李叶繁 张凯龙 周兴社 《计算机测量与控制》 CSCD 北大核心 2012年第11期3098-3100,共3页
复杂嵌入式应用领域的具体计算任务不仅需要计算平台具有嵌入式高效能计算能力,而且应具有与应用特点匹配的计算资源结构;面向复杂嵌入式应用领域研究了众核处理机体系架构,在GPU基本计算形态的基础上,依据NVIDIA Kepler架构的特性,进... 复杂嵌入式应用领域的具体计算任务不仅需要计算平台具有嵌入式高效能计算能力,而且应具有与应用特点匹配的计算资源结构;面向复杂嵌入式应用领域研究了众核处理机体系架构,在GPU基本计算形态的基础上,依据NVIDIA Kepler架构的特性,进一步研究、构建了相应的众核组织与处理模式,将其形成3种基本计算模式:单任务并行计算、多任务并行计算、多任务流处理计算,有效地提高了嵌入式高性能计算的效能和灵活性。 展开更多
关键词 嵌入式系统 众核处理器 gpu CUDA KEPLER 计算模式
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部