期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
从粗粒度到细粒度的神经机器翻译系统推断加速方法 被引量:7
1
作者 张裕浩 许诺 +2 位作者 李垠桥 肖桐 朱靖波 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第2期175-184,共10页
近年来,Transformer模型中多层注意力网络的使用有效提升了翻译模型的译文质量,但同时大量注意力操作的使用也导致模型整体的推断效率相对较低.基于此,提出了从粗粒度到细粒度(coarse-to-fine,CTF)的方法,根据注意力权重中的信息量差异... 近年来,Transformer模型中多层注意力网络的使用有效提升了翻译模型的译文质量,但同时大量注意力操作的使用也导致模型整体的推断效率相对较低.基于此,提出了从粗粒度到细粒度(coarse-to-fine,CTF)的方法,根据注意力权重中的信息量差异对信息表示进行细粒度压缩,最终达到加速推断的目的.实验发现,在NIST中英和WMT英德翻译任务上,该方法在保证模型性能的同时,推断速度分别提升了13.9%和12.8%.此外,还进一步分析了注意力操作在不同表示粒度下的信息量差异,对该方法的合理性提供支持. 展开更多
关键词 神经机器翻译 模型加速 从粗粒度到细粒度
下载PDF
基于深度卷积神经网络的汽车图像分类算法与加速研究 被引量:3
2
作者 黄佳美 张伟彬 熊官送 《现代电子技术》 北大核心 2024年第7期140-144,共5页
在非法占用公交车道违规车辆等领域的边缘计算与识别中,针对基于深度卷积神经网络的图像物体分类算法模型算力需求大与边缘设备部署后有限资源的突出矛盾,如何设计边缘计算设备的加速单元以保证分类算法的精度与实时性具有重要意义。针... 在非法占用公交车道违规车辆等领域的边缘计算与识别中,针对基于深度卷积神经网络的图像物体分类算法模型算力需求大与边缘设备部署后有限资源的突出矛盾,如何设计边缘计算设备的加速单元以保证分类算法的精度与实时性具有重要意义。针对上述问题,提出一种基于深度卷积神经网络的公交分类算法,该方法在现场可编程逻辑门阵列上实现了公交车图像分类算法的加速。通过基于迁移学习方法对ResNet50预训练模型进行微调,采用嵌入式端的推理加速实现对模型的推理,并对FPGA加速方案进行推理部署实现。结果表明,该算法具有硬件配置灵活、信息处理加速快的优点,这为实现神经网络在嵌入式平台的高效、高速应用提供了有效解决方案。 展开更多
关键词 图像分类 边缘计算 卷积神经网络 迁移学习 ResNet50模型 加速推理
下载PDF
Swin Transformer轻量化:融合权重共享、蒸馏与剪枝的高效策略
3
作者 韩博 周顺 +3 位作者 范建华 魏祥麟 胡永杨 朱艳萍 《电信科学》 北大核心 2024年第9期66-74,共9页
偏移窗口的分层视觉转换器(Swin Transformer)因其优秀的模型能力而在计算机视觉领域引起了广泛的关注,然而Swin Transformer模型有着较高的计算复杂度,限制了其在计算资源有限设备上的适用性。为缓解该问题,提出一种融合权重共享及蒸... 偏移窗口的分层视觉转换器(Swin Transformer)因其优秀的模型能力而在计算机视觉领域引起了广泛的关注,然而Swin Transformer模型有着较高的计算复杂度,限制了其在计算资源有限设备上的适用性。为缓解该问题,提出一种融合权重共享及蒸馏的模型剪枝压缩方法。首先,在各层之间实现了权重共享,并添加变换层实现权重变换以增加多样性。接下来,构建并分析变换块的参数依赖映射图,构建分组矩阵F记录所有参数之间的依赖关系,确定需要同时剪枝的参数。最后,蒸馏被用于恢复模型性能。在ImageNet-Tiny-200公开数据集上的试验表明,在模型计算复杂度减少32%的情况下,最低仅造成约3%的性能下降,有效降低了模型的计算复杂度。为实现在计算资源受限环境中部署高性能人工智能模型提供了一种解决方案。 展开更多
关键词 偏移窗口的分层视觉转换器 模型轻量化 推理加速 剪枝 蒸馏 权重共享
下载PDF
一种改进型级联神经网络检测算法及加速处理
4
作者 张子振 南钢洋 +1 位作者 孟凡超 白雪 《计算机仿真》 2024年第2期255-260,316,共7页
为提高MTCNN网络检测准确度,且针对检测密集样本容易漏检的问题,通过改进网络隐藏层结构提高网络学习能力,通过Soft-NMS惩罚置信度方式筛选检测框,提高了网络检测准确度,针对密集样本仍保持高精度;且为提高改进后网络推理速度和克服网... 为提高MTCNN网络检测准确度,且针对检测密集样本容易漏检的问题,通过改进网络隐藏层结构提高网络学习能力,通过Soft-NMS惩罚置信度方式筛选检测框,提高了网络检测准确度,针对密集样本仍保持高精度;且为提高改进后网络推理速度和克服网络依赖PC端资源问题,基于HLS实现了网络加速推理。实验结果表明,改进后各子网络检测准确度由93.73%、95.30%、95.89%提高至94.78%、96.30%、97.55%,密集样本测试集测试准确度为97.21%;使用硬件加速对比2.9GhzCPU推理速度快3.3倍,硬件资源最大占用91%,较好利用硬件资源实现了加速处理。 展开更多
关键词 神经网络 人脸检测 置信度 推理加速
下载PDF
基于多任务学习的输电线路小金具缺失推理加速算法
5
作者 程绳 葛雄 +6 位作者 肖非 朱传刚 吴军 肖海涛 李嗣 楚江平 袁雨薇 《计算机测量与控制》 2023年第7期251-257,共7页
针对输电线路小金具缺失的检测问题,对小金具缺失算法的加速推理进行研究,采用多任务头的学习方法,将小金具缺失检测任务使用一个Swin Transformer网络结构[12]和多个由多层感知机组成的任务头组合的方式进行多任务学习推理,并进行单任... 针对输电线路小金具缺失的检测问题,对小金具缺失算法的加速推理进行研究,采用多任务头的学习方法,将小金具缺失检测任务使用一个Swin Transformer网络结构[12]和多个由多层感知机组成的任务头组合的方式进行多任务学习推理,并进行单任务和多任务学习的推理精度和推理性能对比实验,最后还通过实验得到在多任务学习中插拔式扩展任务,实验结果表明在输电线路小金具缺失推理算法中多任务学习比单任务学习的推理性能提升了2倍多,同时显存占用降低了22%以上;通过插拔式扩展任务实验,验证了扩展任务的效果,可灵活扩展配置任务。 展开更多
关键词 多任务头学习 加速推理 输电线路 小金具缺失 扩展任务学习
下载PDF
基于共享主干网络的人物属性识别推理加速算法
6
作者 刘智文 刘全 +1 位作者 宋玮 赵天成 《智能物联技术》 2022年第6期4-10,共7页
随着视频监控系统在公共场所的广泛应用,人物属性识别需求越来越多。同时,大量的监控视频数据对算法准确性、推理性能和可扩展的多属性识别要求越来越高。针对以上问题,本文对人物属性识别推理加速算法进行了研究,采用了多任务学习的方... 随着视频监控系统在公共场所的广泛应用,人物属性识别需求越来越多。同时,大量的监控视频数据对算法准确性、推理性能和可扩展的多属性识别要求越来越高。针对以上问题,本文对人物属性识别推理加速算法进行了研究,采用了多任务学习的方法,将人物属性识别任务共享Swin Transformer主干网络连接多个MLP任务头的方式进行多任务学习和多任务推理,并在多任务学习中无缝增加扩展任务。与单任务学习的对比实验结果表明,本算法基于多任务学习的人物属性识别比单任务学习的推理速度提升了2.9倍以上,在推理显存占用上降低了21.9%,人物属性识别任务配置也更加灵活。 展开更多
关键词 多任务学习 推理加速 人物属性 并行推理 共享主干网络
下载PDF
基于树莓派的高效卷积优化方法
7
作者 郭晓龙 牛晋宇 杜永萍 《计算机技术与发展》 2023年第5期96-104,共9页
针对卷积神经网络(CNN)的巨大参数量和计算量而导致在树莓派等低功耗的边缘设备模型推理过程中产生耗时较大的问题,对网络上现有的开源推理框架进行了深入研究及对比分析,发现这些都属于通用型推理框架,并不能针对树莓派设备进行极致推... 针对卷积神经网络(CNN)的巨大参数量和计算量而导致在树莓派等低功耗的边缘设备模型推理过程中产生耗时较大的问题,对网络上现有的开源推理框架进行了深入研究及对比分析,发现这些都属于通用型推理框架,并不能针对树莓派设备进行极致推理优化。因此,提出了基于RoofLine模型的定量分析方法,从访存和运算二个维度对Mobilenet等移动端网络架构模型进行卷积推理优化。研究采用了计算图优化方法,利用算子融合和内存重排做推理预处理,从而减少推理过程的计算量和访存开销;同时针对每一层的卷积参数量和特性,提出了9宫格分块策略和NEON指令流水线级别的优化。实验表明,所提出的优化方法在不同的分辨率下,相比腾讯的开源框架NCNN、阿里MNN和商汤PPL.NN在推理速度上取得了高于3倍的性能优化。 展开更多
关键词 深度学习模型推理加速 计算图优化 算子融合 卷积优化 移动端推理框架
下载PDF
面向异构IoT设备协作的DNN推断加速研究 被引量:1
8
作者 孙胜 李叙晶 +2 位作者 刘敏 杨博 过晓冰 《计算机研究与发展》 EI CSCD 北大核心 2020年第4期709-722,共14页
深度神经网络(deep neural network,DNN)已经广泛应用于各种智能应用,如图像和视频识别.然而,由于DNN任务计算量大,资源受限的物联网(Internet of things,IoT)设备难以本地单独执行DNN推断任务.现有云协助方法容易受到通信延迟无法预测... 深度神经网络(deep neural network,DNN)已经广泛应用于各种智能应用,如图像和视频识别.然而,由于DNN任务计算量大,资源受限的物联网(Internet of things,IoT)设备难以本地单独执行DNN推断任务.现有云协助方法容易受到通信延迟无法预测和远程服务器性能不稳定等因素的影响.一种非常有前景的方法是利用IoT设备协作实现分布式、可扩展DNN任务推断.然而,现有工作仅研究IoT设备同构情况下的静态拆分策略.因此,迫切需要研究如何在能力异构且资源受限的IoT设备间自适应地拆分DNN任务,协作执行任务推断.上述研究问题面临2个重要挑战:1)DNN任务多层推断延迟难以准确预测;2)难以在异构动态的多设备环境中实时智能调整协作推断策略.为此,首先提出细粒度可解释的多层延迟预测模型.进一步,利用进化增强学习(evolutionary reinforcement learning,ERL)自适应确定DNN推断任务的近似最优拆分策略.实验结果表明:该方法能够在异构动态环境中实现显著DNN推断加速. 展开更多
关键词 深度神经网络推断加速 异构设备协作 进化增强学习 多层预测模型 拆分策略
下载PDF
基于在轨计算的低轨卫星智能化技术研究
9
作者 郗传秀 孙其博 王尚广 《信息通信技术》 2023年第6期50-55,共6页
从“新空间”时代卫星在轨计算的发展现状出发,文章探讨基于在轨计算的卫星智能化面临的挑战和解决方案,包括卫星资源分配与星载任务调度技术、空间容错技术以及星载推理加速技术,最后介绍低轨卫星智能化研究未来的发展趋势。
关键词 低轨卫星 在轨计算 卫星资源分配 卫星容错技术 星载推理加速技术
下载PDF
基于嵌入式平台的车前红外行人检测方法研究
10
作者 张良 李鑫 +2 位作者 赵晓敏 蒋瑞洋 张国栋 《汽车技术》 CSCD 北大核心 2023年第1期9-14,共6页
针对当前目标检测方法普遍需要高功耗GPU计算平台、易受光照条件影响的问题,提出2种基于嵌入式平台的车前红外行人检测方法:将训练好的YOLOv4-tiny模型使用英伟达开源推理加速库TensorRT进行优化,部署于嵌入式平台;以YOLOv4-tiny模型作... 针对当前目标检测方法普遍需要高功耗GPU计算平台、易受光照条件影响的问题,提出2种基于嵌入式平台的车前红外行人检测方法:将训练好的YOLOv4-tiny模型使用英伟达开源推理加速库TensorRT进行优化,部署于嵌入式平台;以YOLOv4-tiny模型作为算法的基本架构,结合视觉注意力机制和空间金字塔池化思想,同时增加1个YOLO层,提出YOLOv4-tiny+3L+SPP+CBAM网络模型。将2种方法在FLIR数据集上进行训练与测试,并在Jetson TX2嵌入式平台上进行试验,试验结果表明:相较于原始网络YOLOv4-tiny,所提出的第1种方法平均准确率降低0.54%,推理速度提升86.43%(帧速率达26.1帧/s);提出的第2种方法平均准确率提升16.21%,推理速度降低22.86%(帧速率达10.8帧/s)。2种方法均可兼顾准确率和实时性,能够满足车前红外行人检测的需要。 展开更多
关键词 目标检测 红外图像 开源推理加速库 注意力机制 Jetson TX2平台
下载PDF
异构并行平台的Caffe推理速度提升方法
11
作者 王子曦 邵培南 邓畅 《计算机系统应用》 2022年第2期220-226,共7页
随着计算机硬件性能的提高,目前在个人终端上也开始出现使用预训练机器学习模型进行推理的运用.Caffe是一款流行的深度学习框架,擅长图像分类等任务,但是在默认状态下只能单核运行,无法充分发挥异构并行计算设备的计算能力.深度学习对... 随着计算机硬件性能的提高,目前在个人终端上也开始出现使用预训练机器学习模型进行推理的运用.Caffe是一款流行的深度学习框架,擅长图像分类等任务,但是在默认状态下只能单核运行,无法充分发挥异构并行计算设备的计算能力.深度学习对于计算性能的要求较高,如果能并行化以充分使用所有计算设备,就能提升计算速度和使用体验.由于CPU和GPU的计算性能之比在不同模型下存在差异,因此不能简单将任务均分到多个计算设备.而任务拆分过多或者需要等待多设备完成任务后同步的调度算法会引入更多开销.因此,还需要设计合适的调度算法减少设备空闲时间,才能获得更好的性能.已有一些提高Caffe并行表现的方法,但是对于具体平台有限制且使用难度较高,无法简单充分利用异构并行计算设备的计算能力.本文将Caffe接口扩展,使得自定义程序可以调用异构并行平台的多核或多计算设备使用Caffe进行深度学习推理.接着将目前已有的多种调度算法运用到此类任务上并考察了运行效果.为了减少已有调度算法的同步开销,本文提出了先进先出调度和快速分块调度两种新的算法.测试表明,使用快速分块调度算法结合异构并行计算设备,Caffe的推理速度相比只使用单个CPU核心或者单个GPU都大幅提升.而且,相比已有调度算法中表现最好的HAT算法,本文提出的快速分块调度算法在MNIST和Cifar-10两个数据集上分别减少了7.4%和21.0%的计算性能浪费. 展开更多
关键词 调度算法 Caffe推理加速 快速分块调度算法 异构并行平台调度 深度学习性能优化
下载PDF
大模型关键技术与应用 被引量:2
12
作者 韩炳涛 刘涛 《中兴通讯技术》 北大核心 2024年第2期76-88,共13页
介绍了自ChatGPT发布以来,大模型关键技术和应用的主要进展。在大模型设计方面,模型规模不断增加,但已有放缓趋势,更长的上下文以及多模态已经成为主流,计算效率明显提升;在模型训练方面,从单纯追求数据数量逐渐转变为关注数据的多样性... 介绍了自ChatGPT发布以来,大模型关键技术和应用的主要进展。在大模型设计方面,模型规模不断增加,但已有放缓趋势,更长的上下文以及多模态已经成为主流,计算效率明显提升;在模型训练方面,从单纯追求数据数量逐渐转变为关注数据的多样性和质量,特别是如何使用合成数据训练大模型成为主流探索方向,这是迈向通用人工智能(AGI)的关键;在模型推理方面,模型量化和推理引擎优化极大降低了模型使用成本,诸如投机采样等新兴算法逐渐成熟。在应用层,Agent技术获得了重大进展,在克服大模型固有缺陷方面发挥了不可替代的作用。越来越多的企业开始规划、研发以及使用大模型,企业级大模型应用架构日益成熟完善,并以场景、技术、算法三要素为抓手加速大模型商业价值闭环。 展开更多
关键词 大模型 模型训练 推理加速 大模型安全 智能体
下载PDF
深度学习的10年回顾与展望 被引量:2
13
作者 韩炳涛 刘涛 唐波 《中兴通讯技术》 2022年第6期75-84,共10页
过去10年深度学习在算法、算力、数据方面获得了长足发展,使人工智能(AI)技术突破商用限制,行业应用场景日益广泛,产业规模持续扩大。在基础模型方面出现了卷积、注意力机制等关键突破;在学习方法方面,强化学习、自监督学习、大模型并... 过去10年深度学习在算法、算力、数据方面获得了长足发展,使人工智能(AI)技术突破商用限制,行业应用场景日益广泛,产业规模持续扩大。在基础模型方面出现了卷积、注意力机制等关键突破;在学习方法方面,强化学习、自监督学习、大模型并行训练等使模型学习能力大大加强。新型AI计算芯片不断涌现,使计算能效提升百倍。未来10年,深度学习若要保持可持续的指数增长态势,绿色、高效、安全将成为新的核心要素。空间计算、近似计算等技术有望使AI芯片效能继续获得百倍提升。一系列生态融合工具的出现将解决目前日趋严峻的生态碎片化问题。AI安全、可信将成为AI技术应用的基本要求。 展开更多
关键词 深度学习 AI芯片 推理加速 可信AI 开源
下载PDF
基于忆阻器的脉冲神经网络硬件加速器架构设计 被引量:4
14
作者 武长春 周莆钧 +4 位作者 王俊杰 李国 胡绍刚 于奇 刘洋 《物理学报》 SCIE EI CAS CSCD 北大核心 2022年第14期298-306,共9页
脉冲神经网络(spiking neural network,SNN)作为第三代神经网络,其计算效率更高、资源开销更少,且仿生能力更强,展示出了对于语音、图像处理的优秀潜能.传统的脉冲神经网络硬件加速器通常使用加法器模拟神经元对突触权重的累加.这种设... 脉冲神经网络(spiking neural network,SNN)作为第三代神经网络,其计算效率更高、资源开销更少,且仿生能力更强,展示出了对于语音、图像处理的优秀潜能.传统的脉冲神经网络硬件加速器通常使用加法器模拟神经元对突触权重的累加.这种设计对于硬件资源消耗较大、神经元/突触集成度不高、加速效果一般.因此,本工作开展了对拥有更高集成度、更高计算效率的脉冲神经网络推理加速器的研究.阻变式存储器(resi-stive random access memory,RRAM)又称忆阻器(memristor),作为一种新兴的存储技术,其阻值随电压变化而变化,可用于构建crossbar架构模拟矩阵运算,已经在被广泛应用于存算一体(processing in memory,PIM)、神经网络计算等领域.因此,本次工作基于忆阻器阵列,设计了权值存储矩阵,并结合外围电路模拟了LIF(leaky integrate and fire)神经元计算过程.之后,基于LIF神经元模型实现了脉冲神经网络硬件推理加速器设计.该加速器消耗了0.75k忆阻器,集成了24k神经元和192M突触.仿真结果显示,在50 MHz的工作频率下,该加速器通过部署三层的全连接脉冲神经网络对MNIST(mixed national institute of standards and techno-logy)数据集进行推理加速,其最高计算速度可达148.2 frames/s,推理准确率为96.4%. 展开更多
关键词 脉冲神经网络 阻变式存储器 存内计算 LIF 神经元 硬件推理加速器
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部