期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
硬件感知的神经架构搜索
1
作者 王鑫 姚洋 +2 位作者 蒋昱航 关超宇 朱文武 《中国科学:信息科学》 CSCD 北大核心 2023年第5期899-917,共19页
深度神经网络(deep neural networks, DNNs)能否取得令人满意的性能很大程度上依赖于其神经网络架构.研究人员提出神经网络架构搜索(neural architecture search, NAS)来自动搜索神经网络的最优架构,现有的工作大多使用每秒浮点运算次数... 深度神经网络(deep neural networks, DNNs)能否取得令人满意的性能很大程度上依赖于其神经网络架构.研究人员提出神经网络架构搜索(neural architecture search, NAS)来自动搜索神经网络的最优架构,现有的工作大多使用每秒浮点运算次数(floating point operations per second, FLOPs)来评价神经网络架构的实际效率,但是FLOPs和实际延迟并不是完全一致的.随着任务变得越来越复杂以及越来越多的硬件平台开始运行基于深度神经网络的算法,为硬件平台搜索高效的神经网络架构已成为亟待解决的难题.为了解决这一问题,本文提出了硬件感知的搜索空间构造方法,并借助考虑架构推断延迟的搜索策略,来搜索最优的神经网络架构.本文在可变换神经网络架构搜索方法(transformable architecture search, TAS)和图神经网络架构搜索方法 (graph neural architecture search, GraphNAS)上应用了该方法,提出了硬件可感知的可变换神经网络架构搜索方法 (hardwareaware transformable architecture search, HTAS)和硬件感知的图神经网络架构搜索方法 (hardwareaware graph neural architecture search, HGNAS).相比于现有方法,本文所提出的这两种算法在多种数据集上均针对不同类型目标硬件搜索出了更加高效的深度神经网络架构,从而证明了该方法的有效性. 展开更多
关键词 深度学习 神经网络架构搜索 可变换神经网络架构搜索 图神经网络架构搜索 硬件感知
原文传递
基于硬件感知的多目标神经结构搜索方法
2
作者 许柯 孟源 +2 位作者 杨尚尚 田野 张兴义 《计算机学报》 EI CAS CSCD 北大核心 2023年第12期2651-2669,共19页
神经结构搜索技术可以在大量候选网络集合中搜索到适用于特定任务的神经网络结构.目前,大多数结构搜索网络的部署是针对英伟达GPU、英特尔CPU或谷歌TPU等硬件设备的.然而,将搜索到的架构迁移到一些AI专用加速器中,如寒武纪加速卡或华为A... 神经结构搜索技术可以在大量候选网络集合中搜索到适用于特定任务的神经网络结构.目前,大多数结构搜索网络的部署是针对英伟达GPU、英特尔CPU或谷歌TPU等硬件设备的.然而,将搜索到的架构迁移到一些AI专用加速器中,如寒武纪加速卡或华为Atlas推理加速器,推理效果却表现不佳.主要存在两方面的问题:在搜索空间设计层面,由于硬件架构设计对不同算子的支持存在差异,复用传统的搜索空间到专用神经网络加速器上,其推理效率不是最优的;在结构搜索层面,由于专用神经网络加速器在并行计算资源和数据流水通道等设计的不同,仅采用参数量、计算量作为搜索目标不能准确度量推理延迟,并且限制了神经结构搜索在精度和延迟上的探索空间.为了解决上述问题,本文提出一种基于硬件感知的多目标神经结构搜索方法,首先通过测试不同类型的卷积算子在目标硬件上的性能表现,使用非支配排序设计出定制化的高效搜索空间.然后,将延迟纳入搜索目标,提出一种启发式的混合粒度交叉算子,通过粗粒度阶段间交叉和细粒度阶段内交叉提高种群在多目标下的收敛性和多样性,更好地权衡神经网络的精度和推理延迟.本文主要针对国产寒武纪加速卡MLU270-F4进行了实验分析与方法验证,在CIFAR-10上搜索得到的MLUNet-S4精度比DARTS高0.14%的同时推理速度提升了4.7倍,相比于NSGANet精度仅下降0.04%的同时速度提升了5.5倍;在ILSVRC2012数据集上MLUNet-C相较于具有相同推理速度的Mobile Net V2和Mnas Net速度上提升了1.2倍的同时预测精度也分别提升了2.3%和0.2%,效果提升显著. 展开更多
关键词 图像分类 进化算法 多目标神经结构搜索 硬件感知神经结构搜索 寒武纪加速卡
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部