随着人工智能(AI)技术的蓬勃发展,深度神经网络(DNN)模型被大规模应用到各类移动端与边缘端。然而,边缘端算力低、内存容量小,且实现模型加速需要深入掌握边缘端硬件知识,这增加了模型的部署难度,也限制了模型的推广应用。因此,基于张...随着人工智能(AI)技术的蓬勃发展,深度神经网络(DNN)模型被大规模应用到各类移动端与边缘端。然而,边缘端算力低、内存容量小,且实现模型加速需要深入掌握边缘端硬件知识,这增加了模型的部署难度,也限制了模型的推广应用。因此,基于张量虚拟机(TVM)提出一种DNN加速与部署方法,从而实现卷积神经网络(CNN)模型在现场可编程门阵列(FPGA)上的加速,并在分心驾驶分类应用场景下验证了所提方法的可行性。通过计算图优化方法减小了模型的访存和计算开销,通过模型量化方法减小了模型尺寸,通过计算图打包方法将卷积计算卸载到FPGA上执行以提高模型推理速度。与微处理器(MPU)相比,所提方法可使ResNet50和ResNet18在MPU+FPGA上的推理时间分别减少88.63%和77.53%;而在AUC(American University in Cairo)数据集上,相较于MPU,两个模型在MPU+FPGA上的top1推理精度仅下降了0.26和0.16个百分点。可见,所提方法可以降低不同模型在FPGA上的部署难度。展开更多
缺陷分类是钢铁表面缺陷检测的重要内容。在卷积神经网络(CNN)取得良好效果的同时,网络日益增长的参数量耗费了大量计算成本,为缺陷分类任务在个人计算机或低算力设备上的部署带来了巨大的挑战。针对上述问题,提出了一种新颖的轻量级网...缺陷分类是钢铁表面缺陷检测的重要内容。在卷积神经网络(CNN)取得良好效果的同时,网络日益增长的参数量耗费了大量计算成本,为缺陷分类任务在个人计算机或低算力设备上的部署带来了巨大的挑战。针对上述问题,提出了一种新颖的轻量级网络模型Mix-Fusion。首先,通过组卷积和通道洗牌两种操作,在保持精度的同时有效降低计算成本;其次,利用一个狭窄的特征映射对组间信息进行融合编码,并将生成的特征与原始网络结合,从而有效解决了"稀疏连接"卷积阻碍组间信息交换的问题;最后,用一种新型的混合卷积(Mix Conv)替代了传统的深度卷积(DWConv),以进一步提高模型的性能。在NEU-CLS数据集上的实验结果表明,Mix-Fusion网络在缺陷分类任务中的浮点运算次数和分类准确率分别为43.4 MFLOPs和98.61%。相较于Shuffle Net V2和Mobile Net V2网络,Mix-Fusion网络不仅降低了模型参数,压缩了模型大小,同时还得到了更好的分类精度。展开更多
针对一般无人车或无人机平台算力较低,无法运行较大的深度神经网络目标检测模型,或者即使能运行也无法达到实时目标检测的问题,提出了基于特定嵌入式平台的轻量级卷积神经网络压缩加速方法,在结构中引入attention机制,采用分组卷积与快...针对一般无人车或无人机平台算力较低,无法运行较大的深度神经网络目标检测模型,或者即使能运行也无法达到实时目标检测的问题,提出了基于特定嵌入式平台的轻量级卷积神经网络压缩加速方法,在结构中引入attention机制,采用分组卷积与快速卷积结构使模型推理速度加快,并通过知识蒸馏学习当前SOTA目标检测模型Fast的目标检测能力,最后通过后统计量化方法将推理模型进一步压缩提速,让模型在保持大型目标检测网络检测精度的同时,在嵌入式平台上也达到高精度实时运行的能力。在Nano无人车平台上,使用PASCAL VOC、ImageNet数据集对压缩后的目标检测模型进行实验验证。结果表明,模型参数量减少40%,平均精度均值(mean Average Precision,mAP)仅损失0.7%,每秒帧数(Frame Per Second,FPS)提升45%,并可在无人车上实时运行。展开更多
文摘随着人工智能(AI)技术的蓬勃发展,深度神经网络(DNN)模型被大规模应用到各类移动端与边缘端。然而,边缘端算力低、内存容量小,且实现模型加速需要深入掌握边缘端硬件知识,这增加了模型的部署难度,也限制了模型的推广应用。因此,基于张量虚拟机(TVM)提出一种DNN加速与部署方法,从而实现卷积神经网络(CNN)模型在现场可编程门阵列(FPGA)上的加速,并在分心驾驶分类应用场景下验证了所提方法的可行性。通过计算图优化方法减小了模型的访存和计算开销,通过模型量化方法减小了模型尺寸,通过计算图打包方法将卷积计算卸载到FPGA上执行以提高模型推理速度。与微处理器(MPU)相比,所提方法可使ResNet50和ResNet18在MPU+FPGA上的推理时间分别减少88.63%和77.53%;而在AUC(American University in Cairo)数据集上,相较于MPU,两个模型在MPU+FPGA上的top1推理精度仅下降了0.26和0.16个百分点。可见,所提方法可以降低不同模型在FPGA上的部署难度。
文摘缺陷分类是钢铁表面缺陷检测的重要内容。在卷积神经网络(CNN)取得良好效果的同时,网络日益增长的参数量耗费了大量计算成本,为缺陷分类任务在个人计算机或低算力设备上的部署带来了巨大的挑战。针对上述问题,提出了一种新颖的轻量级网络模型Mix-Fusion。首先,通过组卷积和通道洗牌两种操作,在保持精度的同时有效降低计算成本;其次,利用一个狭窄的特征映射对组间信息进行融合编码,并将生成的特征与原始网络结合,从而有效解决了"稀疏连接"卷积阻碍组间信息交换的问题;最后,用一种新型的混合卷积(Mix Conv)替代了传统的深度卷积(DWConv),以进一步提高模型的性能。在NEU-CLS数据集上的实验结果表明,Mix-Fusion网络在缺陷分类任务中的浮点运算次数和分类准确率分别为43.4 MFLOPs和98.61%。相较于Shuffle Net V2和Mobile Net V2网络,Mix-Fusion网络不仅降低了模型参数,压缩了模型大小,同时还得到了更好的分类精度。
文摘针对一般无人车或无人机平台算力较低,无法运行较大的深度神经网络目标检测模型,或者即使能运行也无法达到实时目标检测的问题,提出了基于特定嵌入式平台的轻量级卷积神经网络压缩加速方法,在结构中引入attention机制,采用分组卷积与快速卷积结构使模型推理速度加快,并通过知识蒸馏学习当前SOTA目标检测模型Fast的目标检测能力,最后通过后统计量化方法将推理模型进一步压缩提速,让模型在保持大型目标检测网络检测精度的同时,在嵌入式平台上也达到高精度实时运行的能力。在Nano无人车平台上,使用PASCAL VOC、ImageNet数据集对压缩后的目标检测模型进行实验验证。结果表明,模型参数量减少40%,平均精度均值(mean Average Precision,mAP)仅损失0.7%,每秒帧数(Frame Per Second,FPS)提升45%,并可在无人车上实时运行。