有效算力达到18.3 GOPS,是CPU的10.7倍,GPU的3.3倍;能效比达到2.197 GOPS/W,是CPU的104倍,GPU的28倍。同时提出一种高位数据编码(most significant bit data coding,MSB-DC)方法实现层内混合精度特征图计算,实验结果表明,该方法能以较...有效算力达到18.3 GOPS,是CPU的10.7倍,GPU的3.3倍;能效比达到2.197 GOPS/W,是CPU的104倍,GPU的28倍。同时提出一种高位数据编码(most significant bit data coding,MSB-DC)方法实现层内混合精度特征图计算,实验结果表明,该方法能以较少的延迟成本有效降低量化所带来的误差。展开更多
基于卷积神经网络的深度学习算法展现出卓越性能的同时也带来了冗杂的数据量和计算量,大量的存储与计算开销也成了该类算法在硬件平台部署过程中的最大阻碍。而神经网络模型量化使用低精度定点数代替原始模型中的高精度浮点数,在损失较...基于卷积神经网络的深度学习算法展现出卓越性能的同时也带来了冗杂的数据量和计算量,大量的存储与计算开销也成了该类算法在硬件平台部署过程中的最大阻碍。而神经网络模型量化使用低精度定点数代替原始模型中的高精度浮点数,在损失较小精度的前提下可有效压缩模型大小,减少硬件资源开销,提高模型推理速度。现有的量化方法大多将模型各层数据量化至相同精度,混合精度量化则根据不同层的数据分布设置不同的量化精度,旨在相同压缩比下达到更高的模型准确率,但寻找合适的混合精度量化策略仍十分困难。因此,提出一种基于误差限制的混合精度量化策略,通过对神经网络卷积层中的放缩因子进行统一等比限制,确定各层的量化精度,并使用截断方法线性量化权重和激活至低精度定点数,在相同压缩比下,相比统一精度量化方法有更高的准确率。其次,将卷积神经网络的经典目标检测算法YOLOV5s作为基准模型,测试了方法的效果。在COCO数据集和VOC数据集上,该方法与统一精度量化相比,压缩到5位的模型平均精度均值(mean Average Precision,mAP)分别提高了6%和24.9%。展开更多
文摘有效算力达到18.3 GOPS,是CPU的10.7倍,GPU的3.3倍;能效比达到2.197 GOPS/W,是CPU的104倍,GPU的28倍。同时提出一种高位数据编码(most significant bit data coding,MSB-DC)方法实现层内混合精度特征图计算,实验结果表明,该方法能以较少的延迟成本有效降低量化所带来的误差。
文摘基于卷积神经网络的深度学习算法展现出卓越性能的同时也带来了冗杂的数据量和计算量,大量的存储与计算开销也成了该类算法在硬件平台部署过程中的最大阻碍。而神经网络模型量化使用低精度定点数代替原始模型中的高精度浮点数,在损失较小精度的前提下可有效压缩模型大小,减少硬件资源开销,提高模型推理速度。现有的量化方法大多将模型各层数据量化至相同精度,混合精度量化则根据不同层的数据分布设置不同的量化精度,旨在相同压缩比下达到更高的模型准确率,但寻找合适的混合精度量化策略仍十分困难。因此,提出一种基于误差限制的混合精度量化策略,通过对神经网络卷积层中的放缩因子进行统一等比限制,确定各层的量化精度,并使用截断方法线性量化权重和激活至低精度定点数,在相同压缩比下,相比统一精度量化方法有更高的准确率。其次,将卷积神经网络的经典目标检测算法YOLOV5s作为基准模型,测试了方法的效果。在COCO数据集和VOC数据集上,该方法与统一精度量化相比,压缩到5位的模型平均精度均值(mean Average Precision,mAP)分别提高了6%和24.9%。