目的获取场景图像中的文本信息对理解场景内容具有重要意义,而文本检测是文本识别、理解的基础。为了解决场景文本识别中文字定位不准确的问题,本文提出了一种高效的任意形状文本检测器:非局部像素聚合网络。方法该方法使用特征金字塔...目的获取场景图像中的文本信息对理解场景内容具有重要意义,而文本检测是文本识别、理解的基础。为了解决场景文本识别中文字定位不准确的问题,本文提出了一种高效的任意形状文本检测器:非局部像素聚合网络。方法该方法使用特征金字塔增强模块和特征融合模块进行轻量级特征提取,保证了速度优势;同时引入非局部操作以增强骨干网络的特征提取能力,使其检测准确性得以提高。非局部操作是一种注意力机制,能捕捉到文本像素之间的内在关系。此外,本文设计了一种特征向量融合模块,用于融合不同尺度的特征图,使尺度多变的场景文本实例的特征表达得到增强。结果本文方法在3个场景文本数据集上与其他方法进行了比较,在速度和准确度上均表现突出。在ICDAR(International Conference on Document Analysis and Recognition)2015数据集上,本文方法比最优方法的F值提高了0.9%,检测速度达到了23.1帧/s;在CTW(Curve Text in the Wild)1500数据集上,本文方法比最优方法的F值提高了1.2%,检测速度达到了71.8帧/s;在Total-Text数据集上,本文方法比最优方法的F值提高了1.3%,检测速度达到了34.3帧/s,远远超出其他方法。结论本文方法兼顾了准确性和实时性,在准确度和速度上均达到较高水平。展开更多
早期病虫害精准识别是预警和防控的关键,但是病虫害种类繁多数量巨大,外部形态存在类间相似度较高而类内差异性较大等性状特征,导致病虫害识别仍然是一项极具挑战的工作。为实现病虫害识别分类任务中差异化特征的提取和表示,该研究提出...早期病虫害精准识别是预警和防控的关键,但是病虫害种类繁多数量巨大,外部形态存在类间相似度较高而类内差异性较大等性状特征,导致病虫害识别仍然是一项极具挑战的工作。为实现病虫害识别分类任务中差异化特征的提取和表示,该研究提出一种大规模多类别精细病虫害识别网络模型(a large-scale multi-category fine-grained pest and disease network,PD-Net)。首先通过在基准网络模型中引入卷积块注意力模型,通过混合跨特征通道域和特征空间域实现模型在通道和空间两个维度上对关键特征提取和表示,用以增强网络对差异化特征的提取和表示能力。其次引入跨层非局部模块,提升模型在多个特征提取层之间对于多尺度特征的融合。在61类病害数据集和102类虫害数据集上的试验结果表明,对比AlexNet、VGG16、GoogleNet、Inception-v3、DenseNet121和ResNet50模型,该研究提出的面向大规模多类别病虫害识别模型,Top1识别准确率在病害和虫害集上分别达到88.617%和74.668%,精确率分别达到了0.875和0.745,召回率分别达到0.874和0.738,F1值达到0.874和0.732,试验结果对比其他模型均有一定幅度的提升,验证了PD-Net模型在大规模多类别病虫害识别上的有效性。展开更多
针对铝型材表面缺陷分类任务中存在的极端长宽比、小面积缺陷分类困难问题,提出基于融合带权非局部模块和辅助分类器的表面缺陷分类方法(Fusion of Weighted Non-local Modules and Auxiliary Classifier Networks,FWACNet)。该方法通...针对铝型材表面缺陷分类任务中存在的极端长宽比、小面积缺陷分类困难问题,提出基于融合带权非局部模块和辅助分类器的表面缺陷分类方法(Fusion of Weighted Non-local Modules and Auxiliary Classifier Networks,FWACNet)。该方法通过提出带权非局部模块,利用点积相似度计算特征图空间上不同位置的相似性,以提升模型捕捉长距离依赖关系及上下文信息的能力;同时考虑到浅层特征中的纹理、边缘等细节信息会影响表面缺陷分类效果,设计深层和浅层特征融合的辅助分类器,以提升模型对浅层特征中细节信息的挖掘能力。为验证所提FWACNet方法的有效性,在公开的铝型材表面缺陷数据集上进行仿真实验,实验结果表明FWACNet较主流分类网络在极端长宽比、小面积的缺陷分类困难的问题上具有一定优势,分类准确率达95.7%。展开更多
文摘目的获取场景图像中的文本信息对理解场景内容具有重要意义,而文本检测是文本识别、理解的基础。为了解决场景文本识别中文字定位不准确的问题,本文提出了一种高效的任意形状文本检测器:非局部像素聚合网络。方法该方法使用特征金字塔增强模块和特征融合模块进行轻量级特征提取,保证了速度优势;同时引入非局部操作以增强骨干网络的特征提取能力,使其检测准确性得以提高。非局部操作是一种注意力机制,能捕捉到文本像素之间的内在关系。此外,本文设计了一种特征向量融合模块,用于融合不同尺度的特征图,使尺度多变的场景文本实例的特征表达得到增强。结果本文方法在3个场景文本数据集上与其他方法进行了比较,在速度和准确度上均表现突出。在ICDAR(International Conference on Document Analysis and Recognition)2015数据集上,本文方法比最优方法的F值提高了0.9%,检测速度达到了23.1帧/s;在CTW(Curve Text in the Wild)1500数据集上,本文方法比最优方法的F值提高了1.2%,检测速度达到了71.8帧/s;在Total-Text数据集上,本文方法比最优方法的F值提高了1.3%,检测速度达到了34.3帧/s,远远超出其他方法。结论本文方法兼顾了准确性和实时性,在准确度和速度上均达到较高水平。
文摘早期病虫害精准识别是预警和防控的关键,但是病虫害种类繁多数量巨大,外部形态存在类间相似度较高而类内差异性较大等性状特征,导致病虫害识别仍然是一项极具挑战的工作。为实现病虫害识别分类任务中差异化特征的提取和表示,该研究提出一种大规模多类别精细病虫害识别网络模型(a large-scale multi-category fine-grained pest and disease network,PD-Net)。首先通过在基准网络模型中引入卷积块注意力模型,通过混合跨特征通道域和特征空间域实现模型在通道和空间两个维度上对关键特征提取和表示,用以增强网络对差异化特征的提取和表示能力。其次引入跨层非局部模块,提升模型在多个特征提取层之间对于多尺度特征的融合。在61类病害数据集和102类虫害数据集上的试验结果表明,对比AlexNet、VGG16、GoogleNet、Inception-v3、DenseNet121和ResNet50模型,该研究提出的面向大规模多类别病虫害识别模型,Top1识别准确率在病害和虫害集上分别达到88.617%和74.668%,精确率分别达到了0.875和0.745,召回率分别达到0.874和0.738,F1值达到0.874和0.732,试验结果对比其他模型均有一定幅度的提升,验证了PD-Net模型在大规模多类别病虫害识别上的有效性。
文摘针对铝型材表面缺陷分类任务中存在的极端长宽比、小面积缺陷分类困难问题,提出基于融合带权非局部模块和辅助分类器的表面缺陷分类方法(Fusion of Weighted Non-local Modules and Auxiliary Classifier Networks,FWACNet)。该方法通过提出带权非局部模块,利用点积相似度计算特征图空间上不同位置的相似性,以提升模型捕捉长距离依赖关系及上下文信息的能力;同时考虑到浅层特征中的纹理、边缘等细节信息会影响表面缺陷分类效果,设计深层和浅层特征融合的辅助分类器,以提升模型对浅层特征中细节信息的挖掘能力。为验证所提FWACNet方法的有效性,在公开的铝型材表面缺陷数据集上进行仿真实验,实验结果表明FWACNet较主流分类网络在极端长宽比、小面积的缺陷分类困难的问题上具有一定优势,分类准确率达95.7%。