目的针对自然场景下图像语义分割易受物体自身形状多样性、距离和光照等因素影响的问题,本文提出一种新的基于条形池化与通道注意力机制的双分支语义分割网络(strip pooling and channel attention net,SPCANet)。方法SPCANet从空间与...目的针对自然场景下图像语义分割易受物体自身形状多样性、距离和光照等因素影响的问题,本文提出一种新的基于条形池化与通道注意力机制的双分支语义分割网络(strip pooling and channel attention net,SPCANet)。方法SPCANet从空间与内容两方面对图像特征进行抽取。首先,空间感知子网引入1维膨胀卷积与多尺度思想对条形池化技术进行优化改进,进一步在编码阶段增大水平与竖直方向上的感受野;其次,为了提升模型的内容感知能力,将在ImageNet数据集上预训练好的VGG16(Visual Geometry Group 16-layer network)作为内容感知子网,以辅助空间感知子网优化语义分割的嵌入特征,改善空间感知子网造成的图像细节信息缺失问题。此外,使用二阶通道注意力进一步优化网络中间层与高层的特征选择,并在一定程度上缓解光照产生的色差对分割结果的影响。结果使用Cityscapes作为实验数据,将本文方法与其他基于深度神经网络的分割方法进行对比,并从可视化效果和评测指标两方面进行分析。SPCANet在目标分割指标mIoU(mean intersection over union)上提升了1.2%。结论提出的双分支语义分割网络利用改进的条形池化技术、内容感知辅助网络和通道注意力机制对图像语义分割进行优化,对实验结果的提升起到了积极作用。展开更多
近年来,随着深度学习的发展,在自然街景下的文本检测取得了巨大的进步,但在多方向和弯曲文本及对比度低的文本检测中的效果仍不理想。因此,针对弯曲文本和对比度低的文本的检测问题,提出了一种融合多尺度模块的文本检测方法,并通过检测...近年来,随着深度学习的发展,在自然街景下的文本检测取得了巨大的进步,但在多方向和弯曲文本及对比度低的文本检测中的效果仍不理想。因此,针对弯曲文本和对比度低的文本的检测问题,提出了一种融合多尺度模块的文本检测方法,并通过检测效果的提升,提高端到端文本识别的识别效果。针对RFB(Receptive Field Block)模块在下采样后局部信息丢失的问题,在RFB模块中嵌入极化自注意力(Polarized Self-Attention)机制以改进RFB来提取有效文本特征,提高特征图表征效果。针对特征金字塔(FPN)提取的特征不足、感受野小的问题,将改进的RFB模块嵌入特征金字塔(FPN)模块以增强特征提取融合。针对特征分布不确定性及远距离特征融合效果不佳的问题,引入条形池化(Strip Pooling)模块,进而提升检测方法的鲁棒性。在公开数据集Total-Text上的实验结果表明,该算法的F-measure值在端到端文本识别没有词汇表的情形下与目前高效的MaskTextSpotterV3相比高了0.3百分点,而在有词汇表的情形下则高出了0.2百分点;而在仅文本检测的情形下,该方法也有较为良好的表现。展开更多
随着遥感技术的发展,遥感图像的语义分割在城乡资源管理、城乡规划等领域有着更为广泛的应用。因为小型无人机在遥感数据采集方面具有成本效益、灵活性和操作便捷等优势,所以使用无人机拍摄图像已经成为收集遥感图像数据集的首选方法。...随着遥感技术的发展,遥感图像的语义分割在城乡资源管理、城乡规划等领域有着更为广泛的应用。因为小型无人机在遥感数据采集方面具有成本效益、灵活性和操作便捷等优势,所以使用无人机拍摄图像已经成为收集遥感图像数据集的首选方法。由于小型无人机低空斜角拍摄的特性,相较于传统遥感拍摄设备获取的图片,无人机图片目标细节信息更加丰富、目标关系更加复杂的特性导致基于局部卷积的传统深度学习模型无法再胜任此项工作。针对上述问题,提出了基于SegFormer的改进遥感图像语义分割网络。基于SegFormer,在编码层额外添加轮廓提取模块(edge contour extraction module,ECEM)辅助模型提取目标的浅层特征。鉴于城市遥感图像建筑物居多的特点,在编码层额外添加使用多尺度条纹池化(multi-scale strip pooling,MSP)替换全局平均池化的多尺度空洞空间卷积池化金字塔(multi-scale atrous spatial pyramid pooling,MSASPP)模块来提取图像中的长条状目标特征。针对原始解码器操作不利于特征信息还原的缺点,参考U-Net网络解码层的结构,将编码层接收到的特征融合之后再执行上采样提取以及SE通道注意力操作,以此加强特征的传播和融合。改进网络在国际摄影测量与遥感学会(International Society for Photogrammetry and Remote Sensing,ISPRS)提供的Vaihingen和无人机遥感图像语义分割数据集UAVid上进行了实验,网络分别取得了90.30%和77.90%的平均交并比(mean intersection over union,MIoU),比DeepLabV3+、Swin-Unet等通用分割网络具有更高的分割精确度。展开更多
文摘目的针对自然场景下图像语义分割易受物体自身形状多样性、距离和光照等因素影响的问题,本文提出一种新的基于条形池化与通道注意力机制的双分支语义分割网络(strip pooling and channel attention net,SPCANet)。方法SPCANet从空间与内容两方面对图像特征进行抽取。首先,空间感知子网引入1维膨胀卷积与多尺度思想对条形池化技术进行优化改进,进一步在编码阶段增大水平与竖直方向上的感受野;其次,为了提升模型的内容感知能力,将在ImageNet数据集上预训练好的VGG16(Visual Geometry Group 16-layer network)作为内容感知子网,以辅助空间感知子网优化语义分割的嵌入特征,改善空间感知子网造成的图像细节信息缺失问题。此外,使用二阶通道注意力进一步优化网络中间层与高层的特征选择,并在一定程度上缓解光照产生的色差对分割结果的影响。结果使用Cityscapes作为实验数据,将本文方法与其他基于深度神经网络的分割方法进行对比,并从可视化效果和评测指标两方面进行分析。SPCANet在目标分割指标mIoU(mean intersection over union)上提升了1.2%。结论提出的双分支语义分割网络利用改进的条形池化技术、内容感知辅助网络和通道注意力机制对图像语义分割进行优化,对实验结果的提升起到了积极作用。
文摘近年来,随着深度学习的发展,在自然街景下的文本检测取得了巨大的进步,但在多方向和弯曲文本及对比度低的文本检测中的效果仍不理想。因此,针对弯曲文本和对比度低的文本的检测问题,提出了一种融合多尺度模块的文本检测方法,并通过检测效果的提升,提高端到端文本识别的识别效果。针对RFB(Receptive Field Block)模块在下采样后局部信息丢失的问题,在RFB模块中嵌入极化自注意力(Polarized Self-Attention)机制以改进RFB来提取有效文本特征,提高特征图表征效果。针对特征金字塔(FPN)提取的特征不足、感受野小的问题,将改进的RFB模块嵌入特征金字塔(FPN)模块以增强特征提取融合。针对特征分布不确定性及远距离特征融合效果不佳的问题,引入条形池化(Strip Pooling)模块,进而提升检测方法的鲁棒性。在公开数据集Total-Text上的实验结果表明,该算法的F-measure值在端到端文本识别没有词汇表的情形下与目前高效的MaskTextSpotterV3相比高了0.3百分点,而在有词汇表的情形下则高出了0.2百分点;而在仅文本检测的情形下,该方法也有较为良好的表现。
文摘随着遥感技术的发展,遥感图像的语义分割在城乡资源管理、城乡规划等领域有着更为广泛的应用。因为小型无人机在遥感数据采集方面具有成本效益、灵活性和操作便捷等优势,所以使用无人机拍摄图像已经成为收集遥感图像数据集的首选方法。由于小型无人机低空斜角拍摄的特性,相较于传统遥感拍摄设备获取的图片,无人机图片目标细节信息更加丰富、目标关系更加复杂的特性导致基于局部卷积的传统深度学习模型无法再胜任此项工作。针对上述问题,提出了基于SegFormer的改进遥感图像语义分割网络。基于SegFormer,在编码层额外添加轮廓提取模块(edge contour extraction module,ECEM)辅助模型提取目标的浅层特征。鉴于城市遥感图像建筑物居多的特点,在编码层额外添加使用多尺度条纹池化(multi-scale strip pooling,MSP)替换全局平均池化的多尺度空洞空间卷积池化金字塔(multi-scale atrous spatial pyramid pooling,MSASPP)模块来提取图像中的长条状目标特征。针对原始解码器操作不利于特征信息还原的缺点,参考U-Net网络解码层的结构,将编码层接收到的特征融合之后再执行上采样提取以及SE通道注意力操作,以此加强特征的传播和融合。改进网络在国际摄影测量与遥感学会(International Society for Photogrammetry and Remote Sensing,ISPRS)提供的Vaihingen和无人机遥感图像语义分割数据集UAVid上进行了实验,网络分别取得了90.30%和77.90%的平均交并比(mean intersection over union,MIoU),比DeepLabV3+、Swin-Unet等通用分割网络具有更高的分割精确度。