在无人机上安装光学传感器捕捉农作物图像是一种经济高效的方法,它有助于产量预测、田间管理等。该研究以无人机小麦作物图像为研究对象,针对图像中麦穗分布稠密、重叠现象严重、背景信息复杂等特点,设计了一种基于TPH-YOLO(YOLO with t...在无人机上安装光学传感器捕捉农作物图像是一种经济高效的方法,它有助于产量预测、田间管理等。该研究以无人机小麦作物图像为研究对象,针对图像中麦穗分布稠密、重叠现象严重、背景信息复杂等特点,设计了一种基于TPH-YOLO(YOLO with transformer prediction heads)的麦穗检测模型,提高无人机图像麦穗计数的精度。首先,为了减小光照不均匀对无人机图像质量造成的影响,该研究采用Retinex算法进行图像增强处理。其次,在YOLOv5的骨干网络中添加坐标注意力机制(coordinate attention,CA),使模型细化特征,更加关注麦穗信息,抑制麦秆、麦叶等一些背景因素的干扰。再次,将YOLOv5中原始的预测头转换为Transformer预测头(transformer prediction heads,TPH),该预测头具有多头注意力机制的预测潜力,可以在高密度场景下准确定位到麦穗。最后,为了提高模型的泛化能力和检测精度,采用了迁移学习的训练策略,先使用田间采集的小麦图像数据集对模型进行预训练,接着再使用无人机采集的小麦图像数据集对模型进行参数更新和优化训练,并在无人机采集的小麦图像数据集上进行了试验。结果表明,该研究方法精确率、召回率及平均精确率分别为87.2%、84.1%和88.8%,相较于基础的YOLOv5平均精确率提高4.1个百分点,性能优于SSD、Faster-RCNN、CenterNet、YOLOv5等目标检测模型。此外,该研究利用公开数据集Global Wheat Head Detection(GWHD)在不同目标检测模型上进行对比试验,该数据集的小麦样本是多样的和典型的,与SSD、Faster-RCNN、CenterNet和YOLOv5等模型相比,平均精确率分别提升11.1、5.4、6.9和3.3个百分点,进一步验证了该研究所提方法的可靠性和有效性,研究结果可以为小麦的产量预测提供支撑。展开更多
目的视频异常检测通过挖掘正常事件样本的模式来检测不符合正常模式的异常事件。基于自编码器的模型广泛用于视频异常检测领域,由于自监督学习的特征提取具有一定盲目性,使得网络的特征表达能力有限。为了提升模型对正常模式的学习能力...目的视频异常检测通过挖掘正常事件样本的模式来检测不符合正常模式的异常事件。基于自编码器的模型广泛用于视频异常检测领域,由于自监督学习的特征提取具有一定盲目性,使得网络的特征表达能力有限。为了提升模型对正常模式的学习能力,提出一种基于Transformer和U-Net的视频异常检测方法。方法首先,编码器对输入的连续帧进行下采样提取低层特征,并将最后一层特征图输入Transformer编码全局信息,学习特征像素之间的相关信息。然后解码器对编码特征进行上采样,通过跳跃连接与编码器中相同分辨率的低层特征融合,将全局空间信息与局部细节信息结合从而实现异常定位。针对近景康复动作的异常反馈需求,本文基于周期性动作收集了一个室内近景数据集,并进一步引入动态图约束引导网络关注近景周期性运动区域。结果实验在4个室外公开数据集和1个室内近景数据集上与同类方法比较。在室外数据集CUHK(Chinese University of Hong Kong)Avenue,UCSD Ped1(University of California,San Diego,pedestrian1),UCSD Ped2,LV(live videos)中,本文算法的帧级AUC(area under curve)值分别提高了1%,0.4%,1.1%,6.8%。在室内数据集中,本文算法相比同类算法提升了1.6%以上。消融实验结果分别验证了Transformer模块以及动态图约束的有效性。结论本文将U-Net网络与基于自注意力机制的Transformer网络结合,能够提升模型对正常模式的学习能力,从而有效检测视频中的异常事件。展开更多
为了解决飞机目标机动数据集缺失的问题,文章利用运动学建模生成了丰富的轨迹数据集,为网络训练提供了必要的数据支持。针对现阶段轨迹预测运动学模型建立困难及时序预测方法难以提取时空特征的问题,提出了一种结合Transformer编码器和...为了解决飞机目标机动数据集缺失的问题,文章利用运动学建模生成了丰富的轨迹数据集,为网络训练提供了必要的数据支持。针对现阶段轨迹预测运动学模型建立困难及时序预测方法难以提取时空特征的问题,提出了一种结合Transformer编码器和长短期记忆网络(Long Short Term Memory,LSTM)的飞机目标轨迹预测方法,即Transformer-Encoder-LSTM模型。新模型可同时提供LSTM和Transformer编码器模块的补充历史信息和基于注意力的信息表示,提高了模型能力。通过与一些经典神经网络模型进行对比分析,发现在数据集上,新方法的平均位移误差减小到0.22,显著优于CNN-LSTMAttention模型的0.35。相比其他网络,该算法能够提取复杂轨迹中的隐藏特征,在面对飞机连续转弯、大机动转弯的复杂轨迹时,能够保证模型的鲁棒性,提升了对于复杂轨迹预测的准确性。展开更多
文摘目的视频异常检测通过挖掘正常事件样本的模式来检测不符合正常模式的异常事件。基于自编码器的模型广泛用于视频异常检测领域,由于自监督学习的特征提取具有一定盲目性,使得网络的特征表达能力有限。为了提升模型对正常模式的学习能力,提出一种基于Transformer和U-Net的视频异常检测方法。方法首先,编码器对输入的连续帧进行下采样提取低层特征,并将最后一层特征图输入Transformer编码全局信息,学习特征像素之间的相关信息。然后解码器对编码特征进行上采样,通过跳跃连接与编码器中相同分辨率的低层特征融合,将全局空间信息与局部细节信息结合从而实现异常定位。针对近景康复动作的异常反馈需求,本文基于周期性动作收集了一个室内近景数据集,并进一步引入动态图约束引导网络关注近景周期性运动区域。结果实验在4个室外公开数据集和1个室内近景数据集上与同类方法比较。在室外数据集CUHK(Chinese University of Hong Kong)Avenue,UCSD Ped1(University of California,San Diego,pedestrian1),UCSD Ped2,LV(live videos)中,本文算法的帧级AUC(area under curve)值分别提高了1%,0.4%,1.1%,6.8%。在室内数据集中,本文算法相比同类算法提升了1.6%以上。消融实验结果分别验证了Transformer模块以及动态图约束的有效性。结论本文将U-Net网络与基于自注意力机制的Transformer网络结合,能够提升模型对正常模式的学习能力,从而有效检测视频中的异常事件。
文摘为了解决飞机目标机动数据集缺失的问题,文章利用运动学建模生成了丰富的轨迹数据集,为网络训练提供了必要的数据支持。针对现阶段轨迹预测运动学模型建立困难及时序预测方法难以提取时空特征的问题,提出了一种结合Transformer编码器和长短期记忆网络(Long Short Term Memory,LSTM)的飞机目标轨迹预测方法,即Transformer-Encoder-LSTM模型。新模型可同时提供LSTM和Transformer编码器模块的补充历史信息和基于注意力的信息表示,提高了模型能力。通过与一些经典神经网络模型进行对比分析,发现在数据集上,新方法的平均位移误差减小到0.22,显著优于CNN-LSTMAttention模型的0.35。相比其他网络,该算法能够提取复杂轨迹中的隐藏特征,在面对飞机连续转弯、大机动转弯的复杂轨迹时,能够保证模型的鲁棒性,提升了对于复杂轨迹预测的准确性。