-
题名基于时空层级查询的指代视频目标分割
- 1
-
-
作者
兰猛
张乐飞
杜博
张良培
-
机构
武汉大学计算机学院国家多媒体软件工程技术研究中心
武汉大学测绘遥感信息工程国家重点实验室
-
出处
《中国科学:信息科学》
CSCD
北大核心
2024年第3期674-691,共18页
-
基金
国家自然科学基金优秀青年科学基金(批准号:62122060)
国家杰出青年科学基金(批准号:62225113)资助项目。
-
文摘
本文针对当前指代视频目标分割方法缺乏目标时空一致性建模和目标时空表征学习不足等问题,进行了深入的研究,提出了基于时空层级查询的指代视频目标分割方法(STHQ).本文将指代视频目标分割看作基于查询的序列预测问题,并提出两级查询机制进行目标的时空一致性建模和时空特征学习.在第1阶段,本文提出了帧级空间信息提取模块,该模块使用语言特征作为查询独立地和视频序列中的每一帧在空间维度进行信息交互,生成包含目标空间信息的实例嵌入;在第2阶段,本文提出时空信息聚合模块,该模块使用视频级的可学习查询嵌入和第1阶段生成的实例嵌入在时空维度进行信息交互,生成具有时空表征信息的视频级实例嵌入;最后,视频级实例嵌入线性变换为条件卷积参数,并和视频序列中的每一帧进行卷积操作,生成目标的掩码预测序列.在该领域的3个基准数据集上的实验结果表明,本文提出的STHQ方法超越了现有的方法,实现了最佳的性能.
-
关键词
指代视频目标分割
时空一致性建模
时空特征学习
跨模态特征交互
TRANSFORMER
-
Keywords
referring video object segmentation
spatio-temporal consistency modeling
spatio-temporal feature learning
cross-modal feature interaction
Transformer
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-