-
题名基于多模态知识主动学习的视频问答方案
- 1
-
-
作者
刘明阳
王若梅
周凡
林格
-
机构
中山大学计算机学院国家数字家庭工程技术研究中心
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2024年第4期889-902,共14页
-
基金
国家重点研发计划项目(2021YFF0900900)。
-
文摘
视频问答是人工智能领域的一个热点研究问题.现有方法在特征提取方面缺乏针对视觉目标运动细节的获取,从而会导致错误因果关系的建立.此外,在数据融合与推理过程中,现有方法缺乏有效的主动学习能力,难以获取特征提取之外的先验知识,影响了模型对多模态内容的深度理解.针对这些问题,首先,设计了一种显性多模态特征提取模块,通过获取图像序列中视觉目标的语义关联以及与周围环境的动态关系来建立每个视觉目标的运动轨迹.进一步通过动态内容对静态内容的补充,为数据融合与推理提供了更加精准的视频特征表达.其次,提出了知识自增强多模态数据融合与推理模型,实现了多模态信息理解的自我完善和逻辑思维聚焦,增强了对多模态特征的深度理解,减少了对先验知识的依赖.最后,提出了一种基于多模态知识主动学习的视频问答方案.实验结果表明,该方案的性能优于现有最先进的视频问答算法,大量的消融和可视化实验也验证了方案的合理性.
-
关键词
视频问答
数据融合与推理
多模态主动学习
视频细节描述提取
深度学习
-
Keywords
video question answering
data fusion and reasoning
multimodal active learning
video details description extraction
deep learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-