期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于自然语言的视频片段定位综述
1
作者 聂秀山 潘嘉 +3 位作者 谭智方 刘新放 郭杰 尹义龙 《计算机科学》 CSCD 北大核心 2022年第9期111-122,共12页
自然语言视频定位(Natural Language Video Localization, NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有... 自然语言视频定位(Natural Language Video Localization, NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有更强的灵活性,因为它不受预定义动作列表的限制;同时也更具挑战性,因为NLVL需要从视频和文本两种模态间对齐语义信息。此外,在对齐关系中获取最终的时间戳也是一个艰巨的任务。首先,描述了NLVL的流程;其次,根据是否有监督信息将NLVL算法分为监督方法和弱监督方法两大类并分析其优缺点;然后,总结了常用的数据集和评估指标,对现有的研究进行了总体性能的评估和分析;最后,讨论了技术难点及未来的研究趋势,为今后的工作提供参考。 展开更多
关键词 多模态检索 视频片段定位 视频理解 跨模态对齐 跨模态交互
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部