期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
面向跨模态检索的查询感知双重对比学习网络
1
作者 尹梦冉 梁美玉 +3 位作者 于洋 曹晓雯 杜军平 薛哲 《软件学报》 EI CSCD 北大核心 2024年第5期2120-2132,共13页
近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和... 近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近,也未考虑查询语句的语义.为了解决上述问题,提出一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络(QACLN),该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示.具体地,提出一种查询感知的跨模态语义融合策略,根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征,获得视频的查询感知多模态联合表示.此外,提出一种面向视频和查询语句的模态间及模态内双重对比学习机制,以增强不同模态的语义对齐和融合,从而提高不同模态数据表示的可分辨性和语义一致性.最后,采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索.大量实验验证表明,所提出的QACLN优于基准方法. 展开更多
关键词 跨模态语义融合 跨模态检索 视频时刻定位 对比学习
下载PDF
基于自然语言的视频片段定位综述
2
作者 聂秀山 潘嘉男 +3 位作者 谭智方 刘新放 郭杰 尹义龙 《计算机科学》 CSCD 北大核心 2022年第9期111-122,共12页
自然语言视频定位(Natural Language Video Localization, NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有... 自然语言视频定位(Natural Language Video Localization, NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有更强的灵活性,因为它不受预定义动作列表的限制;同时也更具挑战性,因为NLVL需要从视频和文本两种模态间对齐语义信息。此外,在对齐关系中获取最终的时间戳也是一个艰巨的任务。首先,描述了NLVL的流程;其次,根据是否有监督信息将NLVL算法分为监督方法和弱监督方法两大类并分析其优缺点;然后,总结了常用的数据集和评估指标,对现有的研究进行了总体性能的评估和分析;最后,讨论了技术难点及未来的研究趋势,为今后的工作提供参考。 展开更多
关键词 多模态检索 视频片段定位 视频理解 跨模态对齐 跨模态交互
下载PDF
视频片段检索研究综述 被引量:3
3
作者 王妍 詹雨薇 +2 位作者 罗昕 刘萌 许信顺 《软件学报》 EI CSCD 北大核心 2023年第2期985-1006,共22页
视频片段检索旨在利用用户给出的自然语言查询语句,在一个长视频中找到最符合语句描述的目标视频片段.视频中包含丰富的视觉、文本、语音信息,如何理解视频中提供的信息,以及查询语句提供的文本信息,并进行跨模态信息的对齐与交互,是视... 视频片段检索旨在利用用户给出的自然语言查询语句,在一个长视频中找到最符合语句描述的目标视频片段.视频中包含丰富的视觉、文本、语音信息,如何理解视频中提供的信息,以及查询语句提供的文本信息,并进行跨模态信息的对齐与交互,是视频片段检索任务的核心问题.系统梳理了当前视频片段检索领域中的相关工作,将它们分为两大类:基于排序的方法和基于定位的方法.其中,基于排序的方法又可细分为预设候选片段的方法和有指导地生成候选片段的方法,而基于定位的方法则可分为一次定位的方法和迭代定位的方法.同时对该领域的数据集和评价指标进行了介绍,并对一些模型在多个常用数据集上的性能进行了总结与整理.此外,介绍了该任务的延伸工作,如大规模视频片段检索工作等.最后,对视频片段检索未来的发展方向进行了展望. 展开更多
关键词 视频片段检索 自然语言时序定位视频片段 视频理解 深度学习 人工智能
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部