期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
新闻类短视频关键帧摘要模型的研究与实现
1
作者 崔晓丹 刘达维 +3 位作者 刘逸凡 赵志滨 任酉贵 闫永明 《计算机工程》 CAS CSCD 北大核心 2023年第8期182-189,共8页
根据传播学的“声画关系”理论,新闻类短视频通过音频直接有效地传达视频内容,属于典型的“主声说”视频。现有视频摘要技术忽略了声画关系对视频内容表现的影响,导致其在特定类型短视频摘要任务中效果不稳定。针对新闻类短视频“主声... 根据传播学的“声画关系”理论,新闻类短视频通过音频直接有效地传达视频内容,属于典型的“主声说”视频。现有视频摘要技术忽略了声画关系对视频内容表现的影响,导致其在特定类型短视频摘要任务中效果不稳定。针对新闻类短视频“主声”的特点,提出基于多模态特征语义相似性的新闻类短视频关键帧摘要模型。与传统融合模型不同,该模型在提取多模态特征的基础上,构建公共语义空间,通过最小化对比损失函数对图像-文本对进行联合训练,实现音频文本摘要与视频帧之间语义相似性的跨模态度量,在摘要生成任务中重点关注与音频中语义信息描述一致的图像内容,利用音频中的语义信息筛选相关关键帧,得到更准确的短视频摘要。采集450条CCTV新闻短视频和385条Bilibili自媒体新闻短视频组成实验数据集,使用F1值衡量不同模型的性能,实验结果表明,该模型在2个数据集上F1值分别达到62.8%和51.2%,相较于MSVA模型分别提升了2.1和0.8个百分点,在新闻类短视频关键帧摘要任务中具有更好的性能。 展开更多
关键词 声画关系 主声说 多模态特征 语义相似性 关键帧摘要
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部