期刊文献+
共找到98篇文章
< 1 2 5 >
每页显示 20 50 100
从视频到语言:视频标题生成与描述研究综述 被引量:11
1
作者 汤鹏杰 王瀚漓 《自动化学报》 EI CAS CSCD 北大核心 2022年第2期375-397,共23页
视频标题生成与描述是使用自然语言对视频进行总结与重新表达.由于视频与语言之间存在异构特性,其数据处理过程较为复杂.本文主要对基于“编码−解码”架构的模型做了详细阐述,以视频特征编码与使用方式为依据,将其分为基于视觉特征均值... 视频标题生成与描述是使用自然语言对视频进行总结与重新表达.由于视频与语言之间存在异构特性,其数据处理过程较为复杂.本文主要对基于“编码−解码”架构的模型做了详细阐述,以视频特征编码与使用方式为依据,将其分为基于视觉特征均值/最大值的方法、基于视频序列记忆建模的方法、基于三维卷积特征的方法及混合方法,并对各类模型进行了归纳与总结.最后,对当前存在的问题及可能趋势进行了总结与展望,指出需要生成融合情感、逻辑等信息的结构化语段,并在模型优化、数据集构建、评价指标等方面进行更为深入的研究. 展开更多
关键词 视频描述 卷积神经网络 循环神经网络 语段生成 情感表达 逻辑语义
下载PDF
基于EDU模型的新闻视频摘要技术研究 被引量:7
2
作者 栾悉道 谢毓湘 +2 位作者 应龙 吴玲达 肖鹏 《系统仿真学报》 EI CAS CSCD 北大核心 2007年第16期3770-3774,3842,共6页
现有的视频摘要技术缺乏一个统一、可扩充的视频摘要模型。针对这一缺陷,提出了实体-描述-效用模型(简称EDU模型),该模型从视频实体出发,经过描述得到效用,并最终根据效用来生成视频摘要。该模型拥有一个作为中间信息共享平台的描述体系... 现有的视频摘要技术缺乏一个统一、可扩充的视频摘要模型。针对这一缺陷,提出了实体-描述-效用模型(简称EDU模型),该模型从视频实体出发,经过描述得到效用,并最终根据效用来生成视频摘要。该模型拥有一个作为中间信息共享平台的描述体系,以及基于描述体系的效用函数,具有可扩展性。对EDU模型的概念和结构进行了详细阐述,并根据该模型,提出了新闻视频故事摘要生成的方法。实验结果表明,该方法具有令人满意的效果。 展开更多
关键词 EDU模型 视频摘要 新闻视频 实体 描述 效用
下载PDF
基于内容的视频信息检索 被引量:4
3
作者 杨有山 张秀丽 《北京广播学院学报(自然科学版)》 2004年第4期24-32,共9页
本文从基于内容的视频信息检索技术的优点和系统结构出发,对基于内容的视频检索系统的功能模块(视频录入、镜头检测、关键帧提取、视频描述、可视化界面)的功能和相关实现技术作了一定的介绍,重点讨论了与压缩域视频相关的技术。最后提... 本文从基于内容的视频信息检索技术的优点和系统结构出发,对基于内容的视频检索系统的功能模块(视频录入、镜头检测、关键帧提取、视频描述、可视化界面)的功能和相关实现技术作了一定的介绍,重点讨论了与压缩域视频相关的技术。最后提出了进一步研究的问题。 展开更多
关键词 基于内容的视频检索 镜头检测 视频信息 可视化界面 关键帧提取 压缩域 录入 功能 系统结构 实现技术
下载PDF
基于多维度和多模态信息的视频描述方法 被引量:8
4
作者 丁恩杰 刘忠育 +1 位作者 刘亚峰 郁万里 《通信学报》 EI CSCD 北大核心 2020年第2期36-43,共8页
针对视频自动描述任务中的复杂信息表征问题,提出一种多维度和多模态视觉特征的提取和融合方法。首先通过迁移学习提取视频序列的静态和动态等多维度特征,并采用图像描述算法提取视频关键帧的语义信息,完成视频信息的特征表征;然后采用... 针对视频自动描述任务中的复杂信息表征问题,提出一种多维度和多模态视觉特征的提取和融合方法。首先通过迁移学习提取视频序列的静态和动态等多维度特征,并采用图像描述算法提取视频关键帧的语义信息,完成视频信息的特征表征;然后采用多层长短期记忆网络融合多维度和多模态信息,最终生成视频内容的语言描述。实验仿真表明,所提方法与目前已有方法相比,在视频自动描述任务中取得了较好的效果。 展开更多
关键词 视频描述 多模态 迁移学习 长短期记忆网络 循环神经网络
下载PDF
基于MPEG-7的视频语义描述方法 被引量:5
5
作者 朱华宇 孙正兴 +1 位作者 王箭 张福炎 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2002年第1期74-82,共9页
基于对视频语义信息的 3个层次划分 ,提出了一个基于MPEG 7的视频数据模型 ,并运用扩展标记语言 (XML) ,以实例阐述了视频内容的视频对象、视频事件和视频元数据构造和描述方法 .所提出的方法能支持不同抽象层次上复杂语义关系的描述 ,... 基于对视频语义信息的 3个层次划分 ,提出了一个基于MPEG 7的视频数据模型 ,并运用扩展标记语言 (XML) ,以实例阐述了视频内容的视频对象、视频事件和视频元数据构造和描述方法 .所提出的方法能支持不同抽象层次上复杂语义关系的描述 ,能够使用户更加灵活地访问数字视频库 。 展开更多
关键词 多媒体内容描述接口 MEPG-7 视频语义描述 扩展标记语言 XML 数据模型 视觉信息查询
下载PDF
Trends in Event Understanding and Caption Generation/Reconstruction in Dense Video:A Review
6
作者 Ekanayake Mudiyanselage Chulabhaya Lankanatha Ekanayake Abubakar Sulaiman Gezawa Yunqi Lei 《Computers, Materials & Continua》 SCIE EI 2024年第3期2941-2965,共25页
Video description generates natural language sentences that describe the subject,verb,and objects of the targeted Video.The video description has been used to help visually impaired people to understand the content.It... Video description generates natural language sentences that describe the subject,verb,and objects of the targeted Video.The video description has been used to help visually impaired people to understand the content.It is also playing an essential role in devolving human-robot interaction.The dense video description is more difficult when compared with simple Video captioning because of the object’s interactions and event overlapping.Deep learning is changing the shape of computer vision(CV)technologies and natural language processing(NLP).There are hundreds of deep learning models,datasets,and evaluations that can improve the gaps in current research.This article filled this gap by evaluating some state-of-the-art approaches,especially focusing on deep learning and machine learning for video caption in a dense environment.In this article,some classic techniques concerning the existing machine learning were reviewed.And provides deep learning models,a detail of benchmark datasets with their respective domains.This paper reviews various evaluation metrics,including Bilingual EvaluationUnderstudy(BLEU),Metric for Evaluation of Translation with Explicit Ordering(METEOR),WordMover’s Distance(WMD),and Recall-Oriented Understudy for Gisting Evaluation(ROUGE)with their pros and cons.Finally,this article listed some future directions and proposed work for context enhancement using key scene extraction with object detection in a particular frame.Especially,how to improve the context of video description by analyzing key frames detection through morphological image analysis.Additionally,the paper discusses a novel approach involving sentence reconstruction and context improvement through key frame object detection,which incorporates the fusion of large languagemodels for refining results.The ultimate results arise fromenhancing the generated text of the proposedmodel by improving the predicted text and isolating objects using various keyframes.These keyframes identify dense events occurring in the video sequence. 展开更多
关键词 video description video to text video caption sentence reconstruction
下载PDF
基于多特征融合的深度视频自然语言描述方法 被引量:6
7
作者 梁锐 朱清新 +1 位作者 廖淑娇 牛新征 《计算机应用》 CSCD 北大核心 2017年第4期1179-1184,共6页
针对计算机对视频进行自动标注和描述准确率不高的问题,提出一种基于多特征融合的深度视频自然语言描述的方法。该方法提取视频帧序列的空间特征、运动特征、视频特征,进行特征的融合,使用融合的特征训练基于长短期记忆(LSTM)的自然语... 针对计算机对视频进行自动标注和描述准确率不高的问题,提出一种基于多特征融合的深度视频自然语言描述的方法。该方法提取视频帧序列的空间特征、运动特征、视频特征,进行特征的融合,使用融合的特征训练基于长短期记忆(LSTM)的自然语言描述模型。通过不同的特征组合训练多个自然语言描述模型,在测试时再进行后期融合,即先选择一个模型获取当前输入的多个可能的输出,再使用其他模型计算当前输出的概率,对这些输出的概率进行加权求和,取概率最高的作为输出。此方法中的特征融合的方法包括前期融合:特征的拼接、不同特征对齐加权求和;后期融合:不同特征模型输出的概率的加权融合,使用前期融合的特征对已生成的LSTM模型进行微调。在标准测试集MSVD上进行实验,结果表明:融合不同类型的特征方法能够获得更高评测分值的提升;相同类型的特征融合的评测结果不会高于单个特征的分值;使用特征对预训练好的模型进行微调的方法效果较差。其中使用前期融合与后期融合相结合的方法生成的视频自然语言描述得到的METEOR评测分值为0.302,比目前查到的最高值高1.34%,表明该方法可以提升视频自动描述的准确性。 展开更多
关键词 深度学习 特征融合 视频语义分析 视频描述 递归神经网络 长短时记忆
下载PDF
面向用户需求的视频档案资源描述框架构建研究 被引量:6
8
作者 吕元智 谷俊 《档案学研究》 CSSCI 北大核心 2021年第6期91-99,共9页
视频档案资源是语义最为丰富的档案资源,然而目前我国视频档案资源内容管理相对滞后,视频档案资源内容揭示与描述等工作存在明显的不足,妨碍了视频档案资源的有效利用。论文在分析我国视频档案资源描述内容过于简略、关联关系设计较少... 视频档案资源是语义最为丰富的档案资源,然而目前我国视频档案资源内容管理相对滞后,视频档案资源内容揭示与描述等工作存在明显的不足,妨碍了视频档案资源的有效利用。论文在分析我国视频档案资源描述内容过于简略、关联关系设计较少、利用权益规定不清晰等问题的基础上,从用户需求实现的视角,设计了三维细粒度视频档案资源描述框架,并进行了实例验证。文章最后还从视频档案粒度边界划分、内容描述的层次处理、描述成本与效率平衡等角度对该描述框架的具体应用进行了探讨。 展开更多
关键词 视频档案 档案描述 描述框架 用户需求
原文传递
短视频消费体验的复杂感受及其影响因素 被引量:6
9
作者 王建磊 《新闻与传播评论》 CSSCI 2021年第3期24-33,共10页
文化娱乐产业是体验经济的典型,因而有必要关注当下十分活跃的短视频究竟带来了怎样的消费体验。研究以"抖音"产品的流行内容为例,采用用户深度访谈和图像自述的方法揭示用户对短视频所持的复杂感受及其影响因素,进而对数字... 文化娱乐产业是体验经济的典型,因而有必要关注当下十分活跃的短视频究竟带来了怎样的消费体验。研究以"抖音"产品的流行内容为例,采用用户深度访谈和图像自述的方法揭示用户对短视频所持的复杂感受及其影响因素,进而对数字时代的消费体验内涵予以充实。研究发现:短视频的"有趣、愉悦、新奇、沉浸"构成了新的数字体验框架;影响消费体验的因素主要有参与动机、个体品味和反馈力度;短视频既带来了美好感,也带来了过度感,其"海量、碎片化和浅层阅读"再次成为值得警惕的风险;作为一种文化现象,短视频的规模生产与传播导致"视频表达"成为一种风尚,它在悄然改变当代人的精神气质,这种影响具有重要的社会学意涵。 展开更多
关键词 短视频 消费 图像自述 数字体验
下载PDF
基于特征强化与知识补充的视频描述方法 被引量:1
10
作者 王林 白云帆 《计算机系统应用》 2023年第5期273-282,共10页
针对视频描述生成的文本质量不高与不够新颖的问题,本文提出一种基于特征强化与文本知识补充的编解码模型.在编码阶段,该模型通过局部与全局特征强化增强模型对视频中静态物体的细粒度特征提取,提高了对物体相似语义的分辨,并融合视觉... 针对视频描述生成的文本质量不高与不够新颖的问题,本文提出一种基于特征强化与文本知识补充的编解码模型.在编码阶段,该模型通过局部与全局特征强化增强模型对视频中静态物体的细粒度特征提取,提高了对物体相似语义的分辨,并融合视觉语义与视频特征于长短期记忆网络(long short-term memory,LSTM);在解码阶段,为挖掘视频中不易被机器发现的隐含信息,截取视频部分帧并检测其中视觉目标,利用得到的视觉目标从外部知识语库提取知识用来补充描述文本的生成,以此产生出更新颖更自然的文本描述.在MSVD与MSR-VTT数据集上的实验结果表明,本文方法展现出良好的性能,并且生成的内容信息在一定程度上能够表现出新颖的隐含信息. 展开更多
关键词 视频描述 编解码模型 特征强化 视觉目标 知识补充 人工智能 自然语言处理
下载PDF
基于扩张卷积的注意力机制视频描述模型 被引量:5
11
作者 王金金 曾上游 +1 位作者 李文惠 张介滨 《电子测量技术》 北大核心 2021年第23期99-104,共6页
针对视频描述过程中视觉特征和词特征关联度不足、训练效率低、生成的自然语言出现错误和指标分数不高的问题,提出了一种基于扩张卷积的注意力机制视频描述模型。在模型的编码阶段,采用Inception-v4对视频特征进行编码,然后将编码后的... 针对视频描述过程中视觉特征和词特征关联度不足、训练效率低、生成的自然语言出现错误和指标分数不高的问题,提出了一种基于扩张卷积的注意力机制视频描述模型。在模型的编码阶段,采用Inception-v4对视频特征进行编码,然后将编码后的视觉特征和词特征输入到基于扩张卷积的注意力机制中,最后通过长短期记忆网络进行解码,生成视频的自然描述语句。在视频描述公共数据集MSVD上进行对比实验,通过评价指标(BLEU、ROUGE_L、CIDEr、METEOR)对模型进行验证,实验结果表明,基于扩张卷积的注意力机制视频描述模型在各个指标上都有明显提升,对比基线模型SA-LSTM(Inception-v4),在BLEU_4、ROUGE_L、CIDEr和METEOR指标下分别提升了4.23%、4.73%、2.11%和2.45%。 展开更多
关键词 视频描述 Inception-v4 长短期记忆网络 扩张卷积 注意力机制
下载PDF
小说与电影转换之间的《一个陌生女人的来信》 被引量:3
12
作者 吴树宏 《河北北方学院学报(社会科学版)》 2009年第6期42-44,共3页
电影《一个陌生女人的来信》改编自奥地利小说家茨威格的同名小说,在中国的上映带来了不小的争议,人们一直围绕电影改编的得失争论不休。从文化视角上看,中国电影对外国小说的改编,不仅仅是简单的复制和得失的争论,而是文化碰撞后的再现... 电影《一个陌生女人的来信》改编自奥地利小说家茨威格的同名小说,在中国的上映带来了不小的争议,人们一直围绕电影改编的得失争论不休。从文化视角上看,中国电影对外国小说的改编,不仅仅是简单的复制和得失的争论,而是文化碰撞后的再现,电影在尊重原著的基础上,重构了叙述时空与叙述视角,置换了文化主体,将一部西方经典小说变成了一场中国式的影像叙述。 展开更多
关键词 小说 影像叙述 叙述时空 叙述视角 文化主体
下载PDF
基于视觉显著计算的视频流媒体渐进式表达方法 被引量:3
13
作者 梁永生 柳伟 +2 位作者 周莺 魏泽锋 张基宏 《电子学报》 EI CAS CSCD 北大核心 2017年第7期1567-1575,共9页
为了有效解决视频流媒体传输网络带宽、播出视频质量和用户实时性访问之间的矛盾,本文提出了一种基于视觉显著计算的视频流媒体渐进式表达方法.在视频内容分析和理解的基础上,首先进行场景分类和视觉敏感区域提取;然后根据编码信息确定... 为了有效解决视频流媒体传输网络带宽、播出视频质量和用户实时性访问之间的矛盾,本文提出了一种基于视觉显著计算的视频流媒体渐进式表达方法.在视频内容分析和理解的基础上,首先进行场景分类和视觉敏感区域提取;然后根据编码信息确定视频序列中各帧的重要性,估计帧内片层数据重要性;最后基于视觉显著计算的结果提出一种适应网络带宽和质量可伸缩的视频流媒体渐进式表达方法.采用中粒度质量可伸缩(MGS)编码,在模拟网络测试平台上分别针对集中式和分散式视觉敏感区域视频序列进行实验研究,实验结果验证了本文提出的基于视觉显著计算的视频流媒体渐进式表达方法的正确性和有效性. 展开更多
关键词 视频流媒体 视觉显著计算 渐进式表达 MGS编码 码流提取
下载PDF
A dynamic description logic based system for video event detection 被引量:2
14
作者 Xiaofeng WANG Liang CHANG +1 位作者 Zhixin LI Zhongzhi SHI 《Frontiers of Electrical and Electronic Engineering in China》 CSCD 2010年第2期137-142,共6页
Video event detection is an important research area nowadays.Modeling the video event is a key problem in video event detection.In this paper,we combine dynamic description logic with linear time temporal logic to bui... Video event detection is an important research area nowadays.Modeling the video event is a key problem in video event detection.In this paper,we combine dynamic description logic with linear time temporal logic to build a logic system for video event detection.The proposed logic system is named as LTD_(ALCO)which can represent and inference the static,dynamic and temporal knowledge in one uniform logic system.Based on the LTD_(ALCO),a framework for video event detection is proposed.The video event detection framework can automatically obtain the logic description of video content with the help of ontology-based computer vision techniques and detect the specified video event based on satisfiability checking on LTD_(ALCO)formulas. 展开更多
关键词 video event SEMANTICS dynamic description logics REASONING ONTOLOGY
原文传递
基于MPEG-7的视频数据组织与管理 被引量:2
15
作者 何云峰 于俊清 +1 位作者 唐九飞 管涛 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2010年第6期711-716,共6页
针对现有视频数据库系统存在的不足,根据视频数据的特点,提出并实现了一种基于MPEG-7标准的视频数据组织与管理方法.该方法将视频内容的描述数据按照不同层次的视频内容单元进行组织,并针对不同的描述数据,分别生成结构索引、文本索引... 针对现有视频数据库系统存在的不足,根据视频数据的特点,提出并实现了一种基于MPEG-7标准的视频数据组织与管理方法.该方法将视频内容的描述数据按照不同层次的视频内容单元进行组织,并针对不同的描述数据,分别生成结构索引、文本索引和特征索引,以满足基于内容的视频浏览和检索的需求.实验证明,通过视频描述数据库对视频数据进行管理,不仅降低了服务器的存储要求,而且为基于内容的视频检索奠定了基础,具有很好的通用性和可扩展性. 展开更多
关键词 视频 描述 组织 检索
原文传递
一种基于EDU模型的新闻视频摘要方法 被引量:1
16
作者 谢毓湘 栾悉道 +1 位作者 吴玲达 肖鹏 《国防科技大学学报》 EI CAS CSCD 北大核心 2007年第5期71-76,共6页
现有的视频摘要技术缺乏一个统一、可扩充的视频摘要模型。针对该缺陷,提出了实体-描述-效用模型(简称EDU模型),该模型从视频实体出发,经过描述得到效用,并最终根据效用来生成视频摘要,该模型具有可扩展性。对EDU模型进行了详细阐述,并... 现有的视频摘要技术缺乏一个统一、可扩充的视频摘要模型。针对该缺陷,提出了实体-描述-效用模型(简称EDU模型),该模型从视频实体出发,经过描述得到效用,并最终根据效用来生成视频摘要,该模型具有可扩展性。对EDU模型进行了详细阐述,并根据该模型,提出了新闻视频故事摘要生成的方法。实验结果表明,该方法具有令人满意的效果。 展开更多
关键词 EDU模型 视频摘要 新闻视频 实体 描述 效用
下载PDF
基于描述能力的视频标题分类 被引量:1
17
作者 齐全 董晶 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第7期134-139,共6页
在基于文本的视频检索和推荐系统中,视频标题是描述视频内容的必不可少的一个信息来源.然而,人们对视频标题本身的描述能力并没有进行深入的研究.文中根据标题对视频内容的刻画程度将标题的描述能力分为可描述、可理解不可描述和不可理... 在基于文本的视频检索和推荐系统中,视频标题是描述视频内容的必不可少的一个信息来源.然而,人们对视频标题本身的描述能力并没有进行深入的研究.文中根据标题对视频内容的刻画程度将标题的描述能力分为可描述、可理解不可描述和不可理解3个等级,并把标题描述能力的评估问题作为分类问题来处理.鉴于支持向量机(SVM)对小样本分类问题有很好的识别效果,使用SVM作为分类模型.同时,为弥补标题信息的不足,利用视频标题在搜索引擎中的返回结果作为标题的补充信息.采用此方法对汽车领域的5000个视频标题进行分类,结果表明:该方法对可描述类视频标题的识别准确率可达84%;利用标题的搜索结果后,对可描述类和不可理解类标题识别的F值都提高了3%. 展开更多
关键词 视频标题 描述能力 文本分析 视频检索 支持向量机
下载PDF
Multiple description video coding using GOB alternation and low quality macroblock update
18
作者 Wang Yangli Wu Chengke 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2005年第4期792-796,共5页
To combat packet loss and realize robust video transmission over Intemet and wireless networks, a new multiple description (MD) video coding method is proposed. In the method, two descriptions for each video frame i... To combat packet loss and realize robust video transmission over Intemet and wireless networks, a new multiple description (MD) video coding method is proposed. In the method, two descriptions for each video frame is first created by group of blocks (GOB) alternation. Motion information is then duplicated in both the descriptions and a process called low quality macroblock update is designed to redundantly encode textures in each frame using standard bit stream syntax. In this way, the output bit streams are standard compliant and better trade-offs between redundancy and single charmel reconstruction distortion are achieved. The proposed method has much better performance than the well-known MD transform coding (MDTC) method both in terms of redundancy rate distortion, and in the packet loss scenario. 展开更多
关键词 video transmission packet loss multiple description redundancy rate distortion low quality macroblock update.
下载PDF
基于场景分割的视频内容语义管理机制 被引量:1
19
作者 邢玲 马强 胡金军 《电子学报》 EI CAS CSCD 北大核心 2016年第10期2357-2363,共7页
针对视频内容管理在不同层面存在语义鸿沟的问题,提出基于UCL(Uniform Content Locater)的视频语义描述框架,该框架包含了三个层次的语义:内容语义、控制语义以及物理属性信息.而视频场景的分割则通过视频内容基于时空上的相似性实现.... 针对视频内容管理在不同层面存在语义鸿沟的问题,提出基于UCL(Uniform Content Locater)的视频语义描述框架,该框架包含了三个层次的语义:内容语义、控制语义以及物理属性信息.而视频场景的分割则通过视频内容基于时空上的相似性实现.对于每个视频场景,结合局部纹理复杂度、背景亮度和场景复杂度,选择最佳参考帧(I帧)与非最佳参考帧(非I帧)以嵌入不同的语义信息:控制语义、物理属性信息嵌入I帧,内容语义嵌入非I帧.利用数字语义水印技术来实现视频内容的语义管理,完成语义信息和载体信号的一体传输和存储.实验中采用JM参考模型进行数字水印方法的验证,结果表明该方法鲁棒性强,且不会造成视频资源质量显著下降. 展开更多
关键词 视频描述 语义管理 语义水印 场景分割 UCL
下载PDF
消息传递与分层解码在视频描述中的应用
20
作者 李佳晖 蒋昕怡 《福建电脑》 2022年第1期6-10,共5页
本文针对已有视频描述方法中提取的特征难以捕获视频中对象之间的相互联系,以及解码过程中难以充分利用特征重构视频信息的现状,提出一种结合消息传递网络和分层解码器的视频描述系统。首先,利用卷积神经网络和对象检测器提取视频的二... 本文针对已有视频描述方法中提取的特征难以捕获视频中对象之间的相互联系,以及解码过程中难以充分利用特征重构视频信息的现状,提出一种结合消息传递网络和分层解码器的视频描述系统。首先,利用卷积神经网络和对象检测器提取视频的二维特征、三维特征以及对象特征;然后,使用消息传递网络来更新对象特征,添加对象之间的联系信息;接着,利用时空注意力模块将所有特征进行融合得到视频整体特征;最后,利用分层解码器解码整体特征来获得视频的描述。实验结果显示,该系统能够准确生成对视频内容的描述,并且生成的描述更能体现出对象之间的联系。 展开更多
关键词 深度学习 视频描述 时空注意力 消息传递网络 分层解码器
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部