-
题名密集帧率采样的视频标题生成
被引量:2
- 1
-
-
作者
汤鹏杰
谭云兰
李金忠
谭彬
-
机构
井冈山大学数理学院
井冈山大学流域生态与地理环境监测国家测绘地理信息局重点实验室
同济大学计算机科学与技术系
井冈山大学电子与信息工程学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2018年第6期981-993,共13页
-
基金
江西省教育厅科学技术研究项目Grant No.GJJ160750
江西省高校人文社会科学重点研究基地招标项目No.JD17082
+3 种基金
流域生态与地理环境监测国家测绘地理信息局重点实验室资助课题No.WE2016015
网络与数据安全四川省重点实验室开放课题No.NDSMS20160
国家自然科学基金No.61762052
江西省自然科学基金No.20171BAB202010~~
-
文摘
使用固定时间间隔取帧的方式用于视频标题生成,易导致多种静态或动态信息丢失,使得生成的句子质量难以提高。针对这一问题,提出了一种使用密集帧率采样的标题生成方法(dense frame rate sampling based captioning model,DFS-CM),将视频分为多个长度统一的片段,提取片段中所有视频帧的深度CNN(convolutional neural network)特征,然后使用均值或最大值方法,降低了特征数量,增强了特征的稀疏程度;同时,还改善了模型的训练策略,增强了模型的稳定性和泛化能力。最后在S2VT框架的基础上,使用Goog Le Net和Res Net-152两种CNN模型,对所提方法进行了验证。在Youtube2Text数据集上的实验结果表明,无论是采用均值特征还是最大值特征,其模型性能与基准模型相比均得到了改善,尤其是使用Res Net-152和最大值方式,其B@4和CIDEr分别达到了47.1%和34.1%。
-
关键词
视频
标题生成
GoogLeNet
ResNet
长短时记忆(LSTM)
密集帧率采样
-
Keywords
video
caption generation
Goog Le Net
Res Net
long short term memory(LSTM)
dense frame rate sampling
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-