弹幕信息协助下的视频多标签分类被引量：1

Multi-label Video Classification Assisted by Danmaku

下载PDF

导出

摘要文中探究了弹幕信息协助下的视频多标签分类任务。多标签视频分类任务根据视频内容从不同角度赋予视频多个标签,与视频推荐等应用紧密相关。多标签视频数据集的高标注成本和对视频内容的多角度理解是该研究领域面临的主要问题。弹幕是一种新近出现的用户评论形式,受到了众多用户的欢迎。由于用户参与度高,弹幕视频网站的视频拥有大量用户自发添加的标签,这些标签是天然的多标签数据。文中以此构建了一个多标签视频数据集,并整理出了视频标签间的层级语义关系,该数据集在未来将公开发布。同时,弹幕文本模态包含大量与视频内容相关的细粒度信息,因此在以往视频分类工作融合视觉和音频模态的基础上,引入弹幕文本模态进行视频多标签分类研究。在基于聚类的NeXtVLAD模型、注意力Dbof模型和基于时序的GRU模型上进行实验,在增加弹幕模态后,GAP指标最高提升了23%,证明了弹幕信息对该任务具有辅助作用。此外,还探索了如何在分类中利用标签层级关系,通过构建标签关系矩阵来改造标签,进而将标签语义融入训练。实验结果表明,加入标签关系后,Hit@1指标提升了15%,因此其能优化多标签分类的效果。此外,MAP指标在细粒度小类上提升了4%,说明标签语义的引入有利于预测样本量较少的类别,具有研究价值。 This work explores the multi-label video classification task assisted by danmaku.Multi-label video classification can associate multiple tags to a video from different aspects,which can benefit video understanding tasks such as video recommendation.There are two challenges in this task,one is the high annotation cost of dataset,and the other is how to understand video from multi-aspect and multimodal perspectives.Danmaku is a new trend of online commenting.Danmaku video has lots of manual annotations added by website users for high user engagement.It can be used as classification data directly.This work collects a multi-label danmaku video dataset and builds a hierarchical label correlation structure for the first time on danmaku video data.The dataset will be released in the future.Danmaku contains informative and fine-grained interaction data with the video content.This paper introduces danmaku modality to assist classification based on previous works,most of which only combine the visual and audio modalities.This paper choses cluster-based model NeXtVLAD,attention Dbof and temporal based GRU models as baselines.Experiments show that danmaku data is helpful,which improves GAP by 0.23.This paper also explores the use of label correlation,updating the video labels by a relationship matrix to integrate the semantic information into training.Experiments show that the leverage of label correlation improves Hit@1 by 0.15.Besides,the MAP can be improved by 0.04 in fine-grained labels,which indicates that the label semantic information benefits the prediction of small classes and it is valuable to explore.

作者陈洁婷王维莹金琴 CHEN Jie-ting;WANG Wei-ying;JIN Qin(School of Information,Renmin University of China,Beijing 100872,China)

机构地区中国人民大学信息学院

出处《计算机科学》 CSCD 北大核心 2021年第1期167-174,共8页 Computer Science

基金国家自然科学基金(61772535) 北京市自然科学基金(4192028) 国家重点研发计划(2016YFB1001202)。

关键词分类多标签弹幕视频标签关系多模态 Classification Multi-label Danmaku Video Label correlation Multi-modal

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献3

1官赛萍,靳小龙,贾岩涛,王元卓,程学旗.面向知识图谱的知识推理研究进展[J].软件学报,2018,29(10):2966-2994. 被引量：170
2王帅,王维莹,陈师哲,金琴.基于全局和局部信息的视频记忆度预测[J].软件学报,2020,31(7):1969-1979. 被引量：4
3何相腾,彭宇新.跨域和跨模态适应学习的无监督细粒度视频分类[J].软件学报,2021,32(11):3482-3495. 被引量：3

引证文献1

1蒋洪迅,张琳,孙彩虹.融合知识图谱的影视视频标签分类算法研究[J].计算机科学与探索,2024,18(1):161-174.

1陈小凡.基于核心素养的英语绘本教学探讨[J].英语画刊（高级）,2020(17):35-36.
2高翔,李春庚,安居白.基于注意力和多标签分类的图像实时语义分割[J].计算机辅助设计与图形学学报,2021,33(1):59-67. 被引量：19
3刘宁,冯浩,刘改,郑小东.“MyPlay”视频分享网站设计与实现[J].电脑知识与技术,2020,16(31):46-48. 被引量：2
4赵志宏,袁玮.“分”享美丽硚口[J].武汉宣传,2020(19):50-51.
5杨观赐,王霄远,蒋亚汶,李杨.视觉与惯性传感器融合的SLAM技术综述[J].贵州大学学报（自然科学版）,2020,37(6):1-12. 被引量：14
6陈勇,谢伟明,路大举,李玉栋,吴运刚,袁强.吊窗尾迹流动非稳态气动光学效应研究[J].光学学报,2020,40(16):1-8. 被引量：6
7静雪凌子,及春宁,袁德奎.绕单自由度涡激振动圆柱的速度环量的时空分布特征[J].水动力学研究与进展（A辑）,2020,35(2):229-236.
8张立杰,陆堃,周少毅.东方明珠数据中台技术在智慧广电新媒体产业的应用探索[J].广电时评,2020(21):93-96. 被引量：2
9侯惠明.从长尾理论看小众网综爆款路径——以《这!就是街舞》为例[J].东南传播,2020(11):127-128. 被引量：2
10陈巧玲,朱四.解析路面施工中沥青混凝土施工技术的应用[J].交通科技与管理,2020(11):10-11.

计算机科学

2021年第1期

浏览历史

内容加载中请稍等...

弹幕信息协助下的视频多标签分类被引量：1

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

弹幕信息协助下的视频多标签分类 被引量：1

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

弹幕信息协助下的视频多标签分类被引量：1