融合知识图谱的影视视频标签分类算法研究

Knowledge Graph-Based Video Classification Algorithm for Film and Television Drama

下载PDF

导出

摘要鉴于视频感知方式的多样性,视频标签层级分类算法均从视觉和文本模态入手,训练联合模型共同推断视频内容。但现有研究通常只适用于粗粒度的分类,针对影视剧名的分类,则需要更加细粒度的识别。提出了一个融合知识图谱的影视视频标签分类算法。首先,使用了基于大规模通用数据训练的多模态预训练模型提取了视觉和文本的特征,训练了一个多任务的视频标签预测模型,得到视频的类型、题材和实体三级标签;通过在多任务学习网络中引入相似性任务提高分类模型训练的难度,使得同类样本特征更加紧密,且更好地表达样本差异。其次,对于最细粒度的实体标签,提出了一个局部注意力头扩展的实体纠错模型,引入外部知识图谱的共现信息对前置模型的预测结果做修正,得到更准确的实体标签预测结果。采集豆瓣的半结构化数据构建了影视知识图谱并对影视视频标签分类模型进行了实证研究。视频标签分类的实验结果表明,首先,基于多任务网络结构,在训练分类任务时加入交叉熵损失函数和相似性损失函数对模型进行共同约束优化了特征表达,在类型、题材、实体标签的Top-1分类准确率上分别提升了3.70%、3.35%和16.57%;其次,针对前置模型的困难样本提出的全局-局部注意力机制模型,在引入了知识图谱信息之后,实体标签的Top-1分类准确率从38.7%提升到45.6%。该研究是使用图片-文本对数据在多模态视频标签分类问题上新的尝试,为少量数据样本情况下的短视频标签分类提供了新的研究思路。 Based on the diversity of video perception modalities,a complete video tagging hierarchy classification algorithm combines visual and textual modalities to train a joint model to infer video content.However,most of the existing studies are only applicable to coarse-grained classification.Classification for film and television drama requires more fine-grained identification.This study proposes a knowledge graph-based video classification algorithm.Firstly,the algorithm extracts visual and textual features using a multimodal pre-training model,which is trained on large-scale generic data.A multi-task video label prediction model is further trained to obtain a total of three-level labels for the video:content labels,theme labels and entity labels.The difficulty of training the classification model is improved by introducing a similarity task into the multi-task network.The similarity task provides a tighter fit of similar samples,while the learned characteristics better express sample differences.Secondly,for entity labels,an entity correction model with local attention head is proposed.It can fuse,de-duplicate or extend the prediction results by introducing co-occurrence information from the knowledge graph,and produce a more accurate entity label prediction result.Based on semi-structured data retrieved from Douban,this paper constructs a film and television knowledge graph and conducts an empirical study of the video tag classification model for film and television.Experimental results show that,firstly,the cross-entropy loss function and the loss function of similarity task impose a common constraint on training the classification model,which serves to optimize the feature representation.Top-1 accuracy is improved by 3.70%,3.35%and 16.57%for content labels,theme labels and entity labels respectively.Secondly,entity correction model with global/local attention heads improves the Top-1 accuracy of entity labels from 38.7%to 45.6%after the introduction of knowledge graph information.The proposed research is a new a

作者蒋洪迅张琳孙彩虹 JIANG Hongxun;ZHANG Lin;SUN Caihong(School of Information,Renmin University of China,Beijing 100872,China)

机构地区中国人民大学信息学院

出处《计算机科学与探索》 CSCD 北大核心 2024年第1期161-174,共14页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金面上项目(72071203)。

关键词知识图谱视频标签分类多模态内容理解实体纠错 knowledge graph video label classification multimodal content understanding entity correction

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1官赛萍,靳小龙,贾岩涛,王元卓,程学旗.面向知识图谱的知识推理研究进展[J].软件学报,2018,29(10):2966-2994. 被引量：170
2何相腾,彭宇新.跨域和跨模态适应学习的无监督细粒度视频分类[J].软件学报,2021,32(11):3482-3495. 被引量：3
3王帅,王维莹,陈师哲,金琴.基于全局和局部信息的视频记忆度预测[J].软件学报,2020,31(7):1969-1979. 被引量：4
4秦佳佳..碁于规则和基于相似性的类别在比较任务中的学习和迁移[D].浙江师范大学,2015:
5陈洁婷,王维莹,金琴.弹幕信息协助下的视频多标签分类[J].计算机科学,2021,48(1):167-174. 被引量：1

二级参考文献4

1赵军,刘康,周光有,蔡黎.开放式文本信息抽取[J].中文信息学报,2011,25(6):98-110. 被引量：62
2孔庆超,毛文吉.基于动态演化的讨论帖流行度预测[J].软件学报,2014,25(12):2767-2776. 被引量：11
3徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589-606. 被引量：499
4仲兆满,管燕,胡云,李存华.基于背景和内容的微博用户兴趣挖掘[J].软件学报,2017,28(2):278-291. 被引量：25

共引文献174

1赵悦淑,王军,王蕊,昝红英,张坤丽,穗志方.中文医学知识图谱研究进展[J].中国数字医学,2021,16(6):86-91. 被引量：5
2张一畅,代茂利,吴开明,明拂晓.数据流编排技术在绩效考核数据质控中的应用研究[J].中国数字医学,2021,16(6):58-62.
3韩少恒,杨家荣.智能制造型企业知识图谱的构建[J].上海电气技术,2022,15(1):60-62.
4陈军,刘万增,武昊,李志林,赵勇,张蓝.基础地理知识服务的基本问题与研究方向[J].武汉大学学报（信息科学版）,2019,44(1):38-47. 被引量：48
5陈珺.一种知识库体系的设计构建方法及在媒体领域的应用探索[J].中国传媒科技,2019(5):106-108. 被引量：1
6欧艳鹏.知识图谱技术研究综述[J].电子世界,2018,0(13):54-54. 被引量：13
7魏凡翔,蒋鹏飞,刘泽,魏松杰.面向空管安全态势的数据组织和可视化分析软件设计[J].信息与电脑,2019,31(4):158-159.
8李启可,张克亮.基于问答系统的知识推理技术[J].电脑知识与技术,2019,15(3X):155-156. 被引量：1
9张仲伟,曹雷,陈希亮,寇大磊,宋天挺.基于神经网络的知识推理研究综述[J].计算机工程与应用,2019,55(12):8-19. 被引量：35
10宋蕾.大数据在复杂生态环境中的应用研究[J].数字技术与应用,2019,37(4):64-65. 被引量：6

1郑亚捷.影像资源与中国当代文学的教学研究[J].新疆开放大学学报,2023,27(3):35-39.
2XR沉浸式超高清演播室建设[J].广播电视信息,2023,30(8):41-41. 被引量：1
3杨家伟,武泽平,夏科,张生全,李佳欣,张为华.基于非精确搜索的固体火箭发动机序列近似约束优化设计方法[J].机械设计,2023,40(S02):1-6.
4霍悦.新媒体时代高校英语教育教学创新应用研究[J].新闻研究导刊,2023,14(24):154-156. 被引量：1

计算机科学与探索

2024年第1期

浏览历史

内容加载中请稍等...

融合知识图谱的影视视频标签分类算法研究

参考文献5

二级参考文献4

共引文献174

相关作者

相关机构

相关主题

浏览历史