-
题名跨视图时序对比学习的自监督视频表征算法
- 1
-
-
作者
王露露
徐增敏
张雪莲
蒙儒省
卢涛
-
机构
桂林电子科技大学数学与计算科学学院广西高校数据分析与计算重点实验室
广西应用数学中心(桂林电子科技大学)
桂林安维科技有限公司
武汉工程大学计算机科学与工程学院智能机器人湖北省重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2024年第18期158-166,共9页
-
基金
广西自然科学基金(2024GXNSFAA010493)
国家自然科学基金(61862015,62072350)
+1 种基金
广西科技基地和人才专项(AD23023002,AD21220114)
广西重点研发计划项目(AB17195025)。
-
文摘
现有的自监督表征算法主要关注视频帧之间的短期运动特性,但是帧间动作序列的变化幅度较小,而且单视图数据因语义受限影响深度特征表达能力,视频动作中丰富的多视图信息未被充分利用。为此提出基于跨视图语义一致性的时序对比学习算法,自监督学习RGB帧和光流场两种数据中蕴含的动作时序变化特性,主要思路为:设计局部时序对比学习方法,采用不同正负样本划分策略,挖掘同一实例不重叠片段之间的时序相关性和判别可分性,增强细粒度特征表达能力;研究全局对比学习方法,通过跨视图语义协同训练来增加正样本,学习多实例不同视图的语义一致性,提高模型的泛化能力。通过两个下游任务对模型效果进行评估,在UCF101和HMDB51数据集的实验结果表明,所提方法在动作识别和视频检索任务上,较前沿主流方法平均提升了2~3.5个百分点。
-
关键词
自监督学习
视频表征学习
时序对比学习
局部对比学习
跨视图协同
-
Keywords
self-supervised learning
video representation learning
temporal contrastive learning
local contrastive learning
cross-view co-training
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TP183
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于播放速率预测的自监督视频表征算法研究
- 2
-
-
作者
靳巾
张育嘉
徐叙远
刘孟洋
-
机构
中央广播电视总台
腾讯AI技术中心在线视频BU
-
出处
《网络新媒体技术》
2023年第2期11-18,共8页
-
文摘
时空特征学习对于视频无监督表征至关重要。基于前置任务的视频自监督表征方法被证明是有效的方式之一。其中,视频播放率预测的前置任务能够以无监督的方式学习时序特征,近年来得到广泛的讨论。然而,播放速率预测任务只探讨了单个样本的自监督标签,忽略了不同目标的运动频率差别;播放率预测任务的损失函数将所有标签的权重视为均等,而忽略了不同预测标签间与真值间的差距;传统的播放速率预测任务只使用单层分类层用于播放速率预测,影响视频表征的整体性能。针对上述3个问题,提出了一种改进的播放速率前置任务。该方法在训练时创新性地使用对照样本,并使用EMD距离优化不同预测样本和真值间的损失函数,同时使用更深的神经网络预测层,缓解预测任务对视频表征的影响。本文所提出的方法在公开数据集UCF-101和HMDB-51进行仿真实验,比较了所提出方法与传统方法的性能增益。实验表明,改进的播放速度前置任务有较好的视频表征效果。
-
关键词
视频表征
自监督学习
前置任务
神经网络
动作识别
-
Keywords
video representation learning
self-supervised learning
pretext task
neural network
action recognition
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-