期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于MPEG-7的视频语义描述方法 被引量:5
1
作者 朱华宇 孙正兴 +1 位作者 王箭 张福炎 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2002年第1期74-82,共9页
基于对视频语义信息的 3个层次划分 ,提出了一个基于MPEG 7的视频数据模型 ,并运用扩展标记语言 (XML) ,以实例阐述了视频内容的视频对象、视频事件和视频元数据构造和描述方法 .所提出的方法能支持不同抽象层次上复杂语义关系的描述 ,... 基于对视频语义信息的 3个层次划分 ,提出了一个基于MPEG 7的视频数据模型 ,并运用扩展标记语言 (XML) ,以实例阐述了视频内容的视频对象、视频事件和视频元数据构造和描述方法 .所提出的方法能支持不同抽象层次上复杂语义关系的描述 ,能够使用户更加灵活地访问数字视频库 。 展开更多
关键词 多媒体内容描述接口 MEPG-7 视频语义描述 扩展标记语言 XML 数据模型 视觉信息查询
下载PDF
基于多传感器信息融合的智能交通信息语义描述 被引量:3
2
作者 朱健 曹红兵 +1 位作者 徐华安 刘海涛 《现代电子技术》 2011年第24期82-86,共5页
针对摄像头采集交通信息时易受环境干扰且采集到的信息不够全面的问题,提出智能交通多传感器信息融合框架,对多种传感器采集到的交通信息进行融合。另外由于摄像头采集的视频数据量巨大且多为底层视觉信息,不便于用户信息检索,提出智能... 针对摄像头采集交通信息时易受环境干扰且采集到的信息不够全面的问题,提出智能交通多传感器信息融合框架,对多种传感器采集到的交通信息进行融合。另外由于摄像头采集的视频数据量巨大且多为底层视觉信息,不便于用户信息检索,提出智能交通信息语义描述框架,对交通视频信息和传感器信息进行语义描述。实验结果表明,对多传感器采集到的信息进行融合能有效提高信息采集的精度,同时对交通视频信息进行语义描述将极大地方便用户对感兴趣信息的检索。 展开更多
关键词 智能交通系统 多传感器信息融合 MPEG-7 视频语义描述
下载PDF
基于Ontology的监控视频描述方案 被引量:1
3
作者 马玲 张重阳 郑世宝 《电视技术》 北大核心 2011年第3期109-112,116,共5页
基于对监控视频数据所含信息的层次化分析,提出了一种基于本体论(Ontology)的监控视频层次化描述方案。在此方案中,将监控视频采集器得到的数据分为视频元数据和视频数据分别加以描述。根据所提出的监控视频分析本体,将视频数据进一步... 基于对监控视频数据所含信息的层次化分析,提出了一种基于本体论(Ontology)的监控视频层次化描述方案。在此方案中,将监控视频采集器得到的数据分为视频元数据和视频数据分别加以描述。根据所提出的监控视频分析本体,将视频数据进一步分为视觉特征信息、目标对象语义信息、高层语义信息三个层次。最后借鉴领域知识,并使用可扩展标记语言(XML),以实例形式阐述各个层次的描述方法。 展开更多
关键词 监控视频 本体论 MPEG-7 视频语义描述 XML
下载PDF
针对视频语义描述模型的稀疏对抗样本攻击
4
作者 邱江兴 汤学明 +3 位作者 王天美 王成 崔永泉 骆婷 《计算机科学》 CSCD 北大核心 2023年第12期330-336,共7页
在多模态深度学习领域,尽管有很多研究表明图像语义描述模型容易受到对抗样本的攻击,但是视频语义描述模型的鲁棒性并没有得到很多的关注。主要原因有两点:一是与图像语义描述模型相比,视频语义描述模型的输入是一个图像流,而不是单一... 在多模态深度学习领域,尽管有很多研究表明图像语义描述模型容易受到对抗样本的攻击,但是视频语义描述模型的鲁棒性并没有得到很多的关注。主要原因有两点:一是与图像语义描述模型相比,视频语义描述模型的输入是一个图像流,而不是单一的图像,如果对视频的每一帧进行扰动,那么整体的计算量将会很大;二是与视频识别模型相比,视频语义描述模型的输出不是一个单词,而是更复杂的语义描述。为了解决上述问题以及研究视频描述模型的鲁棒性,提出了一种针对视频语义描述模型的稀疏对抗样本攻击方法。首先,基于图像识别领域的显著性分析的原理,提出了一种评估视频中不同帧对模型输出贡献度的方法。在此基础上,选择关键帧施加扰动。其次,针对视频语义描述模型,设计了基于L2范数的优化目标函数。在数据集MSR-VTT上的实验结果表明,所提方法在定向攻击上的成功率为96.4%,相比随机选择视频帧,查询次数减少了45%以上。上述结果验证了所提方法的有效性并揭示了视频语义描述模型的脆弱性。 展开更多
关键词 多模态模型 视频语义描述模型 对抗样本攻击 图像显著性 关键帧选择
下载PDF
iMakeup:特定领域的大规模长视频数据集——用于细粒度视频语义内容描述 被引量:1
5
作者 林霄竹 金琴 陈师哲 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2019年第8期1350-1357,共8页
实际生活中,大多数视频均含有若干动作或物体,简单的单句描述难以展现视频中的全部信息,而各类长视频中,教学视频步骤清晰、逻辑明确,容易从中提取特征并使用深度学习相关算法进行实验验证,从长视频中提取复杂信息成为研究人员日益关注... 实际生活中,大多数视频均含有若干动作或物体,简单的单句描述难以展现视频中的全部信息,而各类长视频中,教学视频步骤清晰、逻辑明确,容易从中提取特征并使用深度学习相关算法进行实验验证,从长视频中提取复杂信息成为研究人员日益关注的问题之一.为此,文中收集整理了一个命名为iMakeup的大规模的美妆类教学视频数据集,其包含总时长256 h的热门50类2000个长视频,以及12823个短视频片段,每个片段均根据视频的逻辑步骤顺序进行划分,并标注起止时间和自然语句描述.文中主要通过视频网站下载收集原始视频,并请志愿者对视频的详细内容进行人工标注;同时统计分析了此数据集的规模大小和文本内容,并与其他类似研究领域的若干数据集进行对比;最后,展示了在此数据集上进行视频语义内容描述的基线实验效果,验证了此数据集在视频语义内容描述任务中的可行性.iMakeup数据集在收集整理时注重内容多样性和类别完整性,包含丰富的视觉、听觉甚至统计信息.除了基本的视频语义内容描述任务之外,该数据集还可用于视频分割、物体检测、时尚智能化推荐等多个前沿领域. 展开更多
关键词 大规模数据集 美妆 视频语义内容描述 视频分割
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部