期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
从视频到语言:视频标题生成与描述研究综述 被引量:11
1
作者 汤鹏杰 王瀚漓 《自动化学报》 EI CAS CSCD 北大核心 2022年第2期375-397,共23页
视频标题生成与描述是使用自然语言对视频进行总结与重新表达.由于视频与语言之间存在异构特性,其数据处理过程较为复杂.本文主要对基于“编码−解码”架构的模型做了详细阐述,以视频特征编码与使用方式为依据,将其分为基于视觉特征均值... 视频标题生成与描述是使用自然语言对视频进行总结与重新表达.由于视频与语言之间存在异构特性,其数据处理过程较为复杂.本文主要对基于“编码−解码”架构的模型做了详细阐述,以视频特征编码与使用方式为依据,将其分为基于视觉特征均值/最大值的方法、基于视频序列记忆建模的方法、基于三维卷积特征的方法及混合方法,并对各类模型进行了归纳与总结.最后,对当前存在的问题及可能趋势进行了总结与展望,指出需要生成融合情感、逻辑等信息的结构化语段,并在模型优化、数据集构建、评价指标等方面进行更为深入的研究. 展开更多
关键词 视频描述 卷积神经网络 循环神经网络 语段生成 情感表达 逻辑语义
下载PDF
车联网中视频语义驱动的资源分配算法 被引量:8
2
作者 陈九九 冯春燕 +3 位作者 郭彩丽 杨洋 孙启政 朱美逸 《通信学报》 EI CSCD 北大核心 2021年第7期1-11,共11页
针对车联网中视频语义理解等智能计算业务需求下传统资源分配方式不再适用的问题,研究了视频语义驱动的资源分配算法。首先,以目标检测任务为例,提出视频语义驱动的资源分配指导模型并给出模型参数的求解算法;其次,构建了车联网场景中... 针对车联网中视频语义理解等智能计算业务需求下传统资源分配方式不再适用的问题,研究了视频语义驱动的资源分配算法。首先,以目标检测任务为例,提出视频语义驱动的资源分配指导模型并给出模型参数的求解算法;其次,构建了车联网场景中视频语义驱动的资源分配优化问题,将该问题转化成凸问题并利用凸优化算法求解;进一步,为降低凸优化算法的复杂度,提出了基于强化Q学习的资源分配算法;最后,仿真验证了所提资源分配算法的性能优势。 展开更多
关键词 资源分配 车联网 视频语义 目标检测 强化学习
下载PDF
基于目标检测的码率优化算法
3
作者 黄发仁 陈锋 +1 位作者 吴宜婷 林灿辉 《电视技术》 2024年第4期20-24,共5页
随着智能多媒体技术和人工智能技术的融合发展,目标检测已广泛应用于移动监控网络远程传输场景。为了提升视频的目标检测精度,提出一种针对目标检测的码率优化算法,在有限的码率范围内使得物体的检测准确率达到最大化。将目标检测作为... 随着智能多媒体技术和人工智能技术的融合发展,目标检测已广泛应用于移动监控网络远程传输场景。为了提升视频的目标检测精度,提出一种针对目标检测的码率优化算法,在有限的码率范围内使得物体的检测准确率达到最大化。将目标检测作为视频语义任务,分析视频码率比特与目标检测之间的关系,建立目标比特分配模型,从而使目标检测准确率达到最大化。实验结果表明,所提算法不仅能节省视频码率,还能提升目标检测精度。 展开更多
关键词 人工智能 目标检测 视频语义
下载PDF
基于视频语义的码率控制算法
4
作者 黄发仁 柯捷铭 +3 位作者 郑楚飞 周简心 张森林 陈锋 《无线电工程》 2024年第8期1890-1899,共10页
随着远程监控和人工智能的融合发展,传统的码率优化算法并不适用于现阶段的移动监控网络场景。在机器视觉应用场景中,相对于传统码率优化算法只关注视频的质量,机器更关注于视频所表达的语义信息。以5G路侧摄像头远程智能检测为应用场景... 随着远程监控和人工智能的融合发展,传统的码率优化算法并不适用于现阶段的移动监控网络场景。在机器视觉应用场景中,相对于传统码率优化算法只关注视频的质量,机器更关注于视频所表达的语义信息。以5G路侧摄像头远程智能检测为应用场景,提出一种基于视频语义的码率优化算法,在有限的码率传输范围内最大化目标检测准确率。具体地,该算法引入视频语义任务模型,将目标检测作为语义任务。分析目标比特与语义之间的特征关系,建立复杂度与运动区域结合的新权重来分配目标比特,使目标检测准确率达到最大化。实验结果表明,相较于HM16.23所使用的帧级树编码单元(Coding Tree Unit, CTU)层码率控制算法,所提算法不仅能够节省码率而且更符合无线远程监控的目标检测需求。在测试环境下平均提升了1.4%的目标检测准确率,最高能够提升2.5%的目标检测准确率。 展开更多
关键词 人工智能 机器视觉 目标检测 视频语义
下载PDF
基于语义的信息检索中的反馈技术 被引量:2
5
作者 蔡骏 《南京邮电学院学报(自然科学版)》 2003年第2期78-81,共4页
首先分析了两种基于语义的信息检索系统的基本框架。由于相关反馈计算在基于内容的图像检索中受到广泛重视,因此对相关反馈中的加权距离进行了讨论和总结。这种相关反馈技术使得高层次语义特征能够逐步嵌入到低层次特征的图像检索中,使... 首先分析了两种基于语义的信息检索系统的基本框架。由于相关反馈计算在基于内容的图像检索中受到广泛重视,因此对相关反馈中的加权距离进行了讨论和总结。这种相关反馈技术使得高层次语义特征能够逐步嵌入到低层次特征的图像检索中,使检索的准确率大大提高。 展开更多
关键词 语义 信息检索 图像检索 相关反馈 加权距离
下载PDF
基于混合训练与语义关联的视频描述算法
6
作者 陈淑琴 钟忺 +1 位作者 黄文心 卢炎生 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第11期67-74,共8页
针对目前主流方法在使用Transformer的自注意力基础单元或长短期记忆(LSTM)单元对序列词的依赖性进行建模中,忽略了句子中词与词之间的语义关系和训练与测试阶段的曝光偏差问题,提出混合训练与语义关联的视频描述算法(DC-RL).在编码器部... 针对目前主流方法在使用Transformer的自注意力基础单元或长短期记忆(LSTM)单元对序列词的依赖性进行建模中,忽略了句子中词与词之间的语义关系和训练与测试阶段的曝光偏差问题,提出混合训练与语义关联的视频描述算法(DC-RL).在编码器部分,采用双向长短期记忆循环神经网络(LSTM1)融合经过预训练模型得到的外观特征和动作特征;在解码器阶段,使用注意力机制动态地为全局语义解码器和自学习解码器提取与当前生成单词对应的视觉特征,缓解了由传统的全局语义解码器中的训练和测试之间的差异引起的曝光偏差问题.全局语义解码器使用真实描述中上一个时间步的单词来驱动当前单词的生成,并通过全局语义提取器提取与当前单词对应的全局语义信息辅助当前单词的生成.自学习解码器使用上一个时间步生成的单词的语义信息来驱动当前单词的生成.混合训练的融合网络运用强化学习的方式直接优化融合网络模型,运用先前词的语义信息,生成更加准确的视频描述.研究结果表明:在数据集MSR-VTT上,融合网络模型较baseline在B4,M,R和C四个指标上分别提升2.3%,0.3%,1.0%和1.9%,而使用强化学习优化的融合网络模型分别提升2.0%,0.5%,1.9%和6.1%. 展开更多
关键词 视频描述 上下文语义 双流解码器 混合训练 曝光偏差
原文传递
基于非线性可鉴别的稀疏表示视频语义分析方法 被引量:3
7
作者 詹永照 张珊珊 成科扬 《江苏大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第6期669-674,共6页
为了提高视频语义分析的准确性,提出一种基于非线性可鉴别的稀疏表示视频语义分析方法.该方法在K-SVD稀疏表示字典优化算法中引入了核函数和类别矢量,将稀疏表示特征映射到高维空间并使之满足类内离散度小、类间离散度大的Fisher准则,... 为了提高视频语义分析的准确性,提出一种基于非线性可鉴别的稀疏表示视频语义分析方法.该方法在K-SVD稀疏表示字典优化算法中引入了核函数和类别矢量,将稀疏表示特征映射到高维空间并使之满足类内离散度小、类间离散度大的Fisher准则,建立了可鉴别模型.使用该模型对字典的优化求解产生约束,形成了优化字典.将该字典用于求解视频特征的稀疏表示,同时提出了视频特征稀疏表示的分类鉴别准则来分析视频语义.在TRECVID 2007的新闻视频库上进行了视频语义概念分析.试验结果表明,该方法显著提高了视频特征稀疏表示的鉴别性,从而提高了视频语义分析准确性. 展开更多
关键词 语义分析 视频语义 稀疏表示 可鉴别 核函数 K-SVD
下载PDF
Semantics in Image and Video Retrieval Systems 被引量:1
8
作者 CAIJun LIXiao-fei 《The Journal of China Universities of Posts and Telecommunications》 EI CSCD 2002年第4期57-63,共7页
Multimedia document annotation is used in traditional multimedia databasesystems. However, without the help of human beings, it is very difficult to extract the semanticcontent of multimedia automatically. On the othe... Multimedia document annotation is used in traditional multimedia databasesystems. However, without the help of human beings, it is very difficult to extract the semanticcontent of multimedia automatically. On the other hand, it is a tedious job to annotate multimediadocuments in large databases one by one manually. This paper first introduces a method to constructa semantic net-work on top of a multimedia database. Second, a useful and efficient annotationstrategy is presented based on the framework to obtain an accurate and rapid annotation of anymultimedia databases. Third, two methods of joint similarity measures for semantic and low-levelfeatures are evaluated . 展开更多
关键词 image retrieval video retrieval semantic-based information retrieval MPEG-7 CONTENT-BASED FEATURE semantics
原文传递
A dynamic description logic based system for video event detection 被引量:2
9
作者 Xiaofeng WANG Liang CHANG +1 位作者 Zhixin LI Zhongzhi SHI 《Frontiers of Electrical and Electronic Engineering in China》 CSCD 2010年第2期137-142,共6页
Video event detection is an important research area nowadays.Modeling the video event is a key problem in video event detection.In this paper,we combine dynamic description logic with linear time temporal logic to bui... Video event detection is an important research area nowadays.Modeling the video event is a key problem in video event detection.In this paper,we combine dynamic description logic with linear time temporal logic to build a logic system for video event detection.The proposed logic system is named as LTD_(ALCO)which can represent and inference the static,dynamic and temporal knowledge in one uniform logic system.Based on the LTD_(ALCO),a framework for video event detection is proposed.The video event detection framework can automatically obtain the logic description of video content with the help of ontology-based computer vision techniques and detect the specified video event based on satisfiability checking on LTD_(ALCO)formulas. 展开更多
关键词 video event semantics dynamic description logics REASONING ONTOLOGY
原文传递
视频语义相似度网络研究 被引量:2
10
作者 周生 胡晓峰 +2 位作者 罗批 李志强 刘思力 《计算机应用》 CSCD 北大核心 2010年第7期1962-1966,共5页
针对虚拟新闻系统中视频使用时出现的接近于复杂网络理论中的无尺度现象,从而导致整个虚拟新闻效果下降的问题,设计了一种全新的视频语义相似度网络。详细给出了视频语义的描述模型、网络构建的规则、相似度计算的方法以及建立在相似度... 针对虚拟新闻系统中视频使用时出现的接近于复杂网络理论中的无尺度现象,从而导致整个虚拟新闻效果下降的问题,设计了一种全新的视频语义相似度网络。详细给出了视频语义的描述模型、网络构建的规则、相似度计算的方法以及建立在相似度网络基础上的视频检索算法。对视频语义相似度网络进行了实验,结果表明,视频语义相似度网络能够非常有效地解决视频使用时出现的问题。 展开更多
关键词 虚拟新闻 无尺度 视频语义 相似度
下载PDF
一种AVS压缩域视频语义鲁棒水印方法 被引量:1
11
作者 同鸣 秦可臻 姬红兵 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2011年第1期28-33,46,共7页
为了大幅度提高水印方法的鲁棒性,提出了一种视频语义水印方法,利用高级语义稳定且不易受攻击的特点,将视频语义与水印相结合.该方法将关联规则挖掘看作约束优化问题,使用改进的克隆选择算法进行模糊关联规则挖掘,以提取运动语义和纹理... 为了大幅度提高水印方法的鲁棒性,提出了一种视频语义水印方法,利用高级语义稳定且不易受攻击的特点,将视频语义与水印相结合.该方法将关联规则挖掘看作约束优化问题,使用改进的克隆选择算法进行模糊关联规则挖掘,以提取运动语义和纹理语义,并在线生成动态视频语义水印;根据运动语义自适应确定感兴趣镜头,根据纹理语义自适应确定感兴趣Ⅰ帧,根据人眼视觉掩蔽特性,选择运动剧烈和运动缓慢区域作为感兴趣区域,将水印嵌入在感兴趣Ⅰ帧的亮度子块预测残差离散余弦变换中频系数上;利用视频纹理特征,自适应控制水印嵌入强度.实验和分析表明,该方法不仅对各种常规攻击鲁棒,而且对帧重组、帧内裁剪和帧删除等视频特有攻击表现出强的鲁棒性. 展开更多
关键词 视频水印 语义 克隆选择 关联规则 音视频编解码技术标准
下载PDF
STUDY ON SEMANTIC-BASED VIDEO WATERMARKING METHOD
12
作者 Wang Xuhai Tong Ming Qin Kezhen 《Journal of Electronics(China)》 2010年第3期428-432,共5页
A new video watermarking method for the Audio Video coding Standard (AVS) is proposed. According to human visual masking properties, this method determines the region of interest for watermark embedding by analyzing v... A new video watermarking method for the Audio Video coding Standard (AVS) is proposed. According to human visual masking properties, this method determines the region of interest for watermark embedding by analyzing video semantics, and generates dynamic robust watermark according to video motion semantics, and embeds watermarks in the Intermediate Frequency (IF) Discrete Cosine Transform (DCT) coefficients of the luminance sub-block prediction residual in the region of interest. This method controls watermark embedding strength adaptively by video textures semantics. Ex- periments show that this method is robust not only to various conventional attacks, but also to re-frame, frame cropping, frame deletion and other video-specific attacks. 展开更多
关键词 Digital watermarking semantics CLONING Association rules Audio video coding Standard (AVS)
下载PDF
基于视频场景深度学习的人物语义识别模型 被引量:1
13
作者 高翔 陈志 +1 位作者 岳文静 龚凯 《计算机技术与发展》 2018年第6期53-58,共6页
为有效分析和整合与人物行为相关的视频语义线索,提出一种基于视频场景深度学习的人物语义识别模型。该模型由中层语义特征提取、多通道语义特征融合、整体精调和语义识别等组成。首先实现底层图像到中层特征抽取,利用卷积神经网络算法... 为有效分析和整合与人物行为相关的视频语义线索,提出一种基于视频场景深度学习的人物语义识别模型。该模型由中层语义特征提取、多通道语义特征融合、整体精调和语义识别等组成。首先实现底层图像到中层特征抽取,利用卷积神经网络算法并行获取视频场景关键帧集中的人物身份、人物行为、上下文环境等通道语义;再将中层特征融合到同一个语义融合层,通过多层语义卷积神经网络来整合上述语义,使用损失函数来学习不同通道语义之间的潜在关系,提高人物语义融合的鲁棒性;最终通过大间隔的损失函数来精调整个网络的参数,利用SVM分类器完成视频人物语义识别。实验结果表明,该模型在特定的数据集上具有较高的准确率,能够高效地识别视频人物语义。 展开更多
关键词 视频挖掘 深度学习 卷积神经网络 人物语义 支持向量机
下载PDF
冰球运动视频资源管理的语义索引与检索方法探析 被引量:1
14
作者 孙若渔 《冰雪运动》 2008年第3期38-41,共4页
冰球运动视频资源是现代冰球运动技战术研究的重要组成部分,为克服传统冰球运动视频资源管理方法的局限性,一个解决方案是使视频资源管理系统具备语义搜索和过滤能力。为达到高效索引和检索的目的,进行了冰球运动视频资源的信息元素语... 冰球运动视频资源是现代冰球运动技战术研究的重要组成部分,为克服传统冰球运动视频资源管理方法的局限性,一个解决方案是使视频资源管理系统具备语义搜索和过滤能力。为达到高效索引和检索的目的,进行了冰球运动视频资源的信息元素语义化分析,并初步提出冰球运动视频资源管理系统的语义索引结构设计方案,为建立专业化视频资源管理系统提供技术与方法参考。 展开更多
关键词 冰球 视频 语义 索引
下载PDF
基于多模态子空间相关性传递的视频语义挖掘 被引量:12
15
作者 刘亚楠 吴飞 庄越挺 《计算机研究与发展》 EI CSCD 北大核心 2009年第1期1-8,共8页
在视频语义信息理解和挖掘中,充分利用图像、音频和文本等多模态媒质之间的交互关联是非常重要的研究方向.考虑到视频的多模态和时序关联共生特性,提出了一种基于多模态子空间相关性传递的语义概念检测方法来挖掘视频的语义信息.该方法... 在视频语义信息理解和挖掘中,充分利用图像、音频和文本等多模态媒质之间的交互关联是非常重要的研究方向.考虑到视频的多模态和时序关联共生特性,提出了一种基于多模态子空间相关性传递的语义概念检测方法来挖掘视频的语义信息.该方法对所提取视频镜头的多模态底层特征,根据共生数据嵌入(co-occurrence data embedding)和相似度融合(Si mFusion)进行多模态子空间相关性传递而得到镜头之间的相似度关系,接着通过局部不变投影(locality preserving projections)对原始数据进行降维以获得低维语义空间内的坐标,再利用标注信息训练分类模型,从而可对训练集外的测试数据进行语义概念检测,实现视频语义信息挖掘.实验表明该方法有较高的准确率. 展开更多
关键词 视频语义挖掘 多模态 语义概念检测 子空间相关性传递 时序关联共生特性
下载PDF
融合图像语义的动态视频拼接方法 被引量:9
16
作者 杨毅 王冬生 +1 位作者 宋文杰 付梦印 《系统工程与电子技术》 EI CSCD 北大核心 2018年第12期2845-2854,共10页
针对当前视频拼接方法仅考虑图像低阶几何特征而没有考虑图像高阶语义特征的问题,提出融合图像高阶语义信息的视频拼接方法,并采用多线程编程方式提高拼接速度。主要贡献包括:(1)自适应动态视频拼接系统框架;(2)融合语义的高效特征匹配... 针对当前视频拼接方法仅考虑图像低阶几何特征而没有考虑图像高阶语义特征的问题,提出融合图像高阶语义信息的视频拼接方法,并采用多线程编程方式提高拼接速度。主要贡献包括:(1)自适应动态视频拼接系统框架;(2)融合语义的高效特征匹配算法;(3)融合语义的视频拼接质量评价算法。为验证提出算法的有效性,使用车载摄像机在校园环境内进行动态视频拼接实车实验。实验结果显示,相比于传统方法,该匹配算法正确率提升了50%左右,拼接评价算法更符合人眼视觉,方法的拼接质量提升了25%左右,具有较高的鲁棒性与准确性。 展开更多
关键词 动态视频拼接 语义 拼接评价 特征匹配 自适应
下载PDF
融合语义增强与多注意力机制的视频描述方法
17
作者 任剑洪 曾勍炜 +2 位作者 李向军 龚政 刘方 《南昌大学学报(理科版)》 CAS 北大核心 2023年第6期548-555,共8页
随着视频数据爆发式增长,视频描述任务越来越被研究者们关注。如何让计算机像人类一样理解视频的内容并能够准确无误地用语言表达出来,是视频描述任务领域尚未得到完美解决的难题之一。针对现有代表性视频描述模型中存在的未充分利用语... 随着视频数据爆发式增长,视频描述任务越来越被研究者们关注。如何让计算机像人类一样理解视频的内容并能够准确无误地用语言表达出来,是视频描述任务领域尚未得到完美解决的难题之一。针对现有代表性视频描述模型中存在的未充分利用语义信息、生成描述不准确等问题,本文基于编码器-解码器框架的视频描述模型,提出了一种融合语义增强与多注意力机制的视频描述方法。该方法首先通过视觉文本特征聚合方法,为模型编码提供高层语义指导。然后,使用Faster-RCNN网络提取视频对象特征,通过图卷积网络获取视频对象的潜在语义信息,得到增强特征。最后,引入多重注意力机制,使模型更好地利用输入信息,增强模型的学习能力。MSVD和MSR-VTT数据集上的实验结果表明,相比于基准模型,本文提出的方法能合理优化视频描述模型的输入信息,有效提取视频潜在语义,从而解决视频文本跨模态问题和生成语句的语法结构问题,并能有效提升视频描述模型的准确度和对复杂场景的描述能力,更具先进性。 展开更多
关键词 视频描述 高层语义 图神经网络 注意力机制 特征增强
下载PDF
基于Ontology的监控视频描述方案 被引量:1
18
作者 马玲 张重阳 郑世宝 《电视技术》 北大核心 2011年第3期109-112,116,共5页
基于对监控视频数据所含信息的层次化分析,提出了一种基于本体论(Ontology)的监控视频层次化描述方案。在此方案中,将监控视频采集器得到的数据分为视频元数据和视频数据分别加以描述。根据所提出的监控视频分析本体,将视频数据进一步... 基于对监控视频数据所含信息的层次化分析,提出了一种基于本体论(Ontology)的监控视频层次化描述方案。在此方案中,将监控视频采集器得到的数据分为视频元数据和视频数据分别加以描述。根据所提出的监控视频分析本体,将视频数据进一步分为视觉特征信息、目标对象语义信息、高层语义信息三个层次。最后借鉴领域知识,并使用可扩展标记语言(XML),以实例形式阐述各个层次的描述方法。 展开更多
关键词 监控视频 本体论 MPEG-7 视频语义描述 XML
下载PDF
基于环境视频语义的云制造资源描述 被引量:1
19
作者 陈友玲 张哲 +2 位作者 刘舰 吕松洋 段克华 《计算机集成制造系统》 EI CSCD 北大核心 2020年第7期1896-1904,共9页
针对云制造环境下各行业资源难以统一描述、资源云池内可用资源更新滞后、资源匹配计划执行力度弱等问题,提出一种显形表达资源动态变化的层次环境视频语义模型。该模型通过面向变化的三域(特征域-行为过程域-结果域)定义环境视频语义... 针对云制造环境下各行业资源难以统一描述、资源云池内可用资源更新滞后、资源匹配计划执行力度弱等问题,提出一种显形表达资源动态变化的层次环境视频语义模型。该模型通过面向变化的三域(特征域-行为过程域-结果域)定义环境视频语义的层次结构和数据的层次表达,在各层次语义描述中将环境视频语义与视频内容语义有机结合,支持多地环境视频数据的关联表示,为后续云制造环境下资源匹配的动态实时、高效及可靠奠定了基础。 展开更多
关键词 环境视频语义 云制造 资源描述 层次表达
下载PDF
基于内容的静态语义概念视频检索方法研究 被引量:1
20
作者 张聪 张瑞 杨小康 《微计算机信息》 2012年第3期82-84,共3页
本文针对互联网视频检索技术的发展,阐述了目前主流视频搜索引擎的技术现状,分析了互联网视频检索的关键技术,特别是对于视频特征的提取技术。本文的创新点是提出了一种通用的基于内容的静态语义视频检索方法,该方法可以弥补基于文本视... 本文针对互联网视频检索技术的发展,阐述了目前主流视频搜索引擎的技术现状,分析了互联网视频检索的关键技术,特别是对于视频特征的提取技术。本文的创新点是提出了一种通用的基于内容的静态语义视频检索方法,该方法可以弥补基于文本视频检索的有关不足,并且在TRECVID的视频概念检索数据的静态语义概念中得到验证,运行稳定。 展开更多
关键词 基于内容的视频检索:TRECⅧ 特征提取 静态语义概念
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部