期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
Learning group interaction for sports video understanding from a perspective of athlete
1
作者 Rui HE Zehua FU +2 位作者 Qingjie LIU Yunhong WANG Xunxun CHEN 《Frontiers of Computer Science》 SCIE EI CSCD 2024年第4期175-188,共14页
Learning activities interactions between small groups is a key step in understanding team sports videos.Recent research focusing on team sports videos can be strictly regarded from the perspective of the audience rath... Learning activities interactions between small groups is a key step in understanding team sports videos.Recent research focusing on team sports videos can be strictly regarded from the perspective of the audience rather than the athlete.For team sports videos such as volleyball and basketball videos,there are plenty of intra-team and inter-team relations.In this paper,a new task named Group Scene Graph Generation is introduced to better understand intra-team relations and inter-team relations in sports videos.To tackle this problem,a novel Hierarchical Relation Network is proposed.After all players in a video are finely divided into two teams,the feature of the two teams’activities and interactions will be enhanced by Graph Convolutional Networks,which are finally recognized to generate Group Scene Graph.For evaluation,built on Volleyball dataset with additional 9660 team activity labels,a Volleyball+dataset is proposed.A baseline is set for better comparison and our experimental results demonstrate the effectiveness of our method.Moreover,the idea of our method can be directly utilized in another video-based task,Group Activity Recognition.Experiments show the priority of our method and display the link between the two tasks.Finally,from the athlete’s view,we elaborately present an interpretation that shows how to utilize Group Scene Graph to analyze teams’activities and provide professional gaming suggestions. 展开更多
关键词 group scene graph group activity recognition scene graph generation graph convolutional network sports video understanding
原文传递
基于双分支多头注意力的场景图生成方法
2
作者 王立春 付芳玉 +2 位作者 徐凯 徐洪波 尹宝才 《北京工业大学学报》 CAS CSCD 北大核心 2024年第10期1198-1205,共8页
针对已有场景图生成模型获取上下文信息有限的问题,提出一种有效的上下文融合模块,即双分支多头注意力(dual-stream multi-head attention, DMA)模块,并将DMA分别用于物体分类阶段和关系分类阶段,基于此提出基于双分支多头注意力的场景... 针对已有场景图生成模型获取上下文信息有限的问题,提出一种有效的上下文融合模块,即双分支多头注意力(dual-stream multi-head attention, DMA)模块,并将DMA分别用于物体分类阶段和关系分类阶段,基于此提出基于双分支多头注意力的场景图生成网络(dual-stream multi-head attention-based scene graph generation network, DMA-Net)。该网络由目标检测、物体语义解析和关系语义解析3个模块组成。首先,通过目标检测模块定位图像中的物体并提取物体特征;其次,使用物体语义解析模块中的节点双分支多头注意力(object dual-stream multi-head attention, O-DMA)获取融合了节点上下文的特征,该特征经过物体语义解码器获得物体类别标签;最后,通过关系语义解析模块中的边双分支多头注意力(relationship dual-stream multi-head attention, R-DMA)输出融合了边上下文的特征,该特征经过关系语义解码器输出关系类别标签。在公开的视觉基因组(visual genome, VG)数据集上分别计算了DMA-Net针对场景图检测、场景图分类和谓词分类3个子任务的图约束召回率和无图约束召回率,并与主流的场景图生成方法进行比较。实验结果表明,所提出的方法能够充分挖掘场景中的上下文信息,基于上下文增强的特征表示有效提升了场景图生成任务的精度。 展开更多
关键词 场景图生成 上下文融合 双分支多头注意力(dual-stream multi-head attention DMA) 目标检测 物体分类 关系分类
下载PDF
Dynamic Scene Graph Generation of Point Clouds with Structural Representation Learning
3
作者 Chao Qi Jianqin Yin +1 位作者 Zhicheng Zhang Jin Tang 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2024年第1期232-243,共12页
Scene graphs of point clouds help to understand object-level relationships in the 3D space.Most graph generation methods work on 2D structured data,which cannot be used for the 3D unstructured point cloud data.Existin... Scene graphs of point clouds help to understand object-level relationships in the 3D space.Most graph generation methods work on 2D structured data,which cannot be used for the 3D unstructured point cloud data.Existing point-cloud-based methods generate the scene graph with an additional graph structure that needs labor-intensive manual annotation.To address these problems,we explore a method to convert the point clouds into structured data and generate graphs without given structures.Specifically,we cluster points with similar augmented features into groups and establish their relationships,resulting in an initial structural representation of the point cloud.Besides,we propose a Dynamic Graph Generation Network(DGGN)to judge the semantic labels of targets of different granularity.It dynamically splits and merges point groups,resulting in a scene graph with high precision.Experiments show that our methods outperform other baseline methods.They output reliable graphs describing the object-level relationships without additional manual labeled data. 展开更多
关键词 scene graph generation structural representation point cloud
原文传递
基于多模态特征转换嵌入的场景图生成
4
作者 张若楠 安高云 《信号处理》 CSCD 北大核心 2023年第1期51-60,共10页
场景图生成是计算机视觉领域中的热点研究方向,可连接上、下游视觉任务。场景图由形式为<主语-谓语-宾语>的三元组组成,模型需要对整幅图像的全局视觉信息进行编码,从而辅助场景理解。但目前模型在处理一对多、多对一和对称性等... 场景图生成是计算机视觉领域中的热点研究方向,可连接上、下游视觉任务。场景图由形式为<主语-谓语-宾语>的三元组组成,模型需要对整幅图像的全局视觉信息进行编码,从而辅助场景理解。但目前模型在处理一对多、多对一和对称性等特殊的视觉关系时仍存在问题。基于知识图谱与场景图的相似性,我们将知识图谱中的转换嵌入模型迁移至场景图生成领域。为了更好地对此类视觉关系进行编码,本文提出了一种基于多模态特征转换嵌入的场景图生成框架,可对提取的视觉和语言等多模态特征进行重映射,最后使用重映射的特征进行谓语类别预测,从而在不明显增加模型复杂度的前提下构建更好的关系表示。该框架囊括并补充了现存的几乎所有转换嵌入模型的场景图实现,将四种转换嵌入模型(TransE、TransH、TransR、TransD)分别应用于场景图生成任务,同时详细阐述了不同的视觉关系类型适用的模型种类。本文所提框架扩展了传统应用方式,除独立模型之外,本文设计了新的应用方式,即作为即插即用的子模块插入到其他网络模型。本文利用大规模语义理解的视觉基因组数据集进行实验,实验结果充分验证了所提框架的有效性,同时,得到的更丰富的类别预测结果表明了本文所提框架有助于解决数据集中的长尾偏差问题。 展开更多
关键词 场景图生成 知识图谱 转换嵌入模型 图像语义 场景理解
下载PDF
M2T多源知识图谱融合的空间场景描述文本自动生成框架 被引量:1
5
作者 陈晖萱 郭旦怀 +4 位作者 葛世寅 王婧 王彦棡 陈峰 杨微石 《地球信息科学学报》 EI CSCD 北大核心 2023年第6期1176-1185,共10页
面向自然语言的地理空间场景描述一直是地理信息科学的重要研究方向,传统方法更注重空间关系的遍历性描述,难以融合人类空间认知,与人类自然语言有较大的差距。地理空间场景自然语言描述的本质是地理空间二维向量转换词空间一维向量的... 面向自然语言的地理空间场景描述一直是地理信息科学的重要研究方向,传统方法更注重空间关系的遍历性描述,难以融合人类空间认知,与人类自然语言有较大的差距。地理空间场景自然语言描述的本质是地理空间二维向量转换词空间一维向量的过程。本文提出M2T空间场景自然语言表达框架,通过空间场景理解、语言合成和注意力感知3个知识图谱,在多源知识图谱的融合机制下,生成自然语言空间场景描述文本。其中空间场景描述知识图谱解决遍历空间关系剪枝难题,同时通过建立空间关系图谱建立空间场景之间关联,支持空间场景连续表达;自然语言风格知识图谱建立空间表达与语言风格的关联,实现了贴切于空间自然语言表达的多样化语言风格;空间关注度知识图谱根据空间场景主体和客体交互状态,建立注意力矩阵捕捉自然语言空间表达的细微之处。以北京故宫为例设计的原型系统,实验表明系统生成结果与人类游记接近,且内容覆盖更完整,风格更多样,验证了M2T框架的有效性,并展现了空间场景自然语言描述应用的潜在价值。 展开更多
关键词 空间场景描述 地理知识图谱 自然语言生成 空间认知 空间注意力 空间表达 空间理解
原文传递
外部信息引导和残差置乱的场景图生成方法 被引量:5
6
作者 田鑫 季怡 +2 位作者 高海燕 林欣 刘纯平 《计算机科学与探索》 CSCD 北大核心 2021年第10期1958-1968,共11页
场景图因其具有的表示视觉场景内容的语义和组织结构的特点,有助于视觉理解和可解释推理,成为计算机视觉研究热点之一。但由于现存的视觉场景中目标和目标之间关系标注的不平衡,导致现有的场景图生成方法受到数据集偏置影响。对场景图... 场景图因其具有的表示视觉场景内容的语义和组织结构的特点,有助于视觉理解和可解释推理,成为计算机视觉研究热点之一。但由于现存的视觉场景中目标和目标之间关系标注的不平衡,导致现有的场景图生成方法受到数据集偏置影响。对场景图数据失衡问题进行研究,提出一种基于外部信息引导和残差置乱相结合的场景图生成方法(EGRES),缓解数据集偏置对场景图生成的负面影响。该方法利用外部知识库中无偏置的常识性知识规范场景图的语义空间,缓解数据集中关系数据分布不平衡的问题,以提高场景图生成的泛化能力;利用残差置乱方式对视觉特征和提取的常识性知识进行融合,规范场景图生成网络。在VG数据集上的对比实验和消融实验证明,提出的方法可以有效改善场景图生成。对于数据集中不同标签的对比实验证明,提出的方法可以改善绝大多数关系类别的生成性能,尤其是中低频关系类别下的场景图生成性能,极大地改善了数据标注失衡的问题,比现有的场景图生成方法具有更好的生成效果。 展开更多
关键词 数据集偏置 残差置乱 外部知识库 场景图生成
下载PDF
基于细粒度视觉特征和知识图谱的视觉故事生成算法 被引量:3
7
作者 李朦朦 江爱文 +3 位作者 龙羽中 宁铭 彭虎 王明文 《中文信息学报》 CSCD 北大核心 2022年第9期139-148,共10页
视觉故事生成是图像内容描述衍生的跨模态学习任务,在图文游记自动生成、启蒙教育等领域有较好的应用研究意义。目前主流方法存在对图像细粒度特征描述薄弱、故事文本的图文相关性低、语言不丰富等问题。为此,该文提出了基于细粒度视觉... 视觉故事生成是图像内容描述衍生的跨模态学习任务,在图文游记自动生成、启蒙教育等领域有较好的应用研究意义。目前主流方法存在对图像细粒度特征描述薄弱、故事文本的图文相关性低、语言不丰富等问题。为此,该文提出了基于细粒度视觉特征和知识图谱的视觉故事生成算法。该算法针对如何对图像内容进行充分挖掘和扩展表示,在视觉和高层语义方面,分别设计实现了图像细粒度视觉特征生成器和图像语义概念词集合生成器两个重要模块。在这两个模块中,细粒度视觉信息通过含有实体关系的场景图结构进行图卷积学习,高层语义信息综合外部知识图谱与相邻图像的语义关联进行扩充丰富,最终实现对图像序列内容较为全面细致的表示。该文算法在目前视觉故事生成领域规模最大的VIST数据集上与主流先进的算法进行了测试。实验结果表明,该文所提算法生成的故事文本,在图文相关性、故事逻辑性、文字多样性等方面,在Distinct-N和TTR等客观指标上均取得较大领先优势,具有良好的应用前景。 展开更多
关键词 视觉故事生成 场景图 知识图谱 文本生成 细粒度视觉特征
下载PDF
一种结合多尺度特征图和环型关系推理的场景图生成模型 被引量:4
8
作者 庄志刚 许青林 《计算机科学》 CSCD 北大核心 2020年第4期136-141,共6页
场景图为描述图像内容的结构图(Graph),其在生成过程中存在两个问题:1)二步式场景图生成方法造成有益信息流失,使得任务难度提高;2)视觉关系长尾分布使得模型发生过拟合、关系推理错误率上升。针对这两个问题,文中提出结合多尺度特征图... 场景图为描述图像内容的结构图(Graph),其在生成过程中存在两个问题:1)二步式场景图生成方法造成有益信息流失,使得任务难度提高;2)视觉关系长尾分布使得模型发生过拟合、关系推理错误率上升。针对这两个问题,文中提出结合多尺度特征图和环型关系推理的场景图生成模型SGiF(Scene Graph in Features)。首先,计算多尺度特征图上的每一特征点存在视觉关系的可能性,并将存在可能性高的特征点特征提取出来;然后,从被提取出的特征中解码得到主宾组合,根据解码结果的类别差异,对结果进行去重,以此得到场景图结构;最后,根据场景图结构检测包含目标关系边在内的环路,将环路上的其他边作为计算调整因子的输入,以该因子调整原关系推理结果,并最终完成场景图的生成。实验设置SGGen和PredCls作为验证项,在大型场景图生成数据集VG(Visual Genome)子集上的实验结果表明,通过使用多尺度特征图,相比二步式基线,SGiF的视觉关系检测命中率提升了7.1%,且通过使用环型关系推理,相比非环型关系推理基线,SGiF的关系推理命中率提升了2.18%,从而证明了SGiF的有效性。 展开更多
关键词 场景图生成 多尺度特征图 环型关系推理 卷积神经网络 图像理解
下载PDF
基于增强语义信息理解的场景图生成
9
作者 曾军英 陈运雄 +4 位作者 秦传波 陈宇聪 王迎波 田慧明 顾亚谨 《电子技术应用》 2023年第5期52-56,共5页
场景图生成(SGG)任务旨在检测图像中的视觉关系三元组,即主语、谓语、宾语,为场景理解提供结构视觉布局。然而,现有的场景图生成方法忽略了预测的谓词频率高但却无信息性的问题,从而阻碍了该领域进步。为了解决上述问题,提出一种基于增... 场景图生成(SGG)任务旨在检测图像中的视觉关系三元组,即主语、谓语、宾语,为场景理解提供结构视觉布局。然而,现有的场景图生成方法忽略了预测的谓词频率高但却无信息性的问题,从而阻碍了该领域进步。为了解决上述问题,提出一种基于增强语义信息理解的场景图生成算法。整个模型由特征提取模块、图像裁剪模块、语义转化模块、拓展信息谓词模块四部分组成。特征提取模块和图像裁剪模块负责提取视觉特征并使其具有全局性和多样性。语义转化模块负责将谓词之间的语义关系从常见的预测中恢复信息预测。拓展信息谓词模块负责扩展信息谓词的采样空间。在数据集VG和VG-MSDN上与其他方法进行比较,平均召回率分别达到59.5%和40.9%。该算法可改善预测出来的谓词信息性不足问题,进而提升场景图生成算法的性能。 展开更多
关键词 场景图生成 图像裁剪 语义转化 拓展信息
下载PDF
无偏差场景图生成方法综述
10
作者 康慷 杨有 +2 位作者 张汝荟 左心悦 姜维维 《伊犁师范大学学报(自然科学版)》 2022年第3期55-66,共12页
场景图是自然图像的一种结构化描述,有助于提高下游图像理解任务的性能和准确度.场景图的研究是当前计算机视觉和深度学习的重要内容,场景图生成是研究工作的重点和难点.由于数据集的长尾效应导致生成的对象关系准确性存在偏差,严重地... 场景图是自然图像的一种结构化描述,有助于提高下游图像理解任务的性能和准确度.场景图的研究是当前计算机视觉和深度学习的重要内容,场景图生成是研究工作的重点和难点.由于数据集的长尾效应导致生成的对象关系准确性存在偏差,严重地限制了场景图的生成质量,所以无偏差场景图得以重视.在介绍视觉关系、场景图和长尾效应三个概念的基础之上,根据无偏差场景图生成流程,将现有的无偏差场景图生成分为数据平衡、无偏差训练、关系推理三种方法.进一步,对这三类方法中常见算法的优点和特点进行了总结与分析,对比了算法之间的性能.最后指出,融入外部知识、区分谓词粒度、提高小样本识别能力和构建更加平衡的数据集,是无偏差场景图生成未来研究重点. 展开更多
关键词 无偏差场景图 场景图生成 视觉关系 长尾问题
下载PDF
基于语义连通图的场景图生成算法
11
作者 姜有亮 张锋军 +1 位作者 沈沛意 张亮 《南京师范大学学报(工程技术版)》 CAS 2022年第2期48-55,共8页
提出了基于语义连通图的场景图生成算法.将关系检测过程分为关系建议和关系推理两步;以目标检测算法得到的候选对象为节点集合,构建一个全连接图;使用物体的类别信息和相对空间关系计算物体之间存在关系的概率;通过设置阈值来删除图中... 提出了基于语义连通图的场景图生成算法.将关系检测过程分为关系建议和关系推理两步;以目标检测算法得到的候选对象为节点集合,构建一个全连接图;使用物体的类别信息和相对空间关系计算物体之间存在关系的概率;通过设置阈值来删除图中的无效连接,得到稀疏的语义连通图;使用图神经网络聚合物体节点的特征进行聚合,融合上下文信息.根据语义连通图的连接关系,结合更新后的主语和宾语特征以及两个物体联合区域的特征,构建关系特征,预测图中的每条边对应的关系类别. 展开更多
关键词 场景图生成 图卷积神经网络 目标检测 视觉关系检测 场景语义理解
下载PDF
一种基于UML活动图的测试场景自动生成策略 被引量:2
12
作者 曹阳 刘正涛 《软件工程》 2016年第8期19-22,共4页
传统的场景法在设计测试用例的过程中存在着构造场景困难、冗余度高、设计效率低下等问题。针对此问题,提出了一种基于UML活动图的测试场景自动生成策略。在建立活动流图模型后,采用改进的深度优先搜索算法获得路径集合,应用路径优化算... 传统的场景法在设计测试用例的过程中存在着构造场景困难、冗余度高、设计效率低下等问题。针对此问题,提出了一种基于UML活动图的测试场景自动生成策略。在建立活动流图模型后,采用改进的深度优先搜索算法获得路径集合,应用路径优化算法生成测试路径及测试场景。通过在商用的供应商协同平台的测试过程中应用该策略,验证了其有效性。实践结果表明,该策略较好的解决了循环工作流产生的路径爆炸问题,降低了测试场景的冗余度。 展开更多
关键词 测试场景 活动流图 深度优先搜索 独立路径 自动生成
下载PDF
一种空间关系增强的场景图生成方法
13
作者 陶琪 靳华中 +2 位作者 李文萱 黎林 袁福祥 《湖北工业大学学报》 2022年第4期36-42,共7页
为了充分利用目标间的空间信息,更准确描述场景目标之间的关系,提出一种空间关系增强的场景图生成方法。该方法主要贡献包括目标间的关系统计和空间关系增强两个方面。其一,通过数据库建立目标对的关系数值矩阵,利用关系数值矩阵简化目... 为了充分利用目标间的空间信息,更准确描述场景目标之间的关系,提出一种空间关系增强的场景图生成方法。该方法主要贡献包括目标间的关系统计和空间关系增强两个方面。其一,通过数据库建立目标对的关系数值矩阵,利用关系数值矩阵简化目标对的数量,以便目标间的关系检测;其二,由目标对的坐标信息计算两者之间的相对大小、相对位置和交并比,从而增强目标间的空间关系。实验结果表明,在Visual Genome数据集上,提出方法比Neural Motifs模型在场景图生成、场景图分类和谓词分类任务上均有提升。 展开更多
关键词 场景图生成 空间信息 空间关系 关系统计 关系检测
下载PDF
附加偏见预测器辅助的均衡化场景图生成
14
作者 王文彬 王瑞平 陈熙霖 《中国科学:信息科学》 CSCD 北大核心 2022年第11期2075-2092,共18页
场景图是以场景中的物体为结点、以物体之间的关系为边构成的图结构,在视觉与语言交互理解和推理相关任务中具有广泛的应用前景.近年来,场景图自动生成逐渐受到关注,但生成结果中对于关系的描述受到长尾分布带来的偏见的影响,偏向于样... 场景图是以场景中的物体为结点、以物体之间的关系为边构成的图结构,在视觉与语言交互理解和推理相关任务中具有广泛的应用前景.近年来,场景图自动生成逐渐受到关注,但生成结果中对于关系的描述受到长尾分布带来的偏见的影响,偏向于样本量较大的头部关系.然而头部关系往往过于空泛,描述不够准确,容易造成误解.由于这种关系价值不高,生成的场景图近似于退化为场景中物体信息的堆叠,不利于其他应用在图结构上进行结构化推理.为了使场景图生成器在这种不均衡的数据条件下,能够更均衡地学习,给出更加多样化的特别是尾部的更准确的关系,本文提出一种附加偏见预测器(additional biased predictor,ABP)辅助的均衡化学习方法.该方法利用一条有偏见的关系预测分支,令场景图生成器抑制自身对头部关系的偏好,并更加注重尾部关系的学习.场景图生成器需要为指定的一对物体预测关系,这是一种实例级的关系预测,与之相比,有偏分支以更简洁的方式预测出图像中的关系信息,即不指定任何一对物体,直接预测出图像中存在的关系,这是一种区域级的关系预测.为此,本文利用已有的实例级的关系标注,设计算法自动构造区域级的关系标注,以此来训练该有偏分支,使其具有区域级关系预测的能力.在不同场景图生成器上应用ABP方法,并在多个公开数据集(Visual Genome,VRD和OpenImages等)上进行实验,结果表明,ABP方法具有通用性,应用ABP方法训练得到的场景图生成器能够预测出更加多样化的、更准确的关系,进而生成更有价值、更实用的场景图. 展开更多
关键词 场景图生成 长尾分布 附加偏见预测器 均衡化学习 区域级关系
原文传递
基于多尺度时空Transformer的视频动态场景图生成模型
15
作者 王朱佳 余宙 +1 位作者 俞俊 范建平 《计算机应用》 CSCD 北大核心 2024年第1期47-57,共11页
为应对动态视频中物体间关系在时间维度上的动态变化,提出一种基于多尺度时空Transformer的视频动态场景图生成模型,在经典的Transformer架构基础上引入了多尺度建模思想,以实现对视频动态细粒度语义的精确建模。首先,在空间维度上保留... 为应对动态视频中物体间关系在时间维度上的动态变化,提出一种基于多尺度时空Transformer的视频动态场景图生成模型,在经典的Transformer架构基础上引入了多尺度建模思想,以实现对视频动态细粒度语义的精确建模。首先,在空间维度上保留了传统模型对物体在全局空间相关性的关注;同时还对物体间的相对位置进行了局部空间相关性建模,以便更好地理解人和物之间的交互动态,提供更准确的语义分析结果。其次,在时间维度上,除了保留传统模型对视频中物体短期时间相关性的关注外,还关注了同一对物体在完整视频中的长期时间相关性,通过更全面地建模物体之间的长期关系,生成更准确、连贯的场景图,在一定程度上缓解了由遮挡、重合等引起的场景图生成问题。最后,通过空间编码器与时间编码器的共同作用,更加精准地建模视频动态细粒度语义,克服了传统的单尺度模型的局限性。实验结果显示,在Action Genome基准数据集上,与基线模型STTran相比,在谓词分类、场景图分类与场景图检测三个任务的Recall@10指标上分别提升了5.0、2.8、2.9个百分点。实验结果表明,多尺度建模思想能够更加精确地建模,并有效地提高在视频动态场景图生成任务上的性能。 展开更多
关键词 动态场景图生成 注意力机制 多尺度建模 视频理解 语义分析
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部