期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
面向多模态知识图谱的实体对齐方法研究
1
作者 张艺玮 周乾 +1 位作者 陈伟 赵雷 《小型微型计算机系统》 CSCD 北大核心 2024年第5期1257-1263,共7页
实体对齐是构建知识图谱的重要环节,也是该领域的一个研究热点.现有实体对齐工作在包含文本、图片的多模态知识图谱数据集DB15K-FB15K和YAGO15K-FB15K上做了大量研究,但是它们仅局限于文本和图片两种模态,且在多模态知识融合方面的性能... 实体对齐是构建知识图谱的重要环节,也是该领域的一个研究热点.现有实体对齐工作在包含文本、图片的多模态知识图谱数据集DB15K-FB15K和YAGO15K-FB15K上做了大量研究,但是它们仅局限于文本和图片两种模态,且在多模态知识融合方面的性能并不显著.为弥补已有工作的不足,本文构建了一个包含文本、图片、视频的多模态知识图谱数据集Douban-Baidu,并提出了EA-MMKG模型来解决多模态知识图谱实体对齐问题.EA-MMKG包含两部分:多模态知识嵌入模块和多模态知识交互融合模块.具体来讲,多模态知识嵌入模块由关系三元组嵌入、图片嵌入、视频嵌入和属性三元组嵌入4个部分组成;多模态知识交互融合模块采用了基于注意力的融合机制来融合从文本、图片、视频3种模态中提取的特征信息,从而使得各模态之间的交互更加充分、融合效果更好,并最终提高多模态知识图谱实体对齐的性能.实验结果表明,EA-MMKG模型在Douban-Baidu数据集、DB15K-FB15K数据集和YAGO15K-FB15K数据集上的性能均优于现有的模型. 展开更多
关键词 多模态 实体对齐 多模态知识图谱嵌入 多模态融合
下载PDF
基于正反上下文语义对齐融合的多模态文本摘要模型
2
作者 陈中峰 陆振宇 荣欢 《中文信息学报》 CSCD 北大核心 2024年第4期108-119,共12页
该文基于序列到序列的神经网络,提出了使用文本语义信息和图片语义信息对多模态文本摘要生成任务进行建模。具体而言,使用文本一级编码器和带有图片信息指导的二级门控编码器对多模态语义信息进行编码,对齐文本与图片的语义信息。通过... 该文基于序列到序列的神经网络,提出了使用文本语义信息和图片语义信息对多模态文本摘要生成任务进行建模。具体而言,使用文本一级编码器和带有图片信息指导的二级门控编码器对多模态语义信息进行编码,对齐文本与图片的语义信息。通过多模态正向注意力机制与反向注意力机制多方面观察对齐后的源文本与图片内容,分别得到各自模态语义信息的正相关和不相关特征表示。使用正向滤波器过滤正向注意力机制中的不相关信息,使用反向滤波器过滤反向注意力机制中的相关信息,达到分别从正向与反向两个方面选择性地融合文本语义信息和图片语义信息的目的。最后基于指针生成网络,使用正相关信息搭建正向指针、使用不相关信息搭建反向指针,生成带有多模态语义信息补偿的文本摘要内容。在京东中文电子商务数据集上,所提模型生成的多模态文本摘要在ROUGE-1、ROUGE-2、ROUGE-L指标上分别取得了38.40、16.71、28.01的结果。 展开更多
关键词 多模态文本摘要 多模态信息对齐 二级门控编码机制 文本生成模型
下载PDF
多尺度的开放词汇目标检测
3
作者 祝岚 翟亚红 +3 位作者 徐龙艳 王杰 赵逸凡 叶子恒 《湖北汽车工业学院学报》 2024年第3期77-80,共4页
现有的开放词汇目标检测算法在处理图像和文本对应关系时容易丢掉多尺度信息,导致对小目标检测的精度较低。针对这个问题,文中结合ChannelAttention机制与特征金字塔网络构建C-FPN模块,提出C-Baron算法。在区域选择阶段,C-Baron采用区... 现有的开放词汇目标检测算法在处理图像和文本对应关系时容易丢掉多尺度信息,导致对小目标检测的精度较低。针对这个问题,文中结合ChannelAttention机制与特征金字塔网络构建C-FPN模块,提出C-Baron算法。在区域选择阶段,C-Baron采用区域打包对齐方法处理图像与文本的对应关系。实验表明:相对于基线模型,C-Baron在新类别和基础类别上的识别精度分别提高了2%和6.3%。 展开更多
关键词 开放词汇目标检测 多尺度信息 多模态处理 图片文本对齐 C-FPN模块
下载PDF
A Comprehensive Survey on Deep Learning Multi-Modal Fusion:Methods,Technologies and Applications
4
作者 Tianzhe Jiao Chaopeng Guo +2 位作者 Xiaoyue Feng Yuming Chen Jie Song 《Computers, Materials & Continua》 SCIE EI 2024年第7期1-35,共35页
Multi-modal fusion technology gradually become a fundamental task in many fields,such as autonomous driving,smart healthcare,sentiment analysis,and human-computer interaction.It is rapidly becoming the dominant resear... Multi-modal fusion technology gradually become a fundamental task in many fields,such as autonomous driving,smart healthcare,sentiment analysis,and human-computer interaction.It is rapidly becoming the dominant research due to its powerful perception and judgment capabilities.Under complex scenes,multi-modal fusion technology utilizes the complementary characteristics of multiple data streams to fuse different data types and achieve more accurate predictions.However,achieving outstanding performance is challenging because of equipment performance limitations,missing information,and data noise.This paper comprehensively reviews existing methods based onmulti-modal fusion techniques and completes a detailed and in-depth analysis.According to the data fusion stage,multi-modal fusion has four primary methods:early fusion,deep fusion,late fusion,and hybrid fusion.The paper surveys the three majormulti-modal fusion technologies that can significantly enhance the effect of data fusion and further explore the applications of multi-modal fusion technology in various fields.Finally,it discusses the challenges and explores potential research opportunities.Multi-modal tasks still need intensive study because of data heterogeneity and quality.Preserving complementary information and eliminating redundant information between modalities is critical in multi-modal technology.Invalid data fusion methods may introduce extra noise and lead to worse results.This paper provides a comprehensive and detailed summary in response to these challenges. 展开更多
关键词 multi-modal fusion REPRESENTATION TRANSLATION alignment deep learning comparative analysis
下载PDF
基于语义一致性约束与局部-全局感知的多模态3D视觉定位
5
作者 罗寒 马浩统 +2 位作者 刘杰 严华 雷印杰 《计算机应用研究》 CSCD 北大核心 2024年第7期2203-2208,共6页
3D多模态数据稀缺,使得传统方法进行监督训练时文本与视觉特征缺乏语义一致性。同时传统方法还易忽视局部关系与全局信息,从而导致性能不佳。针对上述问题,提出了一种基于语义一致性约束与局部-全局感知的多模态3D视觉定位方法。首先,... 3D多模态数据稀缺,使得传统方法进行监督训练时文本与视觉特征缺乏语义一致性。同时传统方法还易忽视局部关系与全局信息,从而导致性能不佳。针对上述问题,提出了一种基于语义一致性约束与局部-全局感知的多模态3D视觉定位方法。首先,该方法通过蒸馏2D预训练视觉语言模型知识,帮助3D模型提取到点云-文本语义一致性特征;其次设计了局部-全局感知模块,不断补充增强候选目标特征,以更精确匹配目标。在现有的3D视觉定位数据集ScanRefer上进行的实验表明,该方法在Acc@0.25 IoU和Acc@0.5 IoU两个指标上分别达到了50.53%和37.67%,超越了现有大多数3D视觉定位算法,证实了该方法的有效性。 展开更多
关键词 3D视觉定位 多模态 特征一致性约束 局部关系 全局位置信息
下载PDF
基于多模态知识图谱的中文跨模态实体对齐方法 被引量:2
6
作者 王欢 宋丽娟 杜方 《计算机工程》 CAS CSCD 北大核心 2023年第12期88-95,共8页
多模态数据间交互式任务的出现对综合利用不同模态的知识提出了较高的要求,因此多模态知识图谱应运而生。在多模态知识图谱的构建过程中图像与文本实体是否指代同一对象尤为重要,这要求对中文跨模态实体进行实体对齐。针对该问题,提出... 多模态数据间交互式任务的出现对综合利用不同模态的知识提出了较高的要求,因此多模态知识图谱应运而生。在多模态知识图谱的构建过程中图像与文本实体是否指代同一对象尤为重要,这要求对中文跨模态实体进行实体对齐。针对该问题,提出一种基于多模态知识图谱的中文跨模态实体对齐方法。将图像信息引入实体对齐任务,面向领域细粒度图像和中文文本,设计单双流交互预训练语言模型(CCMEA)。基于自监督学习方法,利用视觉和文本编码器提取视觉和文本特征,并通过交叉编码器进行精细建模,最终采用对比学习方法计算图像和文本实体的匹配度。实验结果表明,在MUGE和Flickr30k-CN数据集上,CCMEA模型的平均召回率(MR)相比于WukongViT-B基线模型分别提升了3.20和11.96个百分点,并在自建的TEXTILE数据集上MR达到94.3%。上述实验结果证明了该方法可以有效对齐中文跨模态实体,并且具有较高的准确性和实用性。 展开更多
关键词 多模态 知识图谱 实体对齐 自监督 纺织行业
下载PDF
最大对齐度算法在多模态图像配准中正负像无关性分析 被引量:3
7
作者 李金屏 常晓丽 尹建芹 《高电压技术》 EI CAS CSCD 北大核心 2011年第2期417-421,共5页
基于对齐度的配准是一种重要的多模态图像配准方法,其中的图像预处理是关键。在对红外热像仪图像和可见光图像进行配准的过程中,首先进行图像预处理,其中一个环节是将红外热像仪图像取负像,这样可使之与相应的可见光灰度图像比较相近。... 基于对齐度的配准是一种重要的多模态图像配准方法,其中的图像预处理是关键。在对红外热像仪图像和可见光图像进行配准的过程中,首先进行图像预处理,其中一个环节是将红外热像仪图像取负像,这样可使之与相应的可见光灰度图像比较相近。实验结果表明,对齐度配准算法与正负像无关,即可见光图像与相应的红外热像仪图像正像和负像的对齐度配准结果相同,理论证明也表明该结论的正确性。这一规律对于提高最大对齐度配准算法的计算效率具有重要意义,同时也具有一定的理论意义。 展开更多
关键词 图像配准 多模态图像 正负像 对齐度 红外热像仪 预处理
下载PDF
基于域适应互增强的多模态图像语义分割
8
作者 蓝鑫 谷小婧 《计算机工程与设计》 北大核心 2022年第9期2584-2593,共10页
为解决可见光/红外(RGB-IR)双模态图像语义分割任务中模态间特征对不齐的问题,提出一种基于域适应互增强的多模态语义分割方法,在语义分割任务上辅助以可见光图像和红外图像相互之间的域适应转化来对齐不同模态的特征。针对模态内信息... 为解决可见光/红外(RGB-IR)双模态图像语义分割任务中模态间特征对不齐的问题,提出一种基于域适应互增强的多模态语义分割方法,在语义分割任务上辅助以可见光图像和红外图像相互之间的域适应转化来对齐不同模态的特征。针对模态内信息对不齐的问题,提出一种多级特征聚合对齐模块来聚合及对齐不同层级的特征。通过在两个夜间街景RGB-IR双模态语义分割数据集上进行相关实验,验证所提方法达到了当前最优性能,设计了大量消融实验验证了模型各部分的有效性。 展开更多
关键词 语义分割 多模态 红外图像 域适应 特征对齐
下载PDF
基于联合知识表示学习的多模态实体对齐 被引量:16
9
作者 王会勇 论兵 +1 位作者 张晓明 孙晓领 《控制与决策》 EI CSCD 北大核心 2020年第12期2855-2864,共10页
基于知识表示学习的实体对齐方法是将多个知识图谱嵌入到低维语义空间,通过计算实体向量之间的相似度实现对齐.现有方法往往关注文本信息而忽视图像信息,导致图像中实体特征信息未得到有效利用.对此,提出一种基于联合知识表示学习的多... 基于知识表示学习的实体对齐方法是将多个知识图谱嵌入到低维语义空间,通过计算实体向量之间的相似度实现对齐.现有方法往往关注文本信息而忽视图像信息,导致图像中实体特征信息未得到有效利用.对此,提出一种基于联合知识表示学习的多模态实体对齐方法(ITMEA).该方法联合多模态(图像、文本)数据,采用TransE与TransD相结合的知识表示学习模型,使多模态数据能够嵌入到统一低维语义空间.在低维语义空间中迭代地学习已对齐多模态实体之间的关系,从而实现多模态数据的实体对齐.实验结果表明,ITMEA在WN18-IMG数据集中能够较好地实现多模态实体对齐. 展开更多
关键词 多模态数据 知识表示学习 知识图谱 多模态实体对齐 翻译模型 种子集合
原文传递
自适应特征融合的多模态实体对齐研究
10
作者 郭浩 李欣奕 +2 位作者 唐九阳 郭延明 赵翔 《自动化学报》 EI CAS CSCD 北大核心 2024年第4期758-770,共13页
多模态数据间交互式任务的兴起对于综合利用不同模态的知识提出了更高的要求,因此融合不同模态知识的多模态知识图谱应运而生.然而,现有多模态知识图谱存在图谱知识不完整的问题,严重阻碍对信息的有效利用.缓解此问题的有效方法是通过... 多模态数据间交互式任务的兴起对于综合利用不同模态的知识提出了更高的要求,因此融合不同模态知识的多模态知识图谱应运而生.然而,现有多模态知识图谱存在图谱知识不完整的问题,严重阻碍对信息的有效利用.缓解此问题的有效方法是通过实体对齐进行知识图谱补全.当前多模态实体对齐方法以固定权重融合多种模态信息,在融合过程中忽略不同模态信息贡献的差异性.为解决上述问题,设计一套自适应特征融合机制,根据不同模态数据质量动态融合实体结构信息和视觉信息.此外,考虑到视觉信息质量不高、知识图谱之间的结构差异也影响实体对齐的效果,本文分别设计提升视觉信息有效利用率的视觉特征处理模块以及缓和结构差异性的三元组筛选模块.在多模态实体对齐任务上的实验结果表明,提出的多模态实体对齐方法的性能优于当前最好的方法. 展开更多
关键词 多模态知识图谱 实体对齐 预训练模型 特征融合
下载PDF
基于多模态对齐融合的车厢部件语义分割算法
11
作者 赵梓云 高晓蓉 罗林 《现代电子技术》 北大核心 2024年第16期150-156,共7页
车厢部件的定期情况监测是列车安全运行的重要保证之一,基于深度学习的语义分割方法可以用于相关部件的位置形态确定,以便后续进行螺栓和管线是否松动或变形的检查,但这对分割精度有较高的要求。另外,仅基于普通图像的纹理特征难以应对... 车厢部件的定期情况监测是列车安全运行的重要保证之一,基于深度学习的语义分割方法可以用于相关部件的位置形态确定,以便后续进行螺栓和管线是否松动或变形的检查,但这对分割精度有较高的要求。另外,仅基于普通图像的纹理特征难以应对各种实际复杂场景,会出现分割不连续、边缘轮廓不清晰的问题。为此,提出一种基于多模态数据对齐融合的语义分割算法,额外引入车厢深度图来补充普通图像中缺失的几何特征信息,再将两种模态的特征对齐后作为互补的特征融合学习,最终达到准确分割部件的目的。通过车厢部件的RGBD语义分割数据集的建立,对所提算法在实际应用场景下的效果进行验证,得到97.2%的召回率以及87.4%的平均交并比。同时,所设计模型在NYUDV2数据集上达到了53.5%的平均交并比,与同类型算法相比处于先进水平。这些结果表明,所提算法在有挑战性的车厢部件分割任务中,可以达到良好的分割效果,也具有较好的泛化性,有助于提升车厢部件检测的自动化水平,减轻人工压力。 展开更多
关键词 RGBD语义分割 车厢部件 多模态特征融合 特征对齐 螺栓 管线 注意力机制
下载PDF
一种新的多模态图像集成配准方法 被引量:2
12
作者 常晓丽 李金屏 《山东大学学报(理学版)》 CAS CSCD 北大核心 2009年第9期35-39,共5页
提出一种新的多模态图像集成配准方法。该算法是在对齐度和归一化互信息2种方法的基础上,引入图像边缘检测和均衡化,从而综合利用6种配准算法进行集成多模态图像配准。使用少数服从多数和基于可信度的加权2种集成准则,对红外热像仪图像... 提出一种新的多模态图像集成配准方法。该算法是在对齐度和归一化互信息2种方法的基础上,引入图像边缘检测和均衡化,从而综合利用6种配准算法进行集成多模态图像配准。使用少数服从多数和基于可信度的加权2种集成准则,对红外热像仪图像和相应可见光图像进行实验分析,结果证明该集成配准方法准确性高,鲁棒性强,较之非集成配准方法具有明显的优势。 展开更多
关键词 多模态图像配准 对齐度 归一化互信息 集成配准准则
原文传递
基于多模态融合的单阶段连续手势识别方法
13
作者 张磊 《九江学院学报(自然科学版)》 CAS 2022年第1期1-6,14,共7页
文章提出了单阶段连续手势识别模型,它可以通过单个模型在单个视频中检测和分类多个手势。这种方法学习手势和非手势之间的自然转换,不需要预处理分割阶段来检测单个手势。为了实现这一点,引入了多模态融合机制,以支持来自多模态输入的... 文章提出了单阶段连续手势识别模型,它可以通过单个模型在单个视频中检测和分类多个手势。这种方法学习手势和非手势之间的自然转换,不需要预处理分割阶段来检测单个手势。为了实现这一点,引入了多模态融合机制,以支持来自多模态输入的重要信息集成,并且可以扩展到任意数量的输入模态。此外,文章还提出了单模态特征映射和多模态特征映射模型来分别映射单模态特征和融合多模态特征。为了进一步提高性能,提出了一个基于中点的损失函数,促进标注和预测结果之间的平滑对齐。该框架可以处理可变长度的输入视频,并在两个具有挑战性的数据集上表现出良好的性能。 展开更多
关键词 手势识别 多模态融合机制 特征映射 平滑对齐
下载PDF
一种改进的多模图像自动配准方法
14
作者 夏英杰 柴永香 李金屏 《济南大学学报(自然科学版)》 CAS 北大核心 2012年第4期374-378,共5页
针对目前不同尺寸的多模态图像自动配准方法存在速度较慢的问题,提出一种改进的多模态图像的自动配准方法。对两幅不同尺寸的多模态图像进行小波变换,以分解后得到的概貌图像为待配准图像,以对齐度为适应度函数,利用遗传算法进行迭代搜... 针对目前不同尺寸的多模态图像自动配准方法存在速度较慢的问题,提出一种改进的多模态图像的自动配准方法。对两幅不同尺寸的多模态图像进行小波变换,以分解后得到的概貌图像为待配准图像,以对齐度为适应度函数,利用遗传算法进行迭代搜索,寻找两幅多模态图像的最佳配准位置。实验结果表明,该方法能实现不同尺寸的多模态图像的自动配准,速度较快,准确性高,鲁棒性强。 展开更多
关键词 多模态图像配准 互信息 对齐度 小波变换 遗传算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部