期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
14
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
视觉问答技术研究
被引量:
21
1
作者
俞俊
汪亮
余宙
《计算机研究与发展》
EI
CSCD
北大核心
2018年第9期1946-1958,共13页
随着深度学习在计算机视觉、自然语言处理领域取得的长足进展,现有方法已经能准确理解视觉对象和自然语言的语义,并在此基础上开展跨媒体数据表达与交互研究.近年来,视觉问答(visual question answering,VQA)是跨媒体表达与交互方向上...
随着深度学习在计算机视觉、自然语言处理领域取得的长足进展,现有方法已经能准确理解视觉对象和自然语言的语义,并在此基础上开展跨媒体数据表达与交互研究.近年来,视觉问答(visual question answering,VQA)是跨媒体表达与交互方向上的研究热点问题.视觉问答旨在让计算机理解图像内容后根据自然语言输入的查询进行自动回答.围绕视觉问答问题,从概念、模型、数据集等方面对近年来的研究进展进行综述,同时探讨现有工作存在的不足;最后从方法论、应用和平台等多方面对视觉问答未来的研究方向进行了展望.
展开更多
关键词
视觉问答
见觉推理
见频问答
深度学习
知识网络
下载PDF
职称材料
结合自底向上注意力机制和记忆网络的视觉问答模型
被引量:
13
2
作者
闫茹玉
刘学亮
《中国图象图形学报》
CSCD
北大核心
2020年第5期993-1006,共14页
目的 现有大多数视觉问答模型均采用自上而下的视觉注意力机制,对图像内容无加权统一处理,无法更好地表征图像信息,且因为缺乏长期记忆模块,无法对信息进行长时间记忆存储,在推理答案过程中会造成有效信息丢失,从而预测出错误答案.为此...
目的 现有大多数视觉问答模型均采用自上而下的视觉注意力机制,对图像内容无加权统一处理,无法更好地表征图像信息,且因为缺乏长期记忆模块,无法对信息进行长时间记忆存储,在推理答案过程中会造成有效信息丢失,从而预测出错误答案.为此,提出一种结合自底向上注意力机制和记忆网络的视觉问答模型,通过增强对图像内容的表示和记忆,提高视觉问答的准确率.方法 预训练一个目标检测模型提取图像中的目标和显著性区域作为图像特征,联合问题表示输入到记忆网络,记忆网络根据问题检索输入图像特征中的有用信息,并结合输入图像信息和问题表示进行多次迭代、更新,以生成最终的信息表示,最后融合记忆网络记忆的最终信息和问题表示,推测出正确答案.结果 在公开的大规模数据集VQA(visual question answering) v2.0上与现有主流算法进行比较实验和消融实验,结果表明,提出的模型在视觉问答任务中的准确率有显著提升,总体准确率为64.0%.与MCB(multimodal compact bilinear)算法相比,总体准确率提升了1.7%;与性能较好的VQA machine算法相比,总体准确率提升了1%,其中回答是/否、计数和其他类型问题的准确率分别提升了1.1%、3.4%和0.6%.整体性能优于其他对比算法,验证了提出算法的有效性.结论 本文提出的结合自底向上注意力机制和记忆网络的视觉问答模型,更符合人类的视觉注意力机制,并且在推理答案的过程中减少了信息丢失,有效提升了视觉问答的准确率.
展开更多
关键词
视觉问答
自底向上
注意力机制
记忆网络
多模态融合
多分类
原文传递
面向视觉问答的多模块协同注意模型
被引量:
6
3
作者
邹品荣
肖锋
+2 位作者
张文娟
张万玉
王晨阳
《计算机工程》
CAS
CSCD
北大核心
2022年第2期250-260,共11页
视觉问答(VQA)是计算机视觉和自然语言处理领域中典型的多模态问题,然而传统VQA模型忽略了双模态中语义信息的动态关系和不同区域间丰富的空间结构。提出一种新的多模块协同注意力模型,对视觉场景中对象间关系的动态交互和文本上下文表...
视觉问答(VQA)是计算机视觉和自然语言处理领域中典型的多模态问题,然而传统VQA模型忽略了双模态中语义信息的动态关系和不同区域间丰富的空间结构。提出一种新的多模块协同注意力模型,对视觉场景中对象间关系的动态交互和文本上下文表示进行充分理解,根据图注意力机制建模不同类型对象间关系,学习问题的自适应关系表示,将问题特征和带关系属性的视觉关系通过协同注意编码,加强问题词与对应图像区域间的依赖性,通过注意力增强模块提升模型的拟合能力。在开放数据集VQA 2.0和VQA-CP v2上的实验结果表明,该模型在"总体"、"是/否"、"计数"和"其他"类别问题上的精确度明显优于DA-NTN、ReGAT和ODA-GCN等对比方法,可有效提升视觉问答的准确率。
展开更多
关键词
视觉问答
注意力机制
图注意网络
关系推理
多模态学习
特征融合
下载PDF
职称材料
融合跨模态Transformer的外部知识型VQA
4
作者
王虞
李明锋
孙海春
《科学技术与工程》
北大核心
2024年第20期8577-8586,共10页
针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型...
针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型借助双向交叉注意力机制提升文本问题、图像、外接知识的语义交互融合能力,用于优化VQA模型在面对外部知识时普遍存在的推理能力不足的问题。结果表明:与基线模型LXMERT相比,在OK VQA数据集上,本文模型整体性能指标overall提升了15.01%。同时,与已有最新模型相比,在OK VQA数据集上,本文模型整体性能指标overall提升了4.46%。可见本文模型在改进外部知识型VQA任务性能方面有所提升。
展开更多
关键词
视觉问答(
vqa
)
外部知识
跨模态
知识图谱
下载PDF
职称材料
视觉问答技术研究综述
5
作者
王虞
孙海春
《计算机科学与探索》
CSCD
北大核心
2023年第7期1487-1505,共19页
视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析...
视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析等多项技术,能够支撑许多前沿交互式人工智能高层任务,如视觉对话、视觉导航等,具有广泛的应用前景和极高的应用价值。近几年,计算机视觉、自然语言处理及图-文跨模态领域人工智能模型的发展为视觉问答任务的实现提供了许多新的技术和方法。主要对2019—2022年视觉问答领域的主流模型及专业数据集进行总结。首先,依据视觉问答任务实现的模块框架,对关键步骤中的主流技术方法进行综述讨论。其次,按照主流模型采用的技术方法,将该领域内各类模型进行细分,并简要介绍改进重点和局限性。随后,综述视觉问答常用数据集与评价指标,对几类典型模型性能进行对比阐述。最后,对现阶段视觉问答领域内亟待解决的问题进行重点阐述,并对视觉问答领域未来应用及技术发展进行预测和展望。
展开更多
关键词
视觉问答(
vqa
)
模态融合
视觉对话
智能问答
跨模态技术
下载PDF
职称材料
问题引导的空间关系图推理视觉问答模型
被引量:
4
6
作者
兰红
张蒲芬
《中国图象图形学报》
CSCD
北大核心
2022年第7期2274-2286,共13页
目的现有视觉问答模型的研究主要从注意力机制和多模态融合角度出发,未能对图像场景中对象之间的语义联系显式建模,且较少突出对象的空间位置关系,导致空间关系推理能力欠佳。对此,本文针对需要空间关系推理的视觉问答问题,提出利用视...
目的现有视觉问答模型的研究主要从注意力机制和多模态融合角度出发,未能对图像场景中对象之间的语义联系显式建模,且较少突出对象的空间位置关系,导致空间关系推理能力欠佳。对此,本文针对需要空间关系推理的视觉问答问题,提出利用视觉对象之间空间关系属性结构化建模图像,构建问题引导的空间关系图推理视觉问答模型。方法利用显著性注意力,用Faster R-CNN(region-based convolutional neural network)提取图像中显著的视觉对象和视觉特征;对图像中的视觉对象及其空间关系结构化建模为空间关系图;利用问题引导的聚焦式注意力进行基于问题的空间关系推理。聚焦式注意力分为节点注意力和边注意力,分别用于发现与问题相关的视觉对象和空间关系;利用节点注意力和边注意力权重构造门控图推理网络,通过门控图推理网络的信息传递机制和控制特征信息的聚合,获得节点的深度交互信息,学习得到具有空间感知的视觉特征表示,达到基于问题的空间关系推理;将具有空间关系感知的图像特征和问题特征进行多模态融合,预测出正确答案。结果模型在VQA(visual question answering)v2数据集上进行训练、验证和测试。实验结果表明,本文模型相比于Prior、Language only、MCB(multimodal compact bilinear)、ReasonNet和Bottom-Up等模型,在各项准确率方面有明显提升。相比于Reason Net模型,本文模型总体的回答准确率提升2.73%,是否问题准确率提升4.41%,计数问题准确率提升5.37%,其他问题准确率提升0.65%。本文还进行了消融实验,验证了方法的有效性。结论提出的问题引导的空间关系图推理视觉问答模型能够较好地将问题文本信息和图像目标区域及对象关系进行匹配,特别是对于需要空间关系推理的问题,模型展现出较强的推理能力。
展开更多
关键词
视觉问答(
vqa
)
图卷积神经网络(GCN)
注意力机制
空间关系推理
多模态学习
原文传递
基于图像描述和视觉问答的智能盲人辅助系统
7
作者
常波
《信息与电脑》
2023年第3期113-115,共3页
为了解决盲人无法通过眼睛感知周围环境和盲人辅助设备无法提供问答功能的问题,设计了一种智能盲人辅助系统,包含硬件和软件两部分。首先,分别对摄像头、麦克风、全球定位系统(GlobalPositioning System,GPS)模块采集信息进行关键帧抽...
为了解决盲人无法通过眼睛感知周围环境和盲人辅助设备无法提供问答功能的问题,设计了一种智能盲人辅助系统,包含硬件和软件两部分。首先,分别对摄像头、麦克风、全球定位系统(GlobalPositioning System,GPS)模块采集信息进行关键帧抽取、语音转文字、关键数据抽取获得对应的图片、文本、位置信息;其次,核心服务软件利用上述信息进行功能的切换,并将对应图片-文本数据、图片数据、文本-位置数据送入图片描述(Image Caption)模型和视觉问答(Visual Question Answering,VQA)模型处理,得到对应回答信息;最后,语音播报模块利用文字转语音技术将回答信息转成语音信息并反馈。测试结果表明,提出的系统能针对盲人具体的语音问题进行回答,实现特定场景的问答和描述。
展开更多
关键词
视觉问答(
vqa
)
Image
Caption
树莓派
下载PDF
职称材料
融合答案掩码的视觉问答模型
8
作者
王峰
石方宇
+2 位作者
赵佳
张雪松
王雪枫
《中国图象图形学报》
CSCD
北大核心
2023年第11期3562-3574,共13页
目的现有的视觉问答模型由于受到语言先验的影响,预测准确率不高。虽然模型能够根据数据集中问题和答案的统计规律学习到它们之间简单的对应关系,但无法学习到问题和答案类型之间深层次的对应关系,容易出现答非所问的现象。为此,提出了...
目的现有的视觉问答模型由于受到语言先验的影响,预测准确率不高。虽然模型能够根据数据集中问题和答案的统计规律学习到它们之间简单的对应关系,但无法学习到问题和答案类型之间深层次的对应关系,容易出现答非所问的现象。为此,提出了一种使用答案掩码对预测结果中的无关答案进行遮盖的方法,迫使模型关注问题和答案类型之间的对应关系,提高模型的预测准确率。方法首先对数据集中的答案进行聚类并为每一类答案生成不同的答案掩码,然后使用预训练的答案类型识别模型预测问题对应的答案类型,并根据该模型的预测结果选择相应的答案掩码对基线模型的预测结果进行遮盖,最终得到正确答案。结果提出的方法使用UpDn(bottom-up and top-down)、RUBi(reducing unimodal biases)、LMH(learned-mixin+h)和CSS(counterfactual samples synthesizing)4种模型作为基线模型,在3个大型公开数据集上进行实验。在VQA(visual question answer)-CP v2.0数据集上的实验结果表明,本文方法使UpDn模型的准确率提高了2.15%,LMH模型的准确率提高了2.29%,融合本方法的CSS模型的准确率达到了60.14%,较原模型提升了2.02%,达到了目前较高的水平。在VQA v2.0和VQA-CP v1.0数据集上的结果也显示本文方法提高了大多数模型的准确率,具有良好的泛化性。此外,在VQA-CP v2.0上的消融实验证明了本文方法的有效性。结论提出的方法通过答案掩码对视觉问答模型的预测结果进行遮盖,减少无关答案对最终结果的影响,使模型学习到问题和答案类型之间的对应关系,有效改善了视觉问答模型答非所问的现象,提高了模型的预测准确率。
展开更多
关键词
视觉问答
语言先验
答案聚类
答案掩码
答案类型识别
原文传递
基于深度神经网络的图像碎片化信息问答算法
被引量:
4
9
作者
王一蕾
卓一帆
+1 位作者
吴英杰
陈铭钦
《计算机研究与发展》
EI
CSCD
北大核心
2018年第12期2600-2610,共11页
大量结构无序、内容片面的碎片化信息以文本、图像、视频、网页等不同模态的形式,高度分散存储在不同数据源中,现有的研究通过构建视觉问答系统(visual question answering,VQA),实现对多模态碎片化信息的提取、表达和理解.视觉问答任...
大量结构无序、内容片面的碎片化信息以文本、图像、视频、网页等不同模态的形式,高度分散存储在不同数据源中,现有的研究通过构建视觉问答系统(visual question answering,VQA),实现对多模态碎片化信息的提取、表达和理解.视觉问答任务给定与图像相关的一个问题,推理相应的答案.在视觉问答任务的基本背景下,以设计出完备的图像碎片化信息问答的框架与算法为目标,重点研究包括图像特征提取、问题文本特征提取、多模态特征融合和答案推理的模型与算法.构建深度神经网络模型提取用于表示图像与问题信息的特征,结合注意力机制与变分推断方法关联图像与问题2种模态特征并推理答案.实验结果表明:该模型能够有效提取和理解多模态碎片化信息,并提高视觉问答任务的准确率.
展开更多
关键词
人工智能
碎片化信息
神经网络
深度学习
视觉问答
下载PDF
职称材料
基于关系推理与门控机制的视觉问答方法
10
作者
王鑫
陈巧红
+1 位作者
孙麒
贾宇波
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2022年第1期36-46,共11页
针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制.该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关...
针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制.该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关系推理加强视觉区域间的联系.将分别得到的视觉注意力特征与视觉关系特征输入到自适应门控中,动态控制2种特征对预测答案的贡献.在VQA1.0及VQA2.0数据集上的实验结果表明:该模型与DCN、MFB、MFH及MCB等先进模型相比,在总体精度上均有约2%的提升;利用基于关系推理与门控机制的模型能够更好地理解图像内容,有效地提升视觉问答的准确率.
展开更多
关键词
视觉问答(
vqa
)
注意力机制
视觉区域
关系推理
自适应门控
下载PDF
职称材料
面向跨模态数据协同分析的视觉问答方法综述
被引量:
1
11
作者
崔政
胡永利
+1 位作者
孙艳丰
尹宝才
《北京工业大学学报》
CAS
CSCD
北大核心
2022年第10期1088-1099,共12页
协同分析和处理跨模态数据一直是现代人工智能领域的难点和热点,其主要挑战是跨模态数据具有语义和异构鸿沟.近年来,随着深度学习理论和技术的快速发展,基于深度学习的算法在图像和文本处理领域取得了极大的进步,进而产生了视觉问答(vis...
协同分析和处理跨模态数据一直是现代人工智能领域的难点和热点,其主要挑战是跨模态数据具有语义和异构鸿沟.近年来,随着深度学习理论和技术的快速发展,基于深度学习的算法在图像和文本处理领域取得了极大的进步,进而产生了视觉问答(visual question answering,VQA)这一课题.VQA系统利用视觉信息和文本形式的问题作为输入,得出对应的答案,核心在于协同理解和处理视觉、文本信息.因此,对VQA方法进行了详细综述,按照方法原理将现有的VQA方法分为数据融合、跨模态注意力和知识推理3类方法,全面总结分析了VQA方法的最新进展,介绍了常用的VQA数据集,并对未来的研究方向进行了展望.
展开更多
关键词
跨模态数据
深度学习
视觉问答
数据融合
跨模态注意力
知识推理
下载PDF
职称材料
基于空间注意力推理机制的视觉问答算法研究
被引量:
1
12
作者
李智涛
周之平
叶琴
《计算机应用研究》
CSCD
北大核心
2021年第3期952-955,共4页
针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关系进行了深入研究。在分析现有注意力网络的基础上,提出使用自注意力模块(self-attention,SA)和空间推理注意力模块(spatial reasoning atten...
针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关系进行了深入研究。在分析现有注意力网络的基础上,提出使用自注意力模块(self-attention,SA)和空间推理注意力模块(spatial reasoning attention,SRA)对文本信息和图像目标进行映射,最终得到融合特征输出。相较于其他注意力机制,SA和SRA可以更好地将文本信息匹配图像目标区域。模型在VQAv2数据集上进行训练和验证,并在VQAv2数据集上达到了64.01%的准确率。
展开更多
关键词
视觉问答
注意力机制
多模态学习
自注意力
空间推理注意力
下载PDF
职称材料
基于对称注意力机制的视觉问答系统
13
作者
路静
吴春雷
王雷全
《计算机系统应用》
2021年第5期114-119,共6页
近年来,基于图像视觉特征与问题文本特征融合的视觉问答(VQA)引起了研究者们的广泛关注.现有的大部分模型都是通过聚集图像区域和疑问词对的相似性,采用注意力机制和密集迭代操作进行细粒度交互和匹配,忽略了图像区域和问题词的自相关信...
近年来,基于图像视觉特征与问题文本特征融合的视觉问答(VQA)引起了研究者们的广泛关注.现有的大部分模型都是通过聚集图像区域和疑问词对的相似性,采用注意力机制和密集迭代操作进行细粒度交互和匹配,忽略了图像区域和问题词的自相关信息.本文提出了一种基于对称注意力机制的模型架构,能够有效利用图片和问题之间具有的语义关联,进而减少整体语义理解上的偏差,以提高答案预测的准确性.本文在VQA2.0数据集上进行了实验,实验结果表明基于对称注意力机制的模型与基线模型相比具有明显的优越性.
展开更多
关键词
视觉问答
注意力机制
对称注意力
卷积神经网络
特征提取
下载PDF
职称材料
面向智能交互的图像识别技术综述与展望
被引量:
92
14
作者
蒋树强
闵巍庆
王树徽
《计算机研究与发展》
EI
CSCD
北大核心
2016年第1期113-122,共10页
视觉在人与人交互以及人与自然界的交互过程中起到非常重要的作用,让终端设备具有智能的视觉识别和交互能力是人工智能和计算机技术的核心挑战和远大目标之一.可以看到,近年来视觉识别技术发展飞速,新的创新技术不断涌现,新的研究问题...
视觉在人与人交互以及人与自然界的交互过程中起到非常重要的作用,让终端设备具有智能的视觉识别和交互能力是人工智能和计算机技术的核心挑战和远大目标之一.可以看到,近年来视觉识别技术发展飞速,新的创新技术不断涌现,新的研究问题不断被提出,面向智能交互的应用呈现出一些新的动态,正在不断刷新人们对此领域的原有认识.从视觉识别、视觉描述和视觉问答3个角度对图像识别技术进行综述,对基于深度学习的图像识别以及场景分类技术进行了具体介绍,对视觉描述和问答技术的最新技术进行了分析和讨论,同时对面向移动终端和机器人的视觉识别和交互应用进行了介绍,最后对该领域的未来研究趋势进行了分析.
展开更多
关键词
图像识别
智能的视觉识别
智能交互
视觉描述
视觉问答
深度学习
下载PDF
职称材料
题名
视觉问答技术研究
被引量:
21
1
作者
俞俊
汪亮
余宙
机构
杭州电子科技大学计算机学院
复杂系统建模与仿真教育部重点实验室(杭州电子科技大学)
出处
《计算机研究与发展》
EI
CSCD
北大核心
2018年第9期1946-1958,共13页
基金
国家自然科学基金优秀青年基金项目(61622205)~~
文摘
随着深度学习在计算机视觉、自然语言处理领域取得的长足进展,现有方法已经能准确理解视觉对象和自然语言的语义,并在此基础上开展跨媒体数据表达与交互研究.近年来,视觉问答(visual question answering,VQA)是跨媒体表达与交互方向上的研究热点问题.视觉问答旨在让计算机理解图像内容后根据自然语言输入的查询进行自动回答.围绕视觉问答问题,从概念、模型、数据集等方面对近年来的研究进展进行综述,同时探讨现有工作存在的不足;最后从方法论、应用和平台等多方面对视觉问答未来的研究方向进行了展望.
关键词
视觉问答
见觉推理
见频问答
深度学习
知识网络
Keywords
visual
question
answering
(
vqa
)
visual
reasoning
video
question
answering
deep
learning
knowledge
network
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
结合自底向上注意力机制和记忆网络的视觉问答模型
被引量:
13
2
作者
闫茹玉
刘学亮
机构
合肥工业大学计算机与信息学院
出处
《中国图象图形学报》
CSCD
北大核心
2020年第5期993-1006,共14页
基金
国家自然科学基金项目(61632007,61502139)。
文摘
目的 现有大多数视觉问答模型均采用自上而下的视觉注意力机制,对图像内容无加权统一处理,无法更好地表征图像信息,且因为缺乏长期记忆模块,无法对信息进行长时间记忆存储,在推理答案过程中会造成有效信息丢失,从而预测出错误答案.为此,提出一种结合自底向上注意力机制和记忆网络的视觉问答模型,通过增强对图像内容的表示和记忆,提高视觉问答的准确率.方法 预训练一个目标检测模型提取图像中的目标和显著性区域作为图像特征,联合问题表示输入到记忆网络,记忆网络根据问题检索输入图像特征中的有用信息,并结合输入图像信息和问题表示进行多次迭代、更新,以生成最终的信息表示,最后融合记忆网络记忆的最终信息和问题表示,推测出正确答案.结果 在公开的大规模数据集VQA(visual question answering) v2.0上与现有主流算法进行比较实验和消融实验,结果表明,提出的模型在视觉问答任务中的准确率有显著提升,总体准确率为64.0%.与MCB(multimodal compact bilinear)算法相比,总体准确率提升了1.7%;与性能较好的VQA machine算法相比,总体准确率提升了1%,其中回答是/否、计数和其他类型问题的准确率分别提升了1.1%、3.4%和0.6%.整体性能优于其他对比算法,验证了提出算法的有效性.结论 本文提出的结合自底向上注意力机制和记忆网络的视觉问答模型,更符合人类的视觉注意力机制,并且在推理答案的过程中减少了信息丢失,有效提升了视觉问答的准确率.
关键词
视觉问答
自底向上
注意力机制
记忆网络
多模态融合
多分类
Keywords
visual
question
answering
(
vqa
)
bottom-up
attention
mechanism
memory
network
multimodal
fusion
multi-classification
分类号
TP391 [自动化与计算机技术—计算机应用技术]
原文传递
题名
面向视觉问答的多模块协同注意模型
被引量:
6
3
作者
邹品荣
肖锋
张文娟
张万玉
王晨阳
机构
西安工业大学兵器科学与技术学院
西安工业大学计算机科学与工程学院
西安工业大学基础学院
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第2期250-260,共11页
基金
国家自然科学基金(61572392,62171361)
陕西省科技计划项目(2020GY-066)
+1 种基金
陕西省自然科学基础研究项目(2021JM-440)
西安市未央区科技计划项目(201925)。
文摘
视觉问答(VQA)是计算机视觉和自然语言处理领域中典型的多模态问题,然而传统VQA模型忽略了双模态中语义信息的动态关系和不同区域间丰富的空间结构。提出一种新的多模块协同注意力模型,对视觉场景中对象间关系的动态交互和文本上下文表示进行充分理解,根据图注意力机制建模不同类型对象间关系,学习问题的自适应关系表示,将问题特征和带关系属性的视觉关系通过协同注意编码,加强问题词与对应图像区域间的依赖性,通过注意力增强模块提升模型的拟合能力。在开放数据集VQA 2.0和VQA-CP v2上的实验结果表明,该模型在"总体"、"是/否"、"计数"和"其他"类别问题上的精确度明显优于DA-NTN、ReGAT和ODA-GCN等对比方法,可有效提升视觉问答的准确率。
关键词
视觉问答
注意力机制
图注意网络
关系推理
多模态学习
特征融合
Keywords
visual
question
answering
(
vqa
)
attention
mechanism
graph
attention
network
relational
reasoning
multimodal
learning
feature
fusion
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
融合跨模态Transformer的外部知识型VQA
4
作者
王虞
李明锋
孙海春
机构
中国人民公安大学信息网络安全学院
安全防范技术与风险评估公安部重点实验室
出处
《科学技术与工程》
北大核心
2024年第20期8577-8586,共10页
基金
公安部技术研究计划项目(2020JSYJC22)
中央高校基本科研业务费专项资金(2022JKF02015)。
文摘
针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型借助双向交叉注意力机制提升文本问题、图像、外接知识的语义交互融合能力,用于优化VQA模型在面对外部知识时普遍存在的推理能力不足的问题。结果表明:与基线模型LXMERT相比,在OK VQA数据集上,本文模型整体性能指标overall提升了15.01%。同时,与已有最新模型相比,在OK VQA数据集上,本文模型整体性能指标overall提升了4.46%。可见本文模型在改进外部知识型VQA任务性能方面有所提升。
关键词
视觉问答(
vqa
)
外部知识
跨模态
知识图谱
Keywords
visual
question
answering
(
vqa
)
external
knowledge
cross
modal
knowledge
graph
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
视觉问答技术研究综述
5
作者
王虞
孙海春
机构
中国人民公安大学信息网络安全学院
安全防范技术与风险评估公安部重点实验室
出处
《计算机科学与探索》
CSCD
北大核心
2023年第7期1487-1505,共19页
基金
公安部技术研究计划项目(2020JSYJC22)
北京市自然科学基金(4184099)。
文摘
视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析等多项技术,能够支撑许多前沿交互式人工智能高层任务,如视觉对话、视觉导航等,具有广泛的应用前景和极高的应用价值。近几年,计算机视觉、自然语言处理及图-文跨模态领域人工智能模型的发展为视觉问答任务的实现提供了许多新的技术和方法。主要对2019—2022年视觉问答领域的主流模型及专业数据集进行总结。首先,依据视觉问答任务实现的模块框架,对关键步骤中的主流技术方法进行综述讨论。其次,按照主流模型采用的技术方法,将该领域内各类模型进行细分,并简要介绍改进重点和局限性。随后,综述视觉问答常用数据集与评价指标,对几类典型模型性能进行对比阐述。最后,对现阶段视觉问答领域内亟待解决的问题进行重点阐述,并对视觉问答领域未来应用及技术发展进行预测和展望。
关键词
视觉问答(
vqa
)
模态融合
视觉对话
智能问答
跨模态技术
Keywords
visual
question
answering
(
vqa
)
modal
fusion
visual
dialogue
intelligent
question
answering
crossmodal
technology
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
问题引导的空间关系图推理视觉问答模型
被引量:
4
6
作者
兰红
张蒲芬
机构
江西理工大学信息工程学院
出处
《中国图象图形学报》
CSCD
北大核心
2022年第7期2274-2286,共13页
基金
国家自然科学基金项目(61762046)
江西省自然科学基金项目(20161BAB212048)。
文摘
目的现有视觉问答模型的研究主要从注意力机制和多模态融合角度出发,未能对图像场景中对象之间的语义联系显式建模,且较少突出对象的空间位置关系,导致空间关系推理能力欠佳。对此,本文针对需要空间关系推理的视觉问答问题,提出利用视觉对象之间空间关系属性结构化建模图像,构建问题引导的空间关系图推理视觉问答模型。方法利用显著性注意力,用Faster R-CNN(region-based convolutional neural network)提取图像中显著的视觉对象和视觉特征;对图像中的视觉对象及其空间关系结构化建模为空间关系图;利用问题引导的聚焦式注意力进行基于问题的空间关系推理。聚焦式注意力分为节点注意力和边注意力,分别用于发现与问题相关的视觉对象和空间关系;利用节点注意力和边注意力权重构造门控图推理网络,通过门控图推理网络的信息传递机制和控制特征信息的聚合,获得节点的深度交互信息,学习得到具有空间感知的视觉特征表示,达到基于问题的空间关系推理;将具有空间关系感知的图像特征和问题特征进行多模态融合,预测出正确答案。结果模型在VQA(visual question answering)v2数据集上进行训练、验证和测试。实验结果表明,本文模型相比于Prior、Language only、MCB(multimodal compact bilinear)、ReasonNet和Bottom-Up等模型,在各项准确率方面有明显提升。相比于Reason Net模型,本文模型总体的回答准确率提升2.73%,是否问题准确率提升4.41%,计数问题准确率提升5.37%,其他问题准确率提升0.65%。本文还进行了消融实验,验证了方法的有效性。结论提出的问题引导的空间关系图推理视觉问答模型能够较好地将问题文本信息和图像目标区域及对象关系进行匹配,特别是对于需要空间关系推理的问题,模型展现出较强的推理能力。
关键词
视觉问答(
vqa
)
图卷积神经网络(GCN)
注意力机制
空间关系推理
多模态学习
Keywords
visual
question
answering
(
vqa
)
graph
convolution
neural
network(GCN)
attention
mechanism
spatial
relation
reasoning
multimodal
learning
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于图像描述和视觉问答的智能盲人辅助系统
7
作者
常波
机构
云南大学信息学院
出处
《信息与电脑》
2023年第3期113-115,共3页
基金
国家级大学生创新创业训练计划支持项目(项目编号:202110673089)。
文摘
为了解决盲人无法通过眼睛感知周围环境和盲人辅助设备无法提供问答功能的问题,设计了一种智能盲人辅助系统,包含硬件和软件两部分。首先,分别对摄像头、麦克风、全球定位系统(GlobalPositioning System,GPS)模块采集信息进行关键帧抽取、语音转文字、关键数据抽取获得对应的图片、文本、位置信息;其次,核心服务软件利用上述信息进行功能的切换,并将对应图片-文本数据、图片数据、文本-位置数据送入图片描述(Image Caption)模型和视觉问答(Visual Question Answering,VQA)模型处理,得到对应回答信息;最后,语音播报模块利用文字转语音技术将回答信息转成语音信息并反馈。测试结果表明,提出的系统能针对盲人具体的语音问题进行回答,实现特定场景的问答和描述。
关键词
视觉问答(
vqa
)
Image
Caption
树莓派
Keywords
visual
question
answering
(
vqa
)
Image
Caption
Raspberry
Pi
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
融合答案掩码的视觉问答模型
8
作者
王峰
石方宇
赵佳
张雪松
王雪枫
机构
阜阳师范大学计算机与信息工程学院
出处
《中国图象图形学报》
CSCD
北大核心
2023年第11期3562-3574,共13页
基金
国家自然科学基金项目(61906044)
中国博士后科学基金项目(2020M681984)
安徽省高校自然科学研究重点项目(2023AH050406)。
文摘
目的现有的视觉问答模型由于受到语言先验的影响,预测准确率不高。虽然模型能够根据数据集中问题和答案的统计规律学习到它们之间简单的对应关系,但无法学习到问题和答案类型之间深层次的对应关系,容易出现答非所问的现象。为此,提出了一种使用答案掩码对预测结果中的无关答案进行遮盖的方法,迫使模型关注问题和答案类型之间的对应关系,提高模型的预测准确率。方法首先对数据集中的答案进行聚类并为每一类答案生成不同的答案掩码,然后使用预训练的答案类型识别模型预测问题对应的答案类型,并根据该模型的预测结果选择相应的答案掩码对基线模型的预测结果进行遮盖,最终得到正确答案。结果提出的方法使用UpDn(bottom-up and top-down)、RUBi(reducing unimodal biases)、LMH(learned-mixin+h)和CSS(counterfactual samples synthesizing)4种模型作为基线模型,在3个大型公开数据集上进行实验。在VQA(visual question answer)-CP v2.0数据集上的实验结果表明,本文方法使UpDn模型的准确率提高了2.15%,LMH模型的准确率提高了2.29%,融合本方法的CSS模型的准确率达到了60.14%,较原模型提升了2.02%,达到了目前较高的水平。在VQA v2.0和VQA-CP v1.0数据集上的结果也显示本文方法提高了大多数模型的准确率,具有良好的泛化性。此外,在VQA-CP v2.0上的消融实验证明了本文方法的有效性。结论提出的方法通过答案掩码对视觉问答模型的预测结果进行遮盖,减少无关答案对最终结果的影响,使模型学习到问题和答案类型之间的对应关系,有效改善了视觉问答模型答非所问的现象,提高了模型的预测准确率。
关键词
视觉问答
语言先验
答案聚类
答案掩码
答案类型识别
Keywords
visual
question
answering
(
vqa
)
language
priors
answer
clustering
answer
mask
answer
type
recognition
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于深度神经网络的图像碎片化信息问答算法
被引量:
4
9
作者
王一蕾
卓一帆
吴英杰
陈铭钦
机构
福州大学数学与计算机科学学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2018年第12期2600-2610,共11页
基金
福建省自然科学基金项目(2018J01779)~~
文摘
大量结构无序、内容片面的碎片化信息以文本、图像、视频、网页等不同模态的形式,高度分散存储在不同数据源中,现有的研究通过构建视觉问答系统(visual question answering,VQA),实现对多模态碎片化信息的提取、表达和理解.视觉问答任务给定与图像相关的一个问题,推理相应的答案.在视觉问答任务的基本背景下,以设计出完备的图像碎片化信息问答的框架与算法为目标,重点研究包括图像特征提取、问题文本特征提取、多模态特征融合和答案推理的模型与算法.构建深度神经网络模型提取用于表示图像与问题信息的特征,结合注意力机制与变分推断方法关联图像与问题2种模态特征并推理答案.实验结果表明:该模型能够有效提取和理解多模态碎片化信息,并提高视觉问答任务的准确率.
关键词
人工智能
碎片化信息
神经网络
深度学习
视觉问答
Keywords
artificial
intelligence
fragmented
information
neural
network
deep
learning
visual
question
answering
(
vqa
)
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于关系推理与门控机制的视觉问答方法
10
作者
王鑫
陈巧红
孙麒
贾宇波
机构
浙江理工大学信息学院
出处
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2022年第1期36-46,共11页
基金
浙江省自然科学基金资助项目(LY17E050028)。
文摘
针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制.该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关系推理加强视觉区域间的联系.将分别得到的视觉注意力特征与视觉关系特征输入到自适应门控中,动态控制2种特征对预测答案的贡献.在VQA1.0及VQA2.0数据集上的实验结果表明:该模型与DCN、MFB、MFH及MCB等先进模型相比,在总体精度上均有约2%的提升;利用基于关系推理与门控机制的模型能够更好地理解图像内容,有效地提升视觉问答的准确率.
关键词
视觉问答(
vqa
)
注意力机制
视觉区域
关系推理
自适应门控
Keywords
visual
question
answering
(
vqa
)
attention
mechanism
visual
region
relational
reasoning
adaptive
gating
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向跨模态数据协同分析的视觉问答方法综述
被引量:
1
11
作者
崔政
胡永利
孙艳丰
尹宝才
机构
北京工业大学信息学部
出处
《北京工业大学学报》
CAS
CSCD
北大核心
2022年第10期1088-1099,共12页
基金
国家自然科学基金资助项目(61672071,U1811463,U19B2039)。
文摘
协同分析和处理跨模态数据一直是现代人工智能领域的难点和热点,其主要挑战是跨模态数据具有语义和异构鸿沟.近年来,随着深度学习理论和技术的快速发展,基于深度学习的算法在图像和文本处理领域取得了极大的进步,进而产生了视觉问答(visual question answering,VQA)这一课题.VQA系统利用视觉信息和文本形式的问题作为输入,得出对应的答案,核心在于协同理解和处理视觉、文本信息.因此,对VQA方法进行了详细综述,按照方法原理将现有的VQA方法分为数据融合、跨模态注意力和知识推理3类方法,全面总结分析了VQA方法的最新进展,介绍了常用的VQA数据集,并对未来的研究方向进行了展望.
关键词
跨模态数据
深度学习
视觉问答
数据融合
跨模态注意力
知识推理
Keywords
cross-modal
data
deep
learning
visual
question
answering
(
vqa
)
data
fusion
cross-modal
attention
knowledge
reasoning
分类号
U461 [机械工程—车辆工程]
TP308 [交通运输工程—载运工具运用工程]
下载PDF
职称材料
题名
基于空间注意力推理机制的视觉问答算法研究
被引量:
1
12
作者
李智涛
周之平
叶琴
机构
南昌航空大学信息工程学院
出处
《计算机应用研究》
CSCD
北大核心
2021年第3期952-955,共4页
基金
国家自然科学基金资助项目(71761028)。
文摘
针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关系进行了深入研究。在分析现有注意力网络的基础上,提出使用自注意力模块(self-attention,SA)和空间推理注意力模块(spatial reasoning attention,SRA)对文本信息和图像目标进行映射,最终得到融合特征输出。相较于其他注意力机制,SA和SRA可以更好地将文本信息匹配图像目标区域。模型在VQAv2数据集上进行训练和验证,并在VQAv2数据集上达到了64.01%的准确率。
关键词
视觉问答
注意力机制
多模态学习
自注意力
空间推理注意力
Keywords
visual
question
answering
(
vqa
)
attention
mechanism
multimodal
learning
self-attention
spatial
reasoning
attention
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于对称注意力机制的视觉问答系统
13
作者
路静
吴春雷
王雷全
机构
中国石油大学(华东)计算机科学与技术学院
出处
《计算机系统应用》
2021年第5期114-119,共6页
基金
山东省重点研发计划(2019GGX101015)
中央高校自主创新科研计划(20CX05018A,18CX02136A)。
文摘
近年来,基于图像视觉特征与问题文本特征融合的视觉问答(VQA)引起了研究者们的广泛关注.现有的大部分模型都是通过聚集图像区域和疑问词对的相似性,采用注意力机制和密集迭代操作进行细粒度交互和匹配,忽略了图像区域和问题词的自相关信息.本文提出了一种基于对称注意力机制的模型架构,能够有效利用图片和问题之间具有的语义关联,进而减少整体语义理解上的偏差,以提高答案预测的准确性.本文在VQA2.0数据集上进行了实验,实验结果表明基于对称注意力机制的模型与基线模型相比具有明显的优越性.
关键词
视觉问答
注意力机制
对称注意力
卷积神经网络
特征提取
Keywords
visual
question
answering
(
vqa
)
attention
mechanism
symmetrical
attention
Convolutional
Neural
Network(CNN)
feature
extraction
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向智能交互的图像识别技术综述与展望
被引量:
92
14
作者
蒋树强
闵巍庆
王树徽
机构
中国科学院智能信息处理重点实验室(中国科学院计算技术研究所)
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第1期113-122,共10页
基金
国家自然科学基金重点项目(61532018)
国家自然科学基金优秀青年科学基金项目(61322212)
+1 种基金
国家自然科学基金青年科学基金项目(61303160)
国家"九七三"重点基础研究发展计划基金项目(2012CB316400)~~
文摘
视觉在人与人交互以及人与自然界的交互过程中起到非常重要的作用,让终端设备具有智能的视觉识别和交互能力是人工智能和计算机技术的核心挑战和远大目标之一.可以看到,近年来视觉识别技术发展飞速,新的创新技术不断涌现,新的研究问题不断被提出,面向智能交互的应用呈现出一些新的动态,正在不断刷新人们对此领域的原有认识.从视觉识别、视觉描述和视觉问答3个角度对图像识别技术进行综述,对基于深度学习的图像识别以及场景分类技术进行了具体介绍,对视觉描述和问答技术的最新技术进行了分析和讨论,同时对面向移动终端和机器人的视觉识别和交互应用进行了介绍,最后对该领域的未来研究趋势进行了分析.
关键词
图像识别
智能的视觉识别
智能交互
视觉描述
视觉问答
深度学习
Keywords
image
recognition
intelligent
visual
recognition
intelligent
interaction
visual
description
visual
question
and
answering
(
vqa
)
deep
learning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
视觉问答技术研究
俞俊
汪亮
余宙
《计算机研究与发展》
EI
CSCD
北大核心
2018
21
下载PDF
职称材料
2
结合自底向上注意力机制和记忆网络的视觉问答模型
闫茹玉
刘学亮
《中国图象图形学报》
CSCD
北大核心
2020
13
原文传递
3
面向视觉问答的多模块协同注意模型
邹品荣
肖锋
张文娟
张万玉
王晨阳
《计算机工程》
CAS
CSCD
北大核心
2022
6
下载PDF
职称材料
4
融合跨模态Transformer的外部知识型VQA
王虞
李明锋
孙海春
《科学技术与工程》
北大核心
2024
0
下载PDF
职称材料
5
视觉问答技术研究综述
王虞
孙海春
《计算机科学与探索》
CSCD
北大核心
2023
0
下载PDF
职称材料
6
问题引导的空间关系图推理视觉问答模型
兰红
张蒲芬
《中国图象图形学报》
CSCD
北大核心
2022
4
原文传递
7
基于图像描述和视觉问答的智能盲人辅助系统
常波
《信息与电脑》
2023
0
下载PDF
职称材料
8
融合答案掩码的视觉问答模型
王峰
石方宇
赵佳
张雪松
王雪枫
《中国图象图形学报》
CSCD
北大核心
2023
0
原文传递
9
基于深度神经网络的图像碎片化信息问答算法
王一蕾
卓一帆
吴英杰
陈铭钦
《计算机研究与发展》
EI
CSCD
北大核心
2018
4
下载PDF
职称材料
10
基于关系推理与门控机制的视觉问答方法
王鑫
陈巧红
孙麒
贾宇波
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2022
0
下载PDF
职称材料
11
面向跨模态数据协同分析的视觉问答方法综述
崔政
胡永利
孙艳丰
尹宝才
《北京工业大学学报》
CAS
CSCD
北大核心
2022
1
下载PDF
职称材料
12
基于空间注意力推理机制的视觉问答算法研究
李智涛
周之平
叶琴
《计算机应用研究》
CSCD
北大核心
2021
1
下载PDF
职称材料
13
基于对称注意力机制的视觉问答系统
路静
吴春雷
王雷全
《计算机系统应用》
2021
0
下载PDF
职称材料
14
面向智能交互的图像识别技术综述与展望
蒋树强
闵巍庆
王树徽
《计算机研究与发展》
EI
CSCD
北大核心
2016
92
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部