期刊文献+
共找到79篇文章
< 1 2 4 >
每页显示 20 50 100
多媒体内容理解的研究现状与展望 被引量:33
1
作者 彭宇新 綦金玮 黄鑫 《计算机研究与发展》 EI CSCD 北大核心 2019年第1期183-208,共26页
随着多媒体和网络技术的迅猛发展,海量的图像、视频、文本、音频等多媒体数据快速涌现.这些不同媒体的数据在形式上多源异构,语义上相互关联.认知科学研究表明,人脑生理组织结构决定了其对外界的感知和认知过程是跨越多种感官信息的融... 随着多媒体和网络技术的迅猛发展,海量的图像、视频、文本、音频等多媒体数据快速涌现.这些不同媒体的数据在形式上多源异构,语义上相互关联.认知科学研究表明,人脑生理组织结构决定了其对外界的感知和认知过程是跨越多种感官信息的融合处理.如何对不同媒体的数据进行语义分析和关联建模以实现多媒体内容理解,成为了一个研究和应用的关键问题,受到了学术界和工业界的广泛关注.选取了多媒体内容理解的5个最新热点研究方向:图像细分类与检索、视频分类与目标检测、跨媒体检索、视觉描述与生成、视觉问答,分别阐述了它们的基本概念、代表性方法、研究现状等,并进一步阐述了多媒体内容理解面临的重要挑战,同时给出未来的发展趋势,旨在帮助读者全面了解多媒体内容理解的研究现状,吸引更多研究人员投身相关研究并为他们提供技术参考,推动该领域的进一步发展. 展开更多
关键词 多媒体内容理解 图像细分类与检索 视频分类与目标检测 跨媒体检索 视觉描述与生成 视觉问答
下载PDF
视觉问答研究综述 被引量:12
2
作者 包希港 周春来 +1 位作者 肖克晶 覃飙 《软件学报》 EI CSCD 北大核心 2021年第8期2522-2544,共23页
视觉问答是计算机视觉领域和自然语言处理领域的交叉方向,近年来受到了广泛关注.在视觉问答任务中,算法需要回答基于特定图片(或视频)的问题.自2014年第一个视觉问答数据集发布以来,若干大规模数据集在近5年内被陆续发布,并有大量算法... 视觉问答是计算机视觉领域和自然语言处理领域的交叉方向,近年来受到了广泛关注.在视觉问答任务中,算法需要回答基于特定图片(或视频)的问题.自2014年第一个视觉问答数据集发布以来,若干大规模数据集在近5年内被陆续发布,并有大量算法在此基础上被提出.已有的综述性研究重点针对视觉问答任务的发展进行了总结,但近年来,有研究发现,视觉问答模型强烈依赖语言偏见和数据集的分布,特别是自VQA-CP数据集发布以来,许多模型的效果大幅度下降.主要详细介绍近年来提出的算法以及发布的数据集,特别是讨论了算法在加强鲁棒性方面的研究.对视觉问答任务的算法进行分类总结,介绍了其动机、细节以及局限性.最后讨论了视觉问答任务的挑战及展望. 展开更多
关键词 视觉问答 交叉方向 语言偏见 数据集分布 鲁棒性
下载PDF
视觉问答与对话综述 被引量:11
3
作者 牛玉磊 张含望 《计算机科学》 CSCD 北大核心 2021年第3期87-96,共10页
视觉问答与对话是人工智能领域的重要研究任务,是计算机视觉与自然语言处理交叉领域的代表性问题之一。视觉问答与对话任务要求机器根据指定的视觉图像内容,对单轮或多轮的自然语言问题进行作答。视觉问答与对话对机器的感知能力、认知... 视觉问答与对话是人工智能领域的重要研究任务,是计算机视觉与自然语言处理交叉领域的代表性问题之一。视觉问答与对话任务要求机器根据指定的视觉图像内容,对单轮或多轮的自然语言问题进行作答。视觉问答与对话对机器的感知能力、认知能力和推理能力均提出了较高的要求,在跨模态人机交互应用中具有实用前景。文中对近年来视觉问答与对话的研究进展进行了综述,对数据集和算法进行了归纳,对研究挑战和问题进行了总结,最后对视觉问答与对话的未来发展趋势进行了讨论。 展开更多
关键词 视觉问答 视觉对话 视觉语言 视觉推理 深度学习
下载PDF
面向智能交互的视觉问答研究综述 被引量:11
4
作者 杨睿 刘瑞军 +1 位作者 师于茜 李善玺 《电子测量与仪器学报》 CSCD 北大核心 2019年第2期117-124,共8页
随着深度学习方法被不断应用于图像处理相关工作,图像相关的智能交互技术也获得了快速发展。面向智能交互的视觉问答技术通过向图像的内容提出相关问题以收集图像信息,最终达到丰富图像理解的目的。通过对近年来视觉问答相关方法进行了... 随着深度学习方法被不断应用于图像处理相关工作,图像相关的智能交互技术也获得了快速发展。面向智能交互的视觉问答技术通过向图像的内容提出相关问题以收集图像信息,最终达到丰富图像理解的目的。通过对近年来视觉问答相关方法进行了综合分析与对比,建设性地将视觉问答方法按照模型结构划分为基本模型、注意力机制模型、模块化模型、基于外部知识库的模型4种类型。同时,还从3个方面针对视觉问答中的视觉和语义信息处理以及未来的视觉推理研究指出了一些方向。 展开更多
关键词 视觉问答 图像理解 计算机视觉 自然语言处理
下载PDF
基于层次注意力机制的高效视觉问答模型 被引量:9
5
作者 吝博强 田文洪 《计算机应用研究》 CSCD 北大核心 2021年第2期636-640,共5页
视觉问答(visual question answering,VQA)是深度学习领域的一个新挑战,需要模型同时根据问题的语义和图片的内容进行推理并给出正确答案。针对视觉问答图片输入的多样性,设计了一种由两层注意力机制堆叠组成的层次注意力机制,帮助模型... 视觉问答(visual question answering,VQA)是深度学习领域的一个新挑战,需要模型同时根据问题的语义和图片的内容进行推理并给出正确答案。针对视觉问答图片输入的多样性,设计了一种由两层注意力机制堆叠组成的层次注意力机制,帮助模型定位图片中与问题相关的信息,其中第一层注意力机制使用目标检测网络提取图片中物体的特征,第二层注意力机制引入问题特征。同时改进了现有的特征融合方式,消除对输入特征尺寸的限制。VQA数据集的测试结果显示,层次注意力机制使计数类问题的回答准确率提升了4%~5%,其他类型的问题回答准确率也有小幅提升。 展开更多
关键词 视觉问答 注意力机制 特征融合 目标检测
下载PDF
基于深度学习的视觉问答技术研究 被引量:8
6
作者 白林亭 文鹏程 李亚晖 《航空计算技术》 2018年第5期334-338,共5页
视觉问答技术(Visual Question Answering,VQA)是一项综合了计算机视觉、自然语言理解、知识表示与推理的综合性技术,相比于图像处理、文本处理、自然语言处理等专用人工智能技术,是面向通用人工智能研究的前沿探索。介绍了视觉问答技... 视觉问答技术(Visual Question Answering,VQA)是一项综合了计算机视觉、自然语言理解、知识表示与推理的综合性技术,相比于图像处理、文本处理、自然语言处理等专用人工智能技术,是面向通用人工智能研究的前沿探索。介绍了视觉问答技术的问题描述,分析和总结了针对问题的基准方法和前沿方法研究与探索,分析了问题的研究难点,探讨了问题的发展方向。 展开更多
关键词 视觉问答技术 注意力机制 数据集
下载PDF
可解释的视觉问答研究进展 被引量:1
7
作者 张一飞 孟春运 +2 位作者 蒋洲 栾力 Ernest Domanaanmwi Ganaa 《计算机应用研究》 CSCD 北大核心 2024年第1期10-20,共11页
在视觉问答(VQA)任务中,“可解释”是指在特定的任务中通过各种方法去解释模型为什么有效。现有的一些VQA模型因为缺乏可解释性导致模型无法保证在生活中能安全使用,特别是自动驾驶和医疗相关的领域,将会引起一些伦理道德问题,导致无法... 在视觉问答(VQA)任务中,“可解释”是指在特定的任务中通过各种方法去解释模型为什么有效。现有的一些VQA模型因为缺乏可解释性导致模型无法保证在生活中能安全使用,特别是自动驾驶和医疗相关的领域,将会引起一些伦理道德问题,导致无法在工业界落地。主要介绍视觉问答任务中的各种可解释性实现方式,并分为了图像解释、文本解释、多模态解释、模块化解释和图解释五类,讨论了各种方法的特点并对其中的一些方法进行了细分。除此之外,还介绍了一些可以增强可解释性的视觉问答数据集,这些数据集主要通过结合外部知识库、标注图片信息等方法来增强可解释性。对现有常用的视觉问答可解释方法进行了总结,最后根据现有视觉问答任务中可解释性方法的不足提出了未来的研究方向。 展开更多
关键词 视觉问答 视觉推理 可解释性 人工智能 自然语言处理 计算机视觉
下载PDF
一种基于多模态深度特征融合的视觉问答模型 被引量:3
8
作者 邹芸竹 杜圣东 +1 位作者 滕飞 李天瑞 《计算机科学》 CSCD 北大核心 2023年第2期123-129,共7页
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推... 大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。 展开更多
关键词 视觉问答 多模态特征融合 注意力机制 深度学习 数据融合
下载PDF
一种消减多模态偏见的鲁棒视觉问答方法 被引量:1
9
作者 张丰硕 李豫 +2 位作者 李向前 徐金安 陈钰枫 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第1期23-33,共11页
为了增强视觉问答模型的鲁棒性,提出一种偏见消减方法,并在此基础上探究语言与视觉信息对偏见的影响。进一步地,构造两个偏见学习分支来分别捕获语言偏见以及语言和图片共同导致的偏见,利用偏见消减方法,得到鲁棒性更强的预测结果。最后... 为了增强视觉问答模型的鲁棒性,提出一种偏见消减方法,并在此基础上探究语言与视觉信息对偏见的影响。进一步地,构造两个偏见学习分支来分别捕获语言偏见以及语言和图片共同导致的偏见,利用偏见消减方法,得到鲁棒性更强的预测结果。最后,依据标准视觉问答与偏见分支之间的预测概率差异,对样本进行动态赋权,使模型针对不同偏见程度的样本动态地调节学习程度。在VQA-CP v2.0等数据集上的实验结果证明了所提方法的有效性,缓解了偏见对模型的影响。 展开更多
关键词 视觉问答 数据集偏差 语言偏见 深度学习
下载PDF
“三维视觉—语言”推理技术的前沿研究与最新趋势
10
作者 雷印杰 徐凯 +5 位作者 郭裕兰 杨鑫 武玉伟 胡玮 杨佳琪 汪汉云 《中国图象图形学报》 CSCD 北大核心 2024年第6期1747-1764,共18页
三维视觉推理的核心思想是对点云场景中的视觉主体间的关系进行理解。非专业用户难以向计算机传达自己的意图,从而限制了该技术的普及与推广。为此,研究人员以自然语言作为语义背景和查询条件反映用户意图,进而与点云的信息进行交互以... 三维视觉推理的核心思想是对点云场景中的视觉主体间的关系进行理解。非专业用户难以向计算机传达自己的意图,从而限制了该技术的普及与推广。为此,研究人员以自然语言作为语义背景和查询条件反映用户意图,进而与点云的信息进行交互以完成相应的任务。此种范式称做“三维视觉—语言”推理,在自动驾驶、机器人导航以及人机交互等众多领域广泛应用,已经成为计算机视觉领域中备受瞩目的研究方向。过去几年间,“三维视觉—语言”推理技术迅猛发展,呈现出百花齐放的趋势,但是目前依然缺乏对最新研究进展的全面总结。本文聚焦于两类最具代表性的研究工作,锚框预测和内容生成类的“三维视觉—语言”推理技术,系统性概括领域内研究的最新进展。首先,本文总结了“三维视觉—语言”推理的问题定义和现存挑战,同时概述了一些常见的骨干网络。其次,本文按照方法所关注的下游场景,对两类“三维视觉—语言”推理技术做了进一步细分,并深入探讨了各方法的优缺点。接下来,本文对比分析了各类方法在不同基准数据集上的性能。最后,本文展望了“三维视觉—语言”推理技术的未来发展前景,以期促进该领域的深入研究与广泛应用。 展开更多
关键词 深度学习 计算机视觉 “三维视觉—语言”推理 跨模态学习 视觉定位 密集字幕生成 视觉问答 场景生成
原文传递
融合视觉定位信息的视觉问答算法研究
11
作者 吴金蔓 车进 +1 位作者 白雪冰 陈玉敏 《长江信息通信》 2024年第5期1-4,共4页
为提高视觉问答模型对图像中相关信息的捕捉,引入了视觉定位信息,以增强模型对完整图像信息的理解。通过将图像语义特征与浅层文本特征一同输入以图像为基础的文本编码器,将文本特征映射到图像空间。随后,将得到的文本特征和图像特征输... 为提高视觉问答模型对图像中相关信息的捕捉,引入了视觉定位信息,以增强模型对完整图像信息的理解。通过将图像语义特征与浅层文本特征一同输入以图像为基础的文本编码器,将文本特征映射到图像空间。随后,将得到的文本特征和图像特征输入以文本为基础的图像解码器,生成视觉定位信息。实验结果显示,模型在Accuracy、Open、Binary、Consistency这四项评价指标上均取得最佳成绩,分别提高了0.84%、0.74%、3.38%、2.95%。其中,Accuracy达到了56.94%。这表明视觉定位信息有效地增强了图像特征中与问题相关部分的信息比例。 展开更多
关键词 视觉问答 视觉定位 门控机制 编码器 解码器
下载PDF
基于跨模态信息过滤的视觉问答网络
12
作者 何世阳 王朝晖 +1 位作者 龚声蓉 钟珊 《计算机科学》 CSCD 北大核心 2024年第5期85-91,共7页
视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注... 视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注意力计算,忽略了图像特征中含有噪声和不正确的信息这一问题,且多数方法局限于模态间的浅层交互,未曾考虑模态间的深层语义信息。为解决这一问题,提出了一个跨模态信息过滤网络,即首先以问题特征为监督信号,通过设计的信息过滤模块来过滤图像特征信息,使之更好地契合问题表征;随后将图像特征和问题特征送入跨模态交互层,在自注意力和引导注意力的作用下分别建模模态内和模态间的关系,以获取更细粒度的多模态特征。在VQA2.0数据集上进行了广泛的实验,实验结果表明,信息过滤模块的引入有效提升了模型准确率,在test-std上的整体精度达到了71.51%,相比大多数先进的方法具有良好的性能。 展开更多
关键词 视觉问答 深度学习 注意力机制 多模态融合 信息过滤
下载PDF
面向视觉问答的上下文感知多模态交互网络
13
作者 颜洪 黄青松 刘利军 《中文信息学报》 CSCD 北大核心 2024年第7期106-114,共9页
近年来,视觉问答已经引起研究人员的广泛关注。现有的方法通过视觉与语言模态之间的密集交互以捕捉两种模态之间的高层语义信息,然而这些方法仅单独考虑单个词与视觉区域之间的关系,忽略了上下文信息来计算模态之间的依存关系。针对此问... 近年来,视觉问答已经引起研究人员的广泛关注。现有的方法通过视觉与语言模态之间的密集交互以捕捉两种模态之间的高层语义信息,然而这些方法仅单独考虑单个词与视觉区域之间的关系,忽略了上下文信息来计算模态之间的依存关系。针对此问题,该文提出了一种上下文感知的多模态交互网络,通过融合上下文信息增强模态内与模态间的信息交互,提高视觉问答的推理能力。该文在大规模基准数据集VQA v2.0上进行了一系列对比实验与消融实验,实验结果表明,该方法在视觉问答任务上能够取得比当前主流的方法更高的准确率。 展开更多
关键词 视觉问答 注意力机制 多模态交互网络
下载PDF
联合知识和视觉信息推理的视觉问答研究
14
作者 苏振强 苟刚 《计算机工程与应用》 CSCD 北大核心 2024年第5期95-102,共8页
视觉问答作为多模态领域中的一项任务,需要对不同模态的特征进行融合推理,具有重要的应用价值。在传统视觉问答中,只需依靠图像的视觉信息,便能很好地推理出问题答案,但纯视觉信息无法满足现实场景中多样化的问答需求。知识在视觉问答... 视觉问答作为多模态领域中的一项任务,需要对不同模态的特征进行融合推理,具有重要的应用价值。在传统视觉问答中,只需依靠图像的视觉信息,便能很好地推理出问题答案,但纯视觉信息无法满足现实场景中多样化的问答需求。知识在视觉问答中发挥着重要的作用,能够很好地辅助问答。基于知识的开放性视觉问答需要关联外部知识,才能实现跨模态的场景理解。为了更好地融合视觉信息和相关联的外部知识,提出联合知识和视觉信息推理双线性结构,设计了图像特征联合问题特征,对知识表征进行双引导的注意力模块。该模型利用预训练的视觉-语言模型获取问题和图像的特征表示以及视觉推理信息;利用相似性矩阵计算问题语义对齐下的图像对象区域;问题特征联合对齐后的区域特征,对知识表征进行协同引导获得知识推理信息;视觉推理信息和知识推理信息进行融合得到最终的答案。在开放的OK-VQA数据集上的实验结果表明,该模型的准确率相比两种基线方法分别有1.97个百分点和4.82个百分点的提升,从而验证了该模型的有效性。 展开更多
关键词 视觉问答 注意力机制 特征融合 多模态对齐 外部知识
下载PDF
结合对比学习的图像指导增强视觉问答模型
15
作者 杨有 姚露 《计算机工程与应用》 CSCD 北大核心 2024年第7期157-166,共10页
针对现有的注意力编解码视觉问答模型存在两个问题:单一形态图像特征包含视觉信息不完整,以及对问题指导过度依赖,提出结合对比学习的图像指导增强视觉问答模型。所提模型包含一种双特征视觉解码器,它基于Transformer语言编码器实现,将... 针对现有的注意力编解码视觉问答模型存在两个问题:单一形态图像特征包含视觉信息不完整,以及对问题指导过度依赖,提出结合对比学习的图像指导增强视觉问答模型。所提模型包含一种双特征视觉解码器,它基于Transformer语言编码器实现,将单一的图像特征扩展为区域和网格两种形态,根据不同形态特征的相对位置构建互补的空间关系,以解决第一问题。所提模型包含一种视觉引导的语言解码器,将视觉解码的两种图像特征与问题特征二次匹配,通过平行门控引导注意力,自适应地修正不同视觉信息对问题的引导比例,以解决第二问题。所提模型,在训练过程中,引入对比学习损失函数,通过对比模型推理时不同模态特征在隐空间内的相似度,获取更相近的互信息。所提模型,在VQA 2.0、COCO-QA和GQA数据集上分别取得73.82%、72.49%和57.44%的总体准确率,较MCAN模型分别提高2.92个百分点、4.41个百分点和0.8个百分点。大量消融实验和可视化分析证明了模型的有效性。实验结果表明,所提模型能够获取更相关的语言-视觉信息,并且对不同类型的问题样本具有更强的泛化能力。 展开更多
关键词 视觉问答 注意力机制 相对位置 门控机制 对比学习
下载PDF
基于深度学习的分布式视觉问答模型
16
作者 周彤 王峰 +2 位作者 余正涛 郭晨靓 赵佳 《阜阳师范大学学报(自然科学版)》 2024年第1期8-14,共7页
视觉问答(Visual Question Answering,VQA)是让机器能够回答与图像相关的自然语言问题。现有视觉问答存在一些模型仅对特定类型的问题样本产生效果的情况,本文提出了一种基于深度神经网络的分布式框架模型。首先将训练样本根据答案分布... 视觉问答(Visual Question Answering,VQA)是让机器能够回答与图像相关的自然语言问题。现有视觉问答存在一些模型仅对特定类型的问题样本产生效果的情况,本文提出了一种基于深度神经网络的分布式框架模型。首先将训练样本根据答案分布的信息熵分为有偏和无偏样本,对于有偏样本为其生成反事实训练样本,迫使模型增强对图像和问题的关键区域的关注,减轻语言先验影响;其次对于无偏样本,利用大量的图像文本预训练加微调的方法,提升模型对无偏样本的性能;最后使用多分类交叉熵损失来衡量模型预测结果与真实标签之间的差异,提升模型的性能。实验数据采用VQA-cp-v2和VQA-v2数据集,实验结果表明,本文提出的分布式视觉问答方法在解决有偏和无偏样本影响的问题上取得明显改进。 展开更多
关键词 视觉问答 分布式框架 信息熵 反事实 预训练
下载PDF
利用可交谈多头共注意力机制的视觉问答
17
作者 杨旭华 庞宇超 叶蕾 《小型微型计算机系统》 CSCD 北大核心 2024年第8期1901-1907,共7页
视觉问答可以对图像信息和自然语言问题这两种不同模态的信息进行分析处理并预测答案,是一项跨模态学习任务.当前注意力机制因为其良好的关键信息提取效果被广泛地用以捕捉视觉图像、文本和两种模态间的关系.但是,传统的注意力机制容易... 视觉问答可以对图像信息和自然语言问题这两种不同模态的信息进行分析处理并预测答案,是一项跨模态学习任务.当前注意力机制因为其良好的关键信息提取效果被广泛地用以捕捉视觉图像、文本和两种模态间的关系.但是,传统的注意力机制容易忽略图像和文本的自相关信息,而且不能较好的利用图像和文本的信息差异性.因此,在本文中,我们提出了可交谈的多头共注意力网络框架来处理注意力机制的上述问题.首先,本文提出了可交谈多头注意力机制来捕捉不同注意力头之间隐藏的关系,得到增强的注意力信息.本文设计了前后不同的交谈策略去处理归一化前后注意力头之间的信息,在引入先验信息的同时减少了过拟合的风险.本文提出了交谈自注意力单元和交谈引导注意力单元,并使用编码器-解码器方式有效地组合它们来丰富视觉和文本表征.该框架针对自注意力层增加了位置编码,弥补了交谈自注意力无法捕获位置的问题,此框架使用不同的注意力策略去分别得到图像和文本向量,并使用新的多模态融合模块来更好的融合图像和文本信息,降低了对单个信息的依赖性.该模型在VQA-v2数据集上和多个知名算法进行比较,数值仿真实验表明提出的算法具有明显的优越性. 展开更多
关键词 视觉问答 特征提取 交谈注意力 多模态特征融合
下载PDF
基于图结构的级联注意力视觉问答模型 被引量:1
18
作者 张昊雨 张德 《计算机工程与应用》 CSCD 北大核心 2023年第6期155-161,共7页
视觉问答是一个具有挑战性的问题,需要结合计算机视觉和自然语言处理的概念。大多数现有的方法使用双流方式,先分别计算图像和问题特征,然后再采取不同的技术和策略进行融合。目前,尚缺乏能够直接捕获问题语义和图像空间关系的更高层次... 视觉问答是一个具有挑战性的问题,需要结合计算机视觉和自然语言处理的概念。大多数现有的方法使用双流方式,先分别计算图像和问题特征,然后再采取不同的技术和策略进行融合。目前,尚缺乏能够直接捕获问题语义和图像空间关系的更高层次的表示方法。提出一种基于图结构的级联注意力学习模型,该模型结合了图学习模块(学习输入图像问题的特定图表示)、图卷积层和级联注意力层,目的是捕捉不同候选框区域图像的空间信息,以及其与问题之间的更高层次的关系。在大规模数据集VQA v2.0上进行了实验,结果表明,跟主流算法相比较,是/否、计数和其他类型问题的回答准确率均有明显提升,总体准确率达到了68.34%,从而验证了提出模型的有效性。 展开更多
关键词 视觉问答 注意力机制 图卷积神经网络 特征融合
下载PDF
融合场景语义与空间关系的视觉问答 被引量:1
19
作者 邹品荣 肖锋 +2 位作者 张文娟 黄姝娟 张万玉 《西安工业大学学报》 CAS 2023年第1期56-65,共10页
为了捕捉问答场景下更深层次的关系语义与增强网络的可解释性,文中提出一种显式融合场景语义与空间关系的视觉问答模型,利用视觉对象间关系及其属性来生成关系图表示。根据图像中检测到的视觉对象关系和空间位置信息来构建图网络;分别... 为了捕捉问答场景下更深层次的关系语义与增强网络的可解释性,文中提出一种显式融合场景语义与空间关系的视觉问答模型,利用视觉对象间关系及其属性来生成关系图表示。根据图像中检测到的视觉对象关系和空间位置信息来构建图网络;分别通过自适应问题的图注意力机制编码预定义的场景语义关系和空间对象关系,以学习先验知识下的多模特征表示;将两种关系模型进行线性融合来推理问题答案。研究结果表明:在数据集VQA 2.0上进行实验,与视觉问答算法模型BUTD,DA-NTN,ODA-GCN,Scence GCN,VCTREE-HL和MuRel对比,分别提升测试子集test-dev的准确率4.12%,1.88%,2.77%,2.63%,1.25%和1.41%。该模型能在问题引导下对视觉语义关系进行推理,有效提升视觉问答的准确率。 展开更多
关键词 视觉问答 注意力机制 语义关系 空间关系 关系编码
下载PDF
利用图像描述与知识图谱增强表示的视觉问答 被引量:4
20
作者 王屹超 朱慕华 +3 位作者 许晨 张琰 王会珍 朱靖波 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第5期900-907,共8页
视觉问答作为多模态任务,需要深度理解图像和文本问题从而推理出答案。然而在许多情况下,仅在图像和问题上进行简单推理难以得到正确的答案,事实上还有其他有效的信息如图像描述、外部知识等可以被利用。该文提出了利用图像描述和外部... 视觉问答作为多模态任务,需要深度理解图像和文本问题从而推理出答案。然而在许多情况下,仅在图像和问题上进行简单推理难以得到正确的答案,事实上还有其他有效的信息如图像描述、外部知识等可以被利用。该文提出了利用图像描述和外部知识增强表示的视觉问答模型。该模型以问题为导向,基于协同注意力机制分别在图像和其描述上进行编码,并且利用知识图谱嵌入,将外部知识编码到模型当中,丰富了模型的特征表示,增强了模型的推理能力。在OKVQA数据集上的实验结果表明,该方法相比基线方法有1.71%的准确率提升,与已有的主流模型相比也有1.88%的准确率提升,证明了该方法的有效性。 展开更多
关键词 视觉问答 多模态融合 知识图谱 图像描述
原文传递
上一页 1 2 4 下一页 到第
使用帮助 返回顶部