基于子问题渐进式推理的3D视觉问答

3D visual question answering based on sub-questions asymptotic reasoning

下载PDF

导出

摘要 3D视觉问答可以帮助人们理解空间信息,在幼儿教育等方面具有广阔的应用前景。3D场景信息复杂,现有方法大多直接进行回答,面对复杂问题时容易忽视上下文细节,从而导致性能下降。针对该问题,提出了一种基于子问题渐进式推理的3D视觉问答方法,通过文本分析为复杂的原始问题构建多个简单的子问题。模型在回答子问题的过程中学习上下文信息,帮助理解复杂问题的含义,最终利用积累的联合信息得出原始问题的答案。子问题与原始问题呈现渐近式推理关系,使得模型具有明确的错误解释性和可追溯性。在现有3D数据集ScanQA上进行的实验表明,所提方法在EM@10和CIDEr两个指标上分别达到了51.49%和61.68%,均超过了现有的其他3D视觉问答方法,证实了该方法的有效性。 3D visual question answering can help people understand spatial information,which has a broad application prospect in early childhood education.The 3D scene information is complex,and most of the existing methods answer directly.It is easy to ignore the context information in the scene when facing complex problems,which leads to the performance degradation.To address this problem,this paper proposed a 3D visual question answering method based on sub-question asymptotic reasoning,which constructed multiple simple sub-questions for complex original question through text analysis.The model learnt context information in the process of answering the sub-questions to help understand the meaning of the complex question,and finally used the accumulated joint information to derive the answers to the original question.The sub-questions pre-sented an asymptotic reasoning relationship with the original question,which made the model have explicit error interpretation and traceability.Experiments conducted on the ScanQA dataset show that,the proposed method achieves 51.49%and 61.68%for the two evaluation metrics EM@10 and CIDEr,both exceeding other existing methods,confirming the effectiveness of the method.

作者李长健杨昱威肖枭雷印杰 Li Changjian;Yang Yuwei;Xiao Xiao;Lei Yinjie(College of Electronics&Information Engineering,Sichuan University,Chengdu 610065,China)

机构地区四川大学电子信息学院

出处《计算机应用研究》 CSCD 北大核心 2023年第4期987-990,995,共5页 Application Research of Computers

基金国家重点研发计划项目(2021YFC3300305)。

关键词 3D视觉问答原始问题子问题渐进式推理上下文信息 3D visual question answering original question sub-question asymptotic reasoning context information

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1吝博强,田文洪.基于层次注意力机制的高效视觉问答模型[J].计算机应用研究,2021,38(2):636-640. 被引量：9
2郭毅锋,吴帝浩,魏青民.基于深度学习的点云三维目标检测方法综述[J].计算机应用研究,2023,40(1):20-27. 被引量：5

二级参考文献6

1杨丽,吴雨茜,王俊丽,刘义理.循环神经网络研究综述[J].计算机应用,2018,38(A02):1-6. 被引量：376
2陈超,齐峰.卷积神经网络的发展及其在计算机视觉领域中的应用综述[J].计算机科学,2019,46(3):63-73. 被引量：136
3张瑞菊,周欣,赵江洪,曹闵.一种古建筑点云数据的语义分割算法[J].武汉大学学报（信息科学版）,2020,45(5):753-759. 被引量：14
4王亚东,田永林,李国强,王坤峰,李大字.基于卷积神经网络的三维目标检测研究综述[J].模式识别与人工智能,2021,34(12):1103-1119. 被引量：19
5王文曦,李乐林.深度学习在点云分类中的研究综述[J].计算机工程与应用,2022,58(1):26-40. 被引量：20
6魏天琪,郑雄胜.基于深度学习的三维点云分类方法研究[J].计算机应用研究,2022,39(5):1289-1296. 被引量：7

共引文献12

1邱南,顾玉宛,石林,李宁,庄丽华,徐守坤.基于复合图文特征的视觉问答模型研究[J].计算机应用研究,2021,38(8):2293-2298.
2张海涛,郭欣雨.基于多模态推理图神经网络的场景文本视觉问答模型[J].计算机应用研究,2022,39(1):280-284.
3张宇,郭文忠,林森,文朝武,龙洁花.深度学习与知识推理相结合的研究综述[J].计算机工程与应用,2022,58(1):56-69. 被引量：5
4李艳,金小峰.基于综合几何关系稀疏自注意力机制的图像标注方法研究[J].计算机应用研究,2022,39(4):1132-1136. 被引量：2
5张昊雨,张德.基于图结构的级联注意力视觉问答模型[J].计算机工程与应用,2023,59(6):155-161. 被引量：1
6张岱松,盛文婷,谷峥,刘静.基于多模块深度神经网络的陶瓷图像视觉问答方法[J].南京理工大学学报,2023,47(2):192-198.
7成曦,杨关,刘小明,刘阳.基于跨模态多维关系增强的多模态模型研究[J].计算机应用研究,2023,40(8):2367-2374.
8袁琨鹏,米金鹏,陈智谦.基于模态预融合的三维指称表达理解[J].计算机应用研究,2023,40(12):3666-3671.
9王家琦,吴叶兰,郝凤桐,张峻景.基于改进PointPillars的激光点云三维目标检测[J].信息技术与信息化,2024(2):58-61.
10简英杰,杨文霞,方玺,韩欢.基于边卷积与瓶颈注意力的点云三维目标检测[J].计算机科学,2024,51(5):162-171. 被引量：1

1黄香秋.小组合作学习在小学数学教学中的应用探索[J].中国科技经济新闻数据库教育,2021(10):45-47.
2黄燕.投放学习性材料,让幼儿玩得更精彩[J].教育界,2023(7):92-94.
3宇强.别让“四风”问题“躲猫猫”[J].半月谈,2023(6):41-43.
4刘妍.探讨新课改背景下的幼儿学前教育教学策略[J].中国科技经济新闻数据库教育,2023(4):88-91.
5黄静,何朝华,李建华.市售海鲜食品重金属含量研究[J].中文科技期刊数据库（全文版）自然科学,2021(7):233-234.
6杨国钢.区域认知视域下的任务型区域地理复习课探究——以“中国的河流”复习为例[J].亚太教育,2023(6):102-104.
7张红良,李广明.基于空间关联性注意力的图像描述生成方法[J].计算机应用研究,2023,40(4):1275-1280.
8潘龙越,吴春燕,安永志,杨有.Trans_E2N:外部注意和二次层归一化的图像描述生成[J].微电子学与计算机,2023,40(3):1-9.
9刘文,于秀琴,王鑫.论公益慈善共同体的构建--从对主体性观念的超越出发[J].中国非营利评论,2022(2):247-259.
10胡维维.游戏精神观照下的小学语文课堂管理研究[J].世纪之星—初中版,2022(23):103-105.

计算机应用研究

2023年第4期

浏览历史

内容加载中请稍等...

基于子问题渐进式推理的3D视觉问答

参考文献2

二级参考文献6

共引文献12

相关作者

相关机构

相关主题

浏览历史