基于模态预融合的三维指称表达理解

MP3DVG:modal pre-fusion for 3D visual grounding

下载PDF

导出

摘要三维指称表达理解(3D VG)旨在通过理解指称表达来准确定位三维场景中的目标对象。现有3D VG研究通过引入文本和视觉分类任务优化文本和视觉编码器,这种方法可能由于文本和视觉特征的语义不对齐,从而导致模型难以在场景中定位文本描述的视觉对象。此外,3D VG数据集有限的数据量和复杂的模型结构往往导致模型过拟合。针对上述问题提出MP3DVG模型,通过学习统一的多模态特征表示完成单模态分类和3D VG任务,并降低模型的过拟合。基于跨模态特征交互提出TGV和VGT模块,在单模态任务之前预融合文本和视觉特征,减小不同模态特征因语义不对齐带来的不利影响。基于线性分类器可评价样本特征多样性的特性,提出周期性初始化的辅助分类器,并通过动态损失调节项自适应地调节样本损失,弱化模型的过拟合。大量实验结果表明所提方法的优越性,相比于MVT模型,MP3DVG在Nr3D和Sr3D数据集上性能分别提升1.1%和1.8%,模型的过拟合现象得到显著改善。 3D VG aims to locate target objects in 3D scenes by understanding the semantics of referring expressions.Researchers propose text and object classification tasks to optimize textual and visual encoders,which may incur semantic mis-matches between visual and textual features,making it impossible to localize targets in 3D scenes.In addition,the limited amount of data in 3D VG datasets and complex model structures often lead to overfitting.To address above issues,this paper proposed MP3DVG to realize classification and 3D VG tasks by uniting representations.Based on cross-modal interaction,it designed pre-fusion module to pre-fuse visual and textual embeddings before classification tasks by TGV and VGT respectively,alleviating the adverse effects caused by semantic mis-alignment of different modal features.Aiming at the overfitting of mo-dels,it devised periodically initialized auxiliary classifier to adjust sample losses by dynamic loss-adjusters,evaluating diffe-rences among sample features online.The experimental results demonstrate the superiority of the proposed method.MP3DVG outperforms MVT on Nr3D and Sr3D datasets by 1.1%and 1.8%respectively,the overfitting of model is improved as well.

作者袁琨鹏米金鹏陈智谦 Yuan Kunpeng;Mi Jinpeng;Chen Zhiqian(Institute of Machine Intelligence,University of Shanghai for Science&Technology,Shanghai 200093,China;School of Opto-electronic Information&Computer Engineering,University of Shanghai for Science&Technology,Shanghai 200093,China)

机构地区上海理工大学机器智能研究院上海理工大学光电信息与计算机工程学院

出处《计算机应用研究》 CSCD 北大核心 2023年第12期3666-3671,3677,共7页 Application Research of Computers

基金国家自然科学基金重点资助项目(92048205) 国家自然科学基金资助项目(62106026) 中国博士后科学基金资助项目(2020M683243)。

关键词三维指称表达理解多模态融合过拟合注意力 3D visual grounding multi-modal fusion overfitting attention

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1刘炳辰..多任务学习模型的泛化性研究[D].大连理工大学,2021:
2王丽安,缪佩翰,苏伟,李玺,吉娜烨,姜燕冰.图像-文本多模态指代表达理解研究综述[J].中国图象图形学报,2023,28(5):1308-1325. 被引量：2
3崔恩杰..基于表达-图像匹配检测的指称表达理解(REC)方法研究[D].天津工业大学,2020:
4郑曦..基于多层次信息聚合的指称表达理解方法研究[D].北京交通大学,2022:
5刘天义,吴祖煊,陈静静,姜育刚.面向视觉语言理解与生成的多模态预训练方法[J].软件学报,2023,34(5):2024-2034. 被引量：2
6吝博强,田文洪.基于层次注意力机制的高效视觉问答模型[J].计算机应用研究,2021,38(2):636-640. 被引量：9
7王茂,彭亚雄,陆安江.面向视觉问答的跨模态交叉融合注意网络[J].计算机应用,2022,42(3):854-859. 被引量：2
8杨有,陈立志,方小龙,潘龙越.融合自适应常识门的图像描述生成模型[J].计算机应用,2022,42(12):3900-3905. 被引量：1
9李玉腾,史操,许灿辉,程远志.基于视觉和文本的多模态文档图像目标检测[J].计算机应用研究,2023,40(5):1559-1564. 被引量：2
10李路宝,陈田,任福继,罗蓓蓓.基于图神经网络和注意力的双模态情感识别方法[J].计算机应用,2023,43(3):700-705. 被引量：3

二级参考文献15

1应自炉,赵毅鸿,宣晨,邓文博.多特征融合的文档图像版面分析[J].中国图象图形学报,2020,0(2):311-320. 被引量：7
2白翔,杨明锟,石葆光,廖明辉.基于深度学习的场景文字检测与识别[J].中国科学：信息科学,2018,48(5):531-544. 被引量：35
3杨丽,吴雨茜,王俊丽,刘义理.循环神经网络研究综述[J].计算机应用,2018,38(A02):1-6. 被引量：376
4陈龙杰,张钰,张玉梅,吴晓军.基于多注意力多尺度特征融合的图像描述生成算法[J].计算机应用,2019,39(2):354-359. 被引量：15
5陈超,齐峰.卷积神经网络的发展及其在计算机视觉领域中的应用综述[J].计算机科学,2019,46(3):63-73. 被引量：136
6王忠民,王星,李刚,张福涛.视觉场景理解综述[J].西安邮电大学学报,2019,24(1):1-15. 被引量：3
7黄友文,游亚东,赵朋.融合卷积注意力机制的图像描述生成模型[J].计算机应用,2020,40(1):23-27. 被引量：13
8杜鹏飞,李小勇,高雅丽.多模态视觉语言表征学习研究综述[J].软件学报,2021,32(2):327-348. 被引量：26
9李文惠,曾上游,王金金.基于改进注意力机制的图像描述生成算法[J].计算机应用,2021,41(5):1262-1267. 被引量：6
10尹奇跃,黄岩,张俊格,吴书,王亮.基于深度学习的跨模态检索综述[J].中国图象图形学报,2021,26(6):1368-1388. 被引量：18

共引文献14

1邱南,顾玉宛,石林,李宁,庄丽华,徐守坤.基于复合图文特征的视觉问答模型研究[J].计算机应用研究,2021,38(8):2293-2298.
2张海涛,郭欣雨.基于多模态推理图神经网络的场景文本视觉问答模型[J].计算机应用研究,2022,39(1):280-284.
3张宇,郭文忠,林森,文朝武,龙洁花.深度学习与知识推理相结合的研究综述[J].计算机工程与应用,2022,58(1):56-69. 被引量：5
4李艳,金小峰.基于综合几何关系稀疏自注意力机制的图像标注方法研究[J].计算机应用研究,2022,39(4):1132-1136. 被引量：2
5祁铧颖,贺萍.跨模态数据融合综述[J].软件工程,2022,25(10):1-7. 被引量：5
6张昊雨,张德.基于图结构的级联注意力视觉问答模型[J].计算机工程与应用,2023,59(6):155-161. 被引量：1
7李长健,杨昱威,肖枭,雷印杰.基于子问题渐进式推理的3D视觉问答[J].计算机应用研究,2023,40(4):987-990.
8张岱松,盛文婷,谷峥,刘静.基于多模块深度神经网络的陶瓷图像视觉问答方法[J].南京理工大学学报,2023,47(2):192-198.
9员娇娇,胡永利,尹宝才.一种基于文本和图像的多模态目标检测方法[J].中国传媒大学学报（自然科学版）,2023,30(3):41-49.
10成曦,杨关,刘小明,刘阳.基于跨模态多维关系增强的多模态模型研究[J].计算机应用研究,2023,40(8):2367-2374.

1杨思洛,程濛,莫莹莹.学术论文研究亮点的语言特征与主题识别[J].图书馆论坛,2023,43(7):26-37.
2程珊珊.洱海地区白语名量词的指称功能[J].民族语文,2023(3):67-79.

计算机应用研究

2023年第12期

浏览历史

内容加载中请稍等...

基于模态预融合的三维指称表达理解

参考文献11

二级参考文献15

共引文献14

相关作者

相关机构

相关主题

浏览历史