-
题名基于跨模态引导和对齐的多模态预训练方法
- 1
-
-
作者
才华
易亚希
付强
冉越
孙俊喜
-
机构
长春理工大学电子信息工程学院
长春中国光学科学技术馆
长春理工大学空间光电技术研究所
东北师范大学信息科学与技术学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2024年第10期3368-3381,共14页
-
基金
国家自然科学基金(No.61890963,No.U2341226)
吉林省人才专项(No.20240602015RC)
西安市飞行器光学成像与测量技术重点实验室开放基金(No.2023-13)。
-
文摘
现有的视觉语言多模态预训练方法仅在图像和文本的全局语义上进行特征对齐,对模态间细粒度特征交互的探索不足.针对这一问题,本文提出了一种基于跨模态引导和对齐的多模态预训练方法.该方法在模态特征提取阶段,采用基于视觉序列压缩的双流特征提取网络,在视觉编码器中联合图像和文本信息逐层引导视觉序列压缩,缓解与文本无关的冗余视觉信息对模态间细粒度交互的干扰;在模态特征对齐阶段,对图像和文本特征进行细粒度关系推理,实现视觉标记与文本标记的局部特征对齐,增强对模态间细粒度对齐关系的理解.实验结果表明,本文方法能够更好地对齐视觉文本的细粒度特征,在图文检索任务中,微调后的图像检索和文本检索的平均召回率分别达到了86.4%和94.88%,且零样本图文检索的整体指标相较于经典图文检索算法CLIP(Contrastive Language-Image Pre-training)提升了5.36%,在视觉问答等分类任务中,准确率也优于目前主流多模态预训练方法.
-
关键词
多模态预训练
跨模态引导
视觉序列压缩
双流特征提取
细粒度关系推理
局部特征对齐
-
Keywords
multimodal pre-training
cross-modal guidance
visual sequence compression
dual-stream feature extraction
fine-grained relational reasoning
localized feature alignment
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-