期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于跨模态引导和对齐的多模态预训练方法
1
作者 才华 易亚希 +2 位作者 付强 冉越 孙俊喜 《电子学报》 EI CAS CSCD 北大核心 2024年第10期3368-3381,共14页
现有的视觉语言多模态预训练方法仅在图像和文本的全局语义上进行特征对齐,对模态间细粒度特征交互的探索不足.针对这一问题,本文提出了一种基于跨模态引导和对齐的多模态预训练方法.该方法在模态特征提取阶段,采用基于视觉序列压缩的... 现有的视觉语言多模态预训练方法仅在图像和文本的全局语义上进行特征对齐,对模态间细粒度特征交互的探索不足.针对这一问题,本文提出了一种基于跨模态引导和对齐的多模态预训练方法.该方法在模态特征提取阶段,采用基于视觉序列压缩的双流特征提取网络,在视觉编码器中联合图像和文本信息逐层引导视觉序列压缩,缓解与文本无关的冗余视觉信息对模态间细粒度交互的干扰;在模态特征对齐阶段,对图像和文本特征进行细粒度关系推理,实现视觉标记与文本标记的局部特征对齐,增强对模态间细粒度对齐关系的理解.实验结果表明,本文方法能够更好地对齐视觉文本的细粒度特征,在图文检索任务中,微调后的图像检索和文本检索的平均召回率分别达到了86.4%和94.88%,且零样本图文检索的整体指标相较于经典图文检索算法CLIP(Contrastive Language-Image Pre-training)提升了5.36%,在视觉问答等分类任务中,准确率也优于目前主流多模态预训练方法. 展开更多
关键词 多模态预训练 跨模态引导 视觉序列压缩 双流特征提取 细粒度关系推理 局部特征对齐
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部