-
题名基于正反上下文语义对齐融合的多模态文本摘要模型
- 1
-
-
作者
陈中峰
陆振宇
荣欢
-
机构
南京信息工程大学人工智能学院
-
出处
《中文信息学报》
CSCD
北大核心
2024年第4期108-119,共12页
-
基金
国家自然科学基金(U20B2061,62102187)
江苏省自然科学基金(基础研究计划)(BK20210639)。
-
文摘
该文基于序列到序列的神经网络,提出了使用文本语义信息和图片语义信息对多模态文本摘要生成任务进行建模。具体而言,使用文本一级编码器和带有图片信息指导的二级门控编码器对多模态语义信息进行编码,对齐文本与图片的语义信息。通过多模态正向注意力机制与反向注意力机制多方面观察对齐后的源文本与图片内容,分别得到各自模态语义信息的正相关和不相关特征表示。使用正向滤波器过滤正向注意力机制中的不相关信息,使用反向滤波器过滤反向注意力机制中的相关信息,达到分别从正向与反向两个方面选择性地融合文本语义信息和图片语义信息的目的。最后基于指针生成网络,使用正相关信息搭建正向指针、使用不相关信息搭建反向指针,生成带有多模态语义信息补偿的文本摘要内容。在京东中文电子商务数据集上,所提模型生成的多模态文本摘要在ROUGE-1、ROUGE-2、ROUGE-L指标上分别取得了38.40、16.71、28.01的结果。
-
关键词
多模态文本摘要
多模态信息对齐
二级门控编码机制
文本生成模型
-
Keywords
multi-modal text summarization
multi-modal alignment
secondary gated encoding
text-generation model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-