期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于空间关系聚合与全局特征注入的视觉问答模型
1
作者 陈巧红 漏杨波 方贤 《浙江理工大学学报(自然科学版)》 2023年第6期764-774,共11页
现有视觉问答模型缺乏视觉对象间关系的理解能力,导致复杂问题的答案预测准确率较差;针对该问题,提出了一种基于空间关系聚合与全局特征注入的视觉问答模型。该模型首先利用空间关系聚合视觉区域特征,将其转换为视觉全局特征,并将这些... 现有视觉问答模型缺乏视觉对象间关系的理解能力,导致复杂问题的答案预测准确率较差;针对该问题,提出了一种基于空间关系聚合与全局特征注入的视觉问答模型。该模型首先利用空间关系聚合视觉区域特征,将其转换为视觉全局特征,并将这些特征注入网络;然后引入双边门控机制进行特征融合,使模型能够根据不同的问题输入,自适应地调整视觉全局特征和视觉区域特征对答案预测的贡献度;最后将融合特征输入分类网络,得到预测结果。在VQA 2.0和GQA公开数据集上进行实验,结果表明:该模型在VQA2.0的测试-开发集、测试-标准集和GQA的数据集上的总准确率分别达到71.12%、71.54%和57.71%,优于MCAN和SCAVQAN等主流模型。该模型由于引入了具有空间关系的视觉全局特征,能够更好地提升视觉对象间关系的理解能力,有效提高了视觉问答模型的准确率。 展开更多
关键词 视觉问答 空间关系聚合 全局特征注入 视觉区域特征 视觉全局特征 双边门控机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部