期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
从视觉到文本:图像描述生成的研究进展综述 被引量:14
1
作者 魏忠钰 范智昊 +3 位作者 王瑞泽 承怡菁 赵王榕 黄萱菁 《中文信息学报》 CSCD 北大核心 2020年第7期19-29,共11页
近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像... 近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。 展开更多
关键词 图像描述生成 跨模态特征对齐 文献综述
下载PDF
从光学到SAR:基于多级跨模态对齐的SAR图像舰船检测算法 被引量:1
2
作者 何佳月 宿南 +3 位作者 徐从安 尹璐 廖艳苹 闫奕名 《遥感学报》 EI CSCD 北大核心 2024年第7期1789-1801,共13页
合成孔径雷达(SAR)舰船检测是近年来的研究热点。然而,与光学图像不同,SAR成像的特点会导致不直观的特征表示。此外,由于SAR图像数据量不足,现有的基于大量标记SAR图像的方法可能难以达到较好的检测效果。为了解决这些问题,本文提出了... 合成孔径雷达(SAR)舰船检测是近年来的研究热点。然而,与光学图像不同,SAR成像的特点会导致不直观的特征表示。此外,由于SAR图像数据量不足,现有的基于大量标记SAR图像的方法可能难以达到较好的检测效果。为了解决这些问题,本文提出了一种基于多级跨模态对齐的SAR图像舰船检测算法MCMA-Net(Multi-level Cross-Modality Alignment Network),通过将光学模态中丰富的知识迁移到SAR模态来增强SAR图像的特征表示。该算法首先设计了一个基于邻域—全局注意力的特征交互网络NGAN(Neighborhood-Global Attention Network),通过对骨干网络的浅层特征采用邻域注意力机制进行局部交互、对深层特征采取全局自注意力机制进行全局上下文交互,在兼顾全局上下文建模能力的同时,提升局部特征的编码能力,使得网络在不同层级更合理的关注相应的信息,从而能够促进后续的多级别模态对齐。其次,本文设计了一个多级模态对齐模块MLMA(Multi-level Modality Alignment),通过从局部级别到全局级别再到实例级别的对两种模态不同隐含空间中的特征进行对齐,促进模型有效地学习模态不变特征,缓解了光学图像和SAR图像之间的模态鸿沟,实现了从光学模态到SAR模态的知识传输。大量的实验证明我们的算法优于现阶段的检测算法,取得了最好的实验结果。 展开更多
关键词 遥感 SAR 目标检测 跨模态 特征对齐 注意力机制
原文传递
基于像素对齐和特征对齐的跨模态行人重识别
3
作者 李俊峰 楼琼 +1 位作者 钱亚冠 孙安临 《浙江科技学院学报》 CAS 2022年第3期251-260,共10页
为了减少可见光-红外跨模态行人重识别中较大的跨模态差异,提出一种联合像素对齐和特征对齐的跨模态行人重识别方法。首先,从像素级角度出发,利用对齐生成对抗网络(alignment generative adversarial network,AlignGAN),将可见光图像转... 为了减少可见光-红外跨模态行人重识别中较大的跨模态差异,提出一种联合像素对齐和特征对齐的跨模态行人重识别方法。首先,从像素级角度出发,利用对齐生成对抗网络(alignment generative adversarial network,AlignGAN),将可见光图像转换为红外图像,减少可见光和红外图像之间的跨模态差距。其次,从特征级角度出发,通过交换可见光和红外图像的模态特定特征来生成跨模态配对图像,同时进行全局集合级对齐和细粒度实例级对齐。最后,运用基于非局部块的深度为50层的残差网络(50-layer residual nets,ResNet-50)捕获图像的长距离依赖关系。在SYSU-MM01数据集上进行了大量试验,我们的方法得到41.8%的识别准确率,在相比较的方法中准确率最高。可见,本方法可以有效地减少跨模态行人重识别中较大的跨模态差异。本研究结果可为跨模态行人重识别的研究提供参考。 展开更多
关键词 行人重识别 跨模态 像素对齐 特征对齐 非局部神经网络
下载PDF
基于图像和特征联合优化的跨模态行人重识别研究
4
作者 张辉 刘世洪 钟武 《荆楚理工学院学报》 2023年第2期9-17,共9页
跨模态行人重识别(VI-ReID)旨在匹配可见光和红外摄像头下捕获的行人图像,十分具有挑战性。为减小可见光图像和红外图像之间的模态差异,本文提出了异质图像增广方法和跨模态特征对齐方法来优化跨模态行人重识别网络,利用轻量级异质图像... 跨模态行人重识别(VI-ReID)旨在匹配可见光和红外摄像头下捕获的行人图像,十分具有挑战性。为减小可见光图像和红外图像之间的模态差异,本文提出了异质图像增广方法和跨模态特征对齐方法来优化跨模态行人重识别网络,利用轻量级异质图像卷积生成器对可见光图像进行增广,采用色彩抖动方式对红外图像进行增广,并使用正样本优化轻量级异构图像卷积生成器来约束损失。在此基础上,使用两个模态分类器和跨模态特征对齐损失作为指导,不断学习获得模态共享的特征。在两个数据集上的大量实验表明,我们的方法具有优异的性能,在SYSU-MM01和RegDB数据集上分别达到了rank1/mAP 57.82%/54.35%和80.39%/75.05%的精度。 展开更多
关键词 跨模态行人重识别 模态差异 异质图像增广 跨模态特征对齐
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部