期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
基于迁移学习的图像检索算法 被引量:11
1
作者 李晓雨 聂秀山 +2 位作者 崔超然 蹇木伟 尹义龙 《计算机科学》 CSCD 北大核心 2019年第1期73-77,共5页
近年来,随着互联网的发展和智能设备的普及,网络上存储的图片数量呈现爆发式增长,同时,不同类型的社交网络、媒体的用户数量也连续增长。在这种情况下,网络上的多媒体数据类型也发生了变革,在包含其本身携带的视觉信息的同时,也包含用... 近年来,随着互联网的发展和智能设备的普及,网络上存储的图片数量呈现爆发式增长,同时,不同类型的社交网络、媒体的用户数量也连续增长。在这种情况下,网络上的多媒体数据类型也发生了变革,在包含其本身携带的视觉信息的同时,也包含用户为其设定的标签信息、文本信息。在这种多模态信息杂糅的环境下,如何向用户提供快速准确的图像检索结果,是多媒体检索领域的一个新挑战。文中提出了一种基于迁移学习的图像检索算法,在对图像的视觉信息进行学习的同时,也对图像的文本信息进行学习,并将学习到的结果迁移到视觉信息领域,进行跨模态信息融合,进而产生包含跨模态信息的图像特征。经实验证明,所提算法能够实现更优的图像检索结果。 展开更多
关键词 图像检索 跨模态 迁移学习 特征提取
下载PDF
DI-VTR:Dual inter-modal interaction model for video-text retrieval
2
作者 Jie Guo Mengying Wang +2 位作者 Wenwei Wang Yan Zhou Bin Song 《Journal of Information and Intelligence》 2024年第5期388-403,共16页
Video-text retrieval is a challenging task for multimodal information processing due to the semantic gap between different modalities.However,most existing methods do not fully mine the intra-modal interactions,as wit... Video-text retrieval is a challenging task for multimodal information processing due to the semantic gap between different modalities.However,most existing methods do not fully mine the intra-modal interactions,as with the temporal correlation of video frames,which results in poor matching performance.Additionally,the imbalanced semantic information between videos and texts also leads to difficulty in the alignment of the two modalities.To this end,we propose a dual inter-modal interaction network for video-text retrieval,i.e.,DI-vTR.To learn the intra-modal interaction of video frames,we design a contextual-related video encoder to obtain more fine-grained content-oriented video representations.We also propose a dual inter-modal interaction module to accomplish accurate multilingual alignment between the video and text modalities by introducing multilingual text to improve the representation ability of text semantic features.Extensive experimental results on commonly-used video-text retrieval datasets,including MSR-VTT,MSVD and VATEX,show that the proposed method achieves significantly improved performance compared with state-of-the-art methods. 展开更多
关键词 Video-text retrieval Multilingual text Dual interaction Contrastivelanguage-image pretraining(CLIP) Cross-modal retrieval
原文传递
融合自注意力机制的跨模态食谱检索方法 被引量:4
3
作者 林阳 初旭 +2 位作者 王亚沙 毛维嘉 赵俊峰 《计算机科学与探索》 CSCD 北大核心 2020年第9期1471-1481,共11页
饮食记录是饮食管理的关键环节。为了简化记录过程,研究者提出了基于食物图片的食谱检索技术,通过拍摄的图片检索到对应食谱,并据此生成营养信息,从而提高了记录的便捷性。食谱检索是典型的跨模态检索问题,但与一般问题相比,其主要难点... 饮食记录是饮食管理的关键环节。为了简化记录过程,研究者提出了基于食物图片的食谱检索技术,通过拍摄的图片检索到对应食谱,并据此生成营养信息,从而提高了记录的便捷性。食谱检索是典型的跨模态检索问题,但与一般问题相比,其主要难点是食谱描述了从原材料到成品的一系列变化过程,而非直接可见的特征,因此模型需要深入理解原材料的处理过程。而当前食谱检索研究工作采用线性方式处理文本,导致其捕捉食谱处理过程中的远距离依赖现象的能力较差。针对这个问题,设计了一种基于自注意力机制的跨模态食谱检索模型。该模型借助Transformer模型中的自注意力机制,捕捉食谱中远距离的依赖关系,同时改进了传统方法中的注意力机制,可以更好地挖掘食谱中的语义。实验结果表明,该模型在食谱检索任务的召回率上比基线方法提高了22%。 展开更多
关键词 饮食记录 食谱检索 自注意力机制 跨模态 深度神经网络
下载PDF
混合跨域神经网络的草图检索算法 被引量:1
4
作者 李奇真 周圆 +2 位作者 李绰 彭一南 梁先明 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2022年第5期64-73,共10页
基于草图的跨域图像检索任务以手绘草图为输入,从彩色图像数据库中检索得到最相似的图像。为了在基于草图的图像检索任务中,更好地融合来自草图和彩色图像的特征,本文提出了用于草图检索任务的混合跨域神经网络,由草图特征提取分支与异... 基于草图的跨域图像检索任务以手绘草图为输入,从彩色图像数据库中检索得到最相似的图像。为了在基于草图的图像检索任务中,更好地融合来自草图和彩色图像的特征,本文提出了用于草图检索任务的混合跨域神经网络,由草图特征提取分支与异构特征融合的彩色图像网络分支组成。该网络提取获得手绘草图、正负样本彩色图像及其边缘轮廓的特征表示,并将彩色图像及其草图近似图(即彩色图像的边缘轮廓)进行特征融合,作为彩色图像特征,弥补了手绘草图与彩色图像直接匹配的跨域差距。通过对网络模型的参数与网络结构等方面探索,进一步优化草图检索算法。在Flickr15K草图检索数据集上的实验结果表明,本文提出的方法优于当前其他先进的草图检索算法,在检索平均精确度这个客观指标上达到了0.5848,相比其他方法中指标最优的值提升了0.0522。 展开更多
关键词 草图检索 跨模态 神经网络 图像检索
下载PDF
Cross-Modal Hashing Retrieval Based on Deep Residual Network
5
作者 Zhiyi Li Xiaomian Xu +1 位作者 Du Zhang Peng Zhang 《Computer Systems Science & Engineering》 SCIE EI 2021年第2期383-405,共23页
In the era of big data rich inWe Media,the single mode retrieval system has been unable to meet people’s demand for information retrieval.This paper proposes a new solution to the problem of feature extraction and un... In the era of big data rich inWe Media,the single mode retrieval system has been unable to meet people’s demand for information retrieval.This paper proposes a new solution to the problem of feature extraction and unified mapping of different modes:A Cross-Modal Hashing retrieval algorithm based on Deep Residual Network(CMHR-DRN).The model construction is divided into two stages:The first stage is the feature extraction of different modal data,including the use of Deep Residual Network(DRN)to extract the image features,using the method of combining TF-IDF with the full connection network to extract the text features,and the obtained image and text features used as the input of the second stage.In the second stage,the image and text features are mapped into Hash functions by supervised learning,and the image and text features are mapped to the common binary Hamming space.In the process of mapping,the distance measurement of the original distance measurement and the common feature space are kept unchanged as far as possible to improve the accuracy of Cross-Modal Retrieval.In training the model,adaptive moment estimation(Adam)is used to calculate the adaptive learning rate of each parameter,and the stochastic gradient descent(SGD)is calculated to obtain the minimum loss function.The whole training process is completed on Caffe deep learning framework.Experiments show that the proposed algorithm CMHR-DRN based on Deep Residual Network has better retrieval performance and stronger advantages than other Cross-Modal algorithms CMFH,CMDN and CMSSH. 展开更多
关键词 Deep residual network cross-modal retrieval HASHING cross-modal hashing retrieval based on deep residual network
下载PDF
一种改进的向量空间信息检索模型研究 被引量:1
6
作者 东兴 贾宇波 +1 位作者 王义 范红丹 《工业控制计算机》 2011年第5期66-67,共2页
传统的信息检索方法忽略了文档结构对词的重要性。在此基础上,提出了改进的向量空间检索模型,利用该模型进行相似度计算。试验表明该模型可以提高信息检索的查准率和查全率不高的缺点。
关键词 搜索引擎 检索模型 查全率 查准率
下载PDF
面向大数据的数字图书馆多媒体信息检索系统优化研究 被引量:37
7
作者 李广丽 朱涛 +3 位作者 刘斌 殷依 邱蝶蝶 张红斌 《情报科学》 CSSCI 北大核心 2019年第2期115-119,共5页
【目的/意义】大数据背景下,优良的多媒体信息检索系统是提升数字图书馆交互性,促使其知识服务升级的关键。【方法/过程】调研主流数字图书馆的多媒体信息检索系统,发现主要存在"未充分利用跨模态相关性"、"未有效组织... 【目的/意义】大数据背景下,优良的多媒体信息检索系统是提升数字图书馆交互性,促使其知识服务升级的关键。【方法/过程】调研主流数字图书馆的多媒体信息检索系统,发现主要存在"未充分利用跨模态相关性"、"未有效组织多媒体资源"等问题。从"跨模态相关性分析"、"层次化知识推理"等方面提出优化方案并实证分析。【结果/结论】系统检索性能提升,这表明:运用深度学习、知识表示学习等理论优化多媒体信息检索系统,可更好地满足用户知识需求,进而提升数字图书馆知识服务质量。 展开更多
关键词 大数据 数字图书馆 多媒体信息检索 深度学习 跨模态相关性 知识表示学习
原文传递
基于深度学习的跨模态检索综述 被引量:18
8
作者 尹奇跃 黄岩 +2 位作者 张俊格 吴书 王亮 《中国图象图形学报》 CSCD 北大核心 2021年第6期1368-1388,共21页
由于多模态数据的快速增长,跨模态检索受到了研究者的广泛关注,其将一种模态的数据作为查询条件检索其他模态的数据,如用户可以用文本检索图像或/和视频。由于查询及其检索结果模态表征的差异,如何度量不同模态之间的相似性是跨模态检... 由于多模态数据的快速增长,跨模态检索受到了研究者的广泛关注,其将一种模态的数据作为查询条件检索其他模态的数据,如用户可以用文本检索图像或/和视频。由于查询及其检索结果模态表征的差异,如何度量不同模态之间的相似性是跨模态检索的主要挑战。随着深度学习技术的推广及其在计算机视觉、自然语言处理等领域的显著成果,研究者提出了一系列以深度学习为基础的跨模态检索方法,极大缓解了不同模态间相似性度量的挑战,本文称之为深度跨模态检索。本文从以下角度综述有代表性的深度跨模态检索论文,基于所提供的跨模态信息将这些方法分为3类:基于跨模态数据间一一对应的、基于跨模态数据间相似度的以及基于跨模态数据语义标注的深度跨模态检索。一般来说,上述3类方法提供的跨模态信息呈现递增趋势,且提供学习的信息越多,跨模态检索性能越优。在上述不同类别下,涵盖了7类主流技术,即典型相关分析、一一对应关系保持、度量学习、似然分析、学习排序、语义预测以及对抗学习。不同类别下包含部分关键技术,本文将具体阐述其中有代表性的方法。同时对比提供不同跨模态数据信息下不同技术的区别,以阐述在提供了不同层次的跨模态数据信息下相关技术的关注点与使用异同。为评估不同的跨模态检索方法,总结了部分代表性的跨模态检索数据库。最后讨论了当前深度跨模态检索待解决的问题以及未来的研究方向。 展开更多
关键词 跨模态检索 跨模态哈希 深度学习 共同表示学习 对抗学习 似然分析 学习排序
原文传递
语义耦合相关的判别式跨模态哈希学习算法 被引量:13
9
作者 严双咏 刘长红 +2 位作者 江爱文 叶继华 王明文 《计算机学报》 EI CSCD 北大核心 2019年第1期164-175,共12页
基于哈希的跨模态检索以其存储消耗低、查询速度快等优点受到广泛的关注.跨模态哈希学习的核心问题是如何对不同模态数据进行有效地共享语义空间嵌入学习.大多数算法在对多模态数据进行共享空间嵌入的过程中忽略了特征表示的语义判别性... 基于哈希的跨模态检索以其存储消耗低、查询速度快等优点受到广泛的关注.跨模态哈希学习的核心问题是如何对不同模态数据进行有效地共享语义空间嵌入学习.大多数算法在对多模态数据进行共享空间嵌入的过程中忽略了特征表示的语义判别性,从而导致哈希码表示的类别区分性不强,降低了最近邻搜索的准确性和鲁棒性.该文提出了基于语义耦合相关的判别式跨模态哈希特征表示学习算法.算法在模型的优化目标函数设计上综合了线性判别分类器的思想和跨模态相关性最大化思路,通过引入线性分类器,使得各模态都能够分别学习到各自具有判别性的二进制哈希码.同时利用耦合哈希表示在嵌入语义空间中最大化不同模态之间的相关性,不仅克服了把多种数据投影到一个共同嵌入语义空间的缺陷,而且能够捕捉到不同模态之间的语义相关性.算法在Wiki、LabelMe以及NUS_WID三个基准数据集上与最近相关的算法进行了实验比较.实验结果表明该文提出的方法在检索精度和计算效率上有明显的优势. 展开更多
关键词 跨模态检索 跨模态哈希 线性分类器 语义相关性 共享子空间 多模态
下载PDF
面向跨模态检索的协同注意力网络模型 被引量:9
10
作者 邓一姣 张凤荔 +2 位作者 陈学勤 艾擎 余苏喆 《计算机科学》 CSCD 北大核心 2020年第4期54-59,共6页
随着图像、文本、声音、视频等多模态网络数据的急剧增长,人们对多样化的检索需求日益强烈,其中的跨模态检索受到广泛关注。然而,由于其存在异构性差异,在不同的数据模态之间寻找内容相似性仍然具有挑战性。现有方法大都将异构数据通过... 随着图像、文本、声音、视频等多模态网络数据的急剧增长,人们对多样化的检索需求日益强烈,其中的跨模态检索受到广泛关注。然而,由于其存在异构性差异,在不同的数据模态之间寻找内容相似性仍然具有挑战性。现有方法大都将异构数据通过映射矩阵或深度模型投射到公共子空间,来挖掘成对的关联关系,即图像和文本的全局信息对应关系,而忽略了数据内局部的上下文信息和数据间细粒度的交互信息,无法充分挖掘跨模态关联。为此,文中提出文本-图像协同注意力网络模型(CoAN),通过选择性地关注多模态数据的关键信息部分来增强内容相似性的度量。CoAN利用预训练的VGGNet模型和循环神经网络深层次地提取图像和文本的细粒度特征,利用文本-视觉注意力机制捕捉语言和视觉之间的细微交互作用;同时,该模型分别学习文本和图像的哈希表示,利用哈希方法的低存储特性和计算的高效性来提高检索速度。在实验得出,在两个广泛使用的跨模态数据集上,CoAN的平均准确率均值(mAP)超过所有对比方法,文本检索图像和图像检索文本的mAP值分别达到0.807和0.769。实验结果说明,CoAN有助于检测多模态数据的关键信息区域和数据间细粒度的交互信息,充分挖掘跨模态数据的内容相似性,提高检索精度。 展开更多
关键词 跨模态检索 协同注意力机制 细粒度特征提取 深度哈希 多模态数据
下载PDF
基于对比学习和GIF标记的多模态对话回复检索
11
作者 黄懿蕊 罗俊玮 陈景强 《计算机应用》 CSCD 北大核心 2024年第1期32-38,共7页
社交媒体网站上使用GIF(Graphics Interchange Format)作为消息的回复相当普遍。但目前大多方法针对问题“如何选择一个合适的GIF回复消息”,没有很好地利用社交媒体上的GIF附属标记信息。为此,提出基于对比学习和GIF标记的多模态对话... 社交媒体网站上使用GIF(Graphics Interchange Format)作为消息的回复相当普遍。但目前大多方法针对问题“如何选择一个合适的GIF回复消息”,没有很好地利用社交媒体上的GIF附属标记信息。为此,提出基于对比学习和GIF标记的多模态对话回复检索(CoTa-MMD)方法,将标记信息整合到检索过程中。具体来说就是使用标记作为中间变量,文本→GIF的检索就被转换为文本→GIF标记→GIF的检索,采用对比学习算法学习模态表示,并利用全概率公式计算检索概率。与直接的文本图像检索相比,引入的过渡标记降低了不同模态的异质性导致的检索难度。实验结果表明,CoTa-MMD模型相较于深度监督的跨模态检索(DSCMR)模型,在PEPE-56多模态对话数据集和Taiwan多模态对话数据集上文本图像检索任务的召回率之和分别提升了0.33个百分点和4.21个百分点。 展开更多
关键词 跨模态检索 多模态对话 GIF 对比学习 表示学习
下载PDF
基于层次聚类的图文检索模型研究
12
作者 孙健玮 刘玉龙 《计算机测量与控制》 2024年第6期286-291,298,共7页
图文检索在工业中的用途和作用是多方面的,可以帮助提高研发和生产效率,促进科技创新,提高产品的质量和竞争力;目前,图文检索模型的重点是提高检索的精度;随着技术和数据的快速发展,深度学习和大模型技术的不断应用,图文检索的速度问题... 图文检索在工业中的用途和作用是多方面的,可以帮助提高研发和生产效率,促进科技创新,提高产品的质量和竞争力;目前,图文检索模型的重点是提高检索的精度;随着技术和数据的快速发展,深度学习和大模型技术的不断应用,图文检索的速度问题逐渐凸显,为解决当前图文检索速度受限、计算量大的问题,提出了一种基于层次聚类的图文检索模型;该方法选择了检索效果明显的跨模态哈希方法,并运用深度聚类算法对待检索的数据进行分类,从而缩小检索范围,提高了检索速度;实验结果表明,基于层次聚类的图文检索模型在保持检索精度的同时,显著提高了检索速度,使得工程人员能够更快地获取到满意的检索结果。 展开更多
关键词 图文检索 跨模态哈希方法 深度学习 深度聚类算法 信息检索
下载PDF
特征融合的装修案例跨模态检索方法
13
作者 亢洁 刘威 《智能系统学报》 CSCD 北大核心 2024年第2期429-437,共9页
目前家装客服系统中主要依靠人工方式进行装修案例检索,导致该系统不能满足用户对咨询服务快捷、及时的需求而且人力成本高,故提出一种基于特征融合的装修案例跨模态检索算法。针对多模态数据的语义信息挖掘不充分,模型检索精度低等问题... 目前家装客服系统中主要依靠人工方式进行装修案例检索,导致该系统不能满足用户对咨询服务快捷、及时的需求而且人力成本高,故提出一种基于特征融合的装修案例跨模态检索算法。针对多模态数据的语义信息挖掘不充分,模型检索精度低等问题,对现有的风格聚合模块进行改进,在原始模块中引入通道注意力机制,以此来为每组装修案例中不同图片的特征向量添加合适的权重,从而增强包含更多有用信息的重要特征并削弱其他不重要的特征。同时,为充分利用多模态信息,设计一种适用于检索场景下的多模态特征融合模块,该模块能够自适应地控制2种不同模态的特征向量进行一系列的融合操作,以实现跨模态数据间的知识流动与共享,从而生成语义更丰富、表达能力更强的特征向量,进一步提升模型的检索性能。在自建的装修案例多模态数据集上将该方法与其他方法进行比较,试验结果表明本文方法在装修案例检索上具有更优越的性能。 展开更多
关键词 家装客服系统 装修案例检索 跨模态检索 风格聚合 多模态 特征融合 通道注意力机制 语义信息
下载PDF
深度双模态源域对称迁移学习的跨模态检索
14
作者 刘秋杰 万源 吴杰 《计算机应用》 CSCD 北大核心 2024年第1期24-31,共8页
基于深度网络的跨模态检索经常面临交叉训练数据不足的挑战,这限制了训练效果并容易导致过拟合。迁移学习在源域中训练数据的知识迁移学习到目标域中,能有效解决训练数据不足的问题。然而,现有的大部分迁移学习方法致力于将知识从单模态... 基于深度网络的跨模态检索经常面临交叉训练数据不足的挑战,这限制了训练效果并容易导致过拟合。迁移学习在源域中训练数据的知识迁移学习到目标域中,能有效解决训练数据不足的问题。然而,现有的大部分迁移学习方法致力于将知识从单模态(如图像)源域迁移到多模态(如图像和文本)目标域,而如果源域中已存在多种模态信息,这样的非对称迁移会忽略源域中包含的潜在的模态间语义信息;同时这些方法不能很好地提取源域与目标域中相同模态的相似性,进而减小域差异。因此,提出一种深度双模态源域对称迁移学习的跨模态检索(DBSTL)方法。该方法旨在实现从双模态源域到跨模态目标域的知识迁移,并获得跨模态数据的公共表示。DBSTL由模态对称迁移子网和语义一致性学习子网构成。模态对称迁移子网采用混合对称结构,在知识迁移过程中,使模态间信息具有更高的一致性,并能减小源域与目标域间的差异;而语义一致性学习子网中,所有模态共享相同的公共表示层,并在目标域的监督信息指导下保证跨模态语义的一致性。实验结果表明,在Pascal、NUS-WIDE-10k和Wikipedia数据集上,所提方法的平均精度均值(mAP)较对比方法得到的最好结果分别提升了大约8.4、0.4和1.2个百分点。DBSTL充分利用了双模态源域的潜在信息进行对称迁移学习,在监督信息的指导下保证了模态间语义的一致性,并提高了公共表示空间中图像文本分布的相似性。 展开更多
关键词 跨模态检索 迁移学习 双模态源域 语义一致性
下载PDF
基于模态特异及模态共享特征信息的多模态细粒度检索 被引量:3
15
作者 李佩 陈乔松 +3 位作者 陈鹏昌 邓欣 王进 朴昌浩 《计算机工程》 CAS CSCD 北大核心 2022年第11期62-68,76,共8页
跨模态检索的目标是用户给定任意一个样本作为查询样例,系统检索得到与查询样例相关的各个模态样本,多模态细粒度检索在跨模态检索基础上强调模态的数量至少大于两个,且待检索样本的分类标准为细粒度子类,存在多模态数据间的异构鸿沟及... 跨模态检索的目标是用户给定任意一个样本作为查询样例,系统检索得到与查询样例相关的各个模态样本,多模态细粒度检索在跨模态检索基础上强调模态的数量至少大于两个,且待检索样本的分类标准为细粒度子类,存在多模态数据间的异构鸿沟及细粒度样本特征差异小等难题。引入模态特异特征及模态共享特征的概念,提出一种多模态细粒度检索框架MS2Net。使用分支网络及主干网络分别提取不同模态数据的模态特异特征及模态共享特征,将两种特征通过多模态特征融合模块进行充分融合,同时利用各个模态自身的特有信息及不同模态数据间的共性及联系,增加高维空间向量中包含的语义信息。针对多模态细粒度检索场景,在center loss函数的基础上提出multi-center loss函数,并引入类内中心来聚集同类别且同模态的样本,根据聚集类内中心来间接聚集同类别但模态不同的样本,同时消减样本间的异构鸿沟及语义鸿沟,增强模型对高维空间向量的聚类能力。在公开数据集FG-Xmedia上进行一对一与一对多的模态检索实验,结果表明,与FGCrossNet方法相比,MS2Net方法 mAP指标分别提升65%和48%。 展开更多
关键词 信息检索 多模态检索 细粒度检索 多模态表征学习 深度学习
下载PDF
半配对的多模态询问哈希方法
16
作者 庾骏 马江涛 +2 位作者 咸阳 侯瑞霞 孙伟 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第2期481-491,共11页
多模态哈希能够将异构的多模态数据转化为联合的二进制编码串。由于其具有低存储成本、快速的汉明距离排序的优点,已经在大规模多媒体检索中受到了广泛的关注。现有的多模态哈希方法假设所有的询问数据都具备完整的多种模态信息以生成... 多模态哈希能够将异构的多模态数据转化为联合的二进制编码串。由于其具有低存储成本、快速的汉明距离排序的优点,已经在大规模多媒体检索中受到了广泛的关注。现有的多模态哈希方法假设所有的询问数据都具备完整的多种模态信息以生成它们的联合哈希码。然而,实际应用中很难获得全完整的多模态信息,针对存在模态信息缺失的半配对询问场景,该文提出一种新颖的半配对询问哈希(SPQH),以解决半配对的询问样本的联合编码问题。首先,提出的方法执行投影学习和跨模态重建学习以保持多模态数据间的语义一致性。然后,标签空间的语义相似结构信息和多模态数据间的互补信息被有效地捕捉以学习判别性的哈希函数。在询问编码阶段,通过学习到的跨模态重构矩阵为未配对的样本数据补全缺失的模态特征,然后再经习得的联合哈希函数生成哈希特征。相比最先进的基线方法,在Pascal Sentence,NUS-WIDE和IAPR TC-12数据集上的平均检索精度提高了2.48%。实验结果表明该算法能够有效编码半配对的多模态询问数据,取得了优越的检索性能。 展开更多
关键词 多模态信息检索 哈希 半配对数据 跨模态重建 二值化编码
下载PDF
基于多粒度匹配的文本引导服装图像检索
17
作者 肖华兴 马丽丽 陈金广 《计算机技术与发展》 2024年第7期24-30,共7页
文本引导的图像检索是将查询图像与文本条件集成为多模态查询。现有的方法通过构建更先进的细粒度度量学习来提升性能,但这可能会使模型在文本条件不够精确的情况下对目标图像过拟合,并使得检索结果特征单调。针对该问题,提出了基于特... 文本引导的图像检索是将查询图像与文本条件集成为多模态查询。现有的方法通过构建更先进的细粒度度量学习来提升性能,但这可能会使模型在文本条件不够精确的情况下对目标图像过拟合,并使得检索结果特征单调。针对该问题,提出了基于特征增强和多粒度匹配的文本引导的服装图像检索方法。首先,根据目标特征的分布,产生服从正态分布的噪声,使其产生小幅度的类内抖动;然后,根据目标特征的波动对增强特征施加约束,波动越大,则对增强特征的惩罚越大,由此得到粗粒度匹配损失;最后,优化学习策略,使用随着训练迭代不断衰减的动态权重将粗粒度与细粒度损失进行统一。通过该方法降低模型对潜在目标图像的排斥,提高特征识别的多样化。在两个公开服装数据集FashionIQ和Shoes上的大量实验表明,该方法能够提高召回率,并且检索结果更丰富。 展开更多
关键词 文本引导 图像检索 特征增强 多粒度匹配 多模态融合
下载PDF
图文跨模态检索研究综述
18
作者 张振兴 王亚雄 《北京交通大学学报》 CAS CSCD 北大核心 2024年第2期23-36,共14页
图文跨模态检索作为跨模态计算研究的一个核心课题,一直受到学术界和工业界的高度重视.在过去的几十年里,随着深度学习技术的发展,特别是深度神经网络、Transformer架构以及图文对比学习等关键技术的广泛应用与革新,图文跨模态检索领域... 图文跨模态检索作为跨模态计算研究的一个核心课题,一直受到学术界和工业界的高度重视.在过去的几十年里,随着深度学习技术的发展,特别是深度神经网络、Transformer架构以及图文对比学习等关键技术的广泛应用与革新,图文跨模态检索领域取得了显著的进展和突破.本文在系统梳理图文跨模态检索的发展轨迹的基础上,重点关注其建模过程中的5个关键步骤,即训练数据准备、数据输入形式设计、图文特征抽取机制的选择、图文建模方法的选择以及优化目标的确立.为客观评估现有模型在跨模态检索任务上的性能水平,在多个权威的标注评测数据集上比较各类模型的表现,以揭示当前跨模态检索方法的实际效能边界.通过对各关键步骤发展历程的分析与总结,结合当前图文跨模态检索领域的研究成果,对未来跨模态学习的发展趋势做出预测与展望.研究结果表明:尽管当前的图文跨模态检索技术已取得显著进步,但仍存在进一步提升的空间和潜力,研究者可从精细化检索、经济的预训练方法、新的图文交互方式、AIGC赋能的图文预训练4个方向进行改进. 展开更多
关键词 图文检索 跨模态学习 深度学习 注意力机制
下载PDF
基于语义自编码哈希学习的跨模态检索方法 被引量:5
19
作者 朱路 邓芳 +2 位作者 刘坤 贺婷婷 刘媛媛 《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第12期110-122,共13页
【目的】通过语义自编码器挖掘底层特征和高层语义之间的相关性,缩小不同模态数据之间的异构鸿沟,并结合哈希学习提高跨模态检索的精度和速率。【方法】利用语义标签信息学习特征语义联合表示,构造语义仿射矩阵,结合自编码器和线性回归... 【目的】通过语义自编码器挖掘底层特征和高层语义之间的相关性,缩小不同模态数据之间的异构鸿沟,并结合哈希学习提高跨模态检索的精度和速率。【方法】利用语义标签信息学习特征语义联合表示,构造语义仿射矩阵,结合自编码器和线性回归学习哈希函数,通过相似性度量获得最优的哈希码。【结果】在WIKI、MIRFLICKR、NUS-WIDE三个公开数据集上进行验证,所提方法在4种不同码长下的平均MAP值较LSSH、FSH、ACQ、DBRC、SPDH、SePH、SMH中的最高值分别提高0.1135、0.0278、0.0505。【局限】所提方法主要适用于对多种模态数据进行线性投影,对于非线性问题未能取得较好的效果。【结论】所提方法可以缩小多模态数据之间的异构鸿沟,将不同模态相似数据转化为相同的哈希码,有效提高了跨模态检索的精度和速率。 展开更多
关键词 跨模态检索 自编码器 哈希学习 多模态
原文传递
基于多模态教学模式的药学文献检索课程探索 被引量:2
20
作者 孙立丽 任晓亮 +5 位作者 邓雁如 牟佳佳 王丽莉 葛军 赵启铎 王莉宁 《中国中医药现代远程教育》 2023年第12期181-183,共3页
药学文献检索是培养中药学、药学类学生信息素养的一门“科学方法课”。此研究综合运用多种教学方法,将PPT结合雨课堂的多模态教学、以实践为主导的多模态案例教学、基于翻转课堂的多模态教学相结合,探索并构建药学文献检索课堂多模态... 药学文献检索是培养中药学、药学类学生信息素养的一门“科学方法课”。此研究综合运用多种教学方法,将PPT结合雨课堂的多模态教学、以实践为主导的多模态案例教学、基于翻转课堂的多模态教学相结合,探索并构建药学文献检索课堂多模态教学模式,充分调动和发挥学生的主观能动性,培养学生的科研思维和创新能力,对拔尖创新人才的培养具有重要作用。 展开更多
关键词 药学 文献检索 多模态教学模式 信息素养
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部