期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
跨模态表征与生成技术 被引量:5
1
作者 刘华峰 陈静静 +4 位作者 李亮 鲍秉坤 李泽超 刘家瑛 聂礼强 《中国图象图形学报》 CSCD 北大核心 2023年第6期1608-1629,共22页
多媒体数据持续呈现爆发式增长并显现出异源异构的特性,因此跨模态学习领域研究逐渐引起学术和工业界的关注。跨模态表征与生成是跨模态学习的两大核心基础问题。跨模态表征旨在利用多种模态之间的互补性剔除模态之间的冗余,从而获得更... 多媒体数据持续呈现爆发式增长并显现出异源异构的特性,因此跨模态学习领域研究逐渐引起学术和工业界的关注。跨模态表征与生成是跨模态学习的两大核心基础问题。跨模态表征旨在利用多种模态之间的互补性剔除模态之间的冗余,从而获得更为有效的特征表示;跨模态生成则是基于模态之间的语义一致性,实现不同模态数据形式上的相互转换,有助于提高不同模态间的迁移能力。本文系统地分析了国际与国内近年来跨模态表征与生成领域的重要研究进展,包括传统跨模态表征学习、多模态大模型表示学习、图像到文本的跨模态转换和跨模态图像生成。其中,传统跨模态表征学习探讨了跨模态统一表征和跨模态协同表征,多模态大模型表示学习探讨了基于Transformer的模型研究,图像到文本的跨模态转换探讨了图像视频的语义描述、视频字幕语义分析和视觉问答等领域的发展,跨模态图像生成从不同模态信息的跨模态联合表示方法、图像的跨模态生成技术和基于预训练的特定域图像生成阐述了跨模态生成方面的进展。本文详细综述了上述各个子领域研究的挑战性,对比了国内外研究方面的进展情况,梳理了发展脉络和学术研究的前沿动态。最后,根据上述分析展望了跨模态表征与生成的发展趋势和突破口。 展开更多
关键词 多媒体技术 跨模态学习 大模型 跨模态表征 跨模态生成 深度学习
原文传递
基于跨域对抗学习的零样本分类 被引量:9
2
作者 刘欢 郑庆华 +3 位作者 罗敏楠 赵洪科 肖阳 吕彦章 《计算机研究与发展》 EI CSCD 北大核心 2019年第12期2521-2535,共15页
零样本学习旨在识别具有少量、甚至没有训练样本的未见类,这些类与可见类遵循不同的数据分布.最近,随着深度神经网络在跨模态生成方面的成功,使用合成的样本对未见数据进行分类取得了巨大突破.现有方法通过共享生成器和解码器,联合传统... 零样本学习旨在识别具有少量、甚至没有训练样本的未见类,这些类与可见类遵循不同的数据分布.最近,随着深度神经网络在跨模态生成方面的成功,使用合成的样本对未见数据进行分类取得了巨大突破.现有方法通过共享生成器和解码器,联合传统生成对抗网络和变分自编码器来实现样本的合成.然而,由于这2种生成网络产生的数据分布不同,联合模型合成的数据遵循复杂的多域分布.针对这个问题,提出跨域对抗生成网络(CrossD-AGN),将传统生成对抗网络和变分自编码器有机结合起来,基于类级语义信息为未见类合成样本,从而实现零样本分类.提出跨域对抗学习机制,引入2个对称的跨域判别器,通过判断合成样本属于生成器域分布还是解码器域分布,促使联合模型中的生成器解码器不断优化,提高样本合成能力.在多个真实数据集上进行了广泛的实验,结果表明了所提出方法在零样本学习上的有效性和优越性. 展开更多
关键词 零样本学习 生成模型 跨模态生成 跨域对抗学习 联合模型
下载PDF
基于跨模态技术的地铁施工风险对策生成方法研究
3
作者 周红 周莉 +1 位作者 汤世隆 黄文 《工程管理学报》 2024年第4期95-100,共6页
为了给地铁施工现场人员应对风险提供智能辅助,提出了基于跨模态技术的地铁施工风险对策智能生成方法,通过采用改进的卷积神经网络ResNet50模型对施工现场风险图像进行语义特征提取,并利用LSTM模型和注意力机制融合图像和文本的语义特征... 为了给地铁施工现场人员应对风险提供智能辅助,提出了基于跨模态技术的地铁施工风险对策智能生成方法,通过采用改进的卷积神经网络ResNet50模型对施工现场风险图像进行语义特征提取,并利用LSTM模型和注意力机制融合图像和文本的语义特征,将施工要素的图像语义与文字语义相关联,以实现施工现场风险图像到风险对策的自动生成。经实验评价可知,提出的基于跨模态技术的地铁施工风险对策生成方法具有0.9以上的准确率和0.8以上的召回率。实现了根据采集的风险图像生成对策文本,为地铁施工风险应对阶段的智能辅助研究提供了可行有效的方法。 展开更多
关键词 地铁施工风险 跨模态生成 对策生成
下载PDF
Attention-Enhanced Voice Portrait Model Using Generative Adversarial Network
4
作者 Jingyi Mao Yuchen Zhou +3 位作者 YifanWang Junyu Li Ziqing Liu Fanliang Bu 《Computers, Materials & Continua》 SCIE EI 2024年第4期837-855,共19页
Voice portrait technology has explored and established the relationship between speakers’ voices and their facialfeatures, aiming to generate corresponding facial characteristics by providing the voice of an unknown ... Voice portrait technology has explored and established the relationship between speakers’ voices and their facialfeatures, aiming to generate corresponding facial characteristics by providing the voice of an unknown speaker.Due to its powerful advantages in image generation, Generative Adversarial Networks (GANs) have now beenwidely applied across various fields. The existing Voice2Face methods for voice portraits are primarily based onGANs trained on voice-face paired datasets. However, voice portrait models solely constructed on GANs facelimitations in image generation quality and struggle to maintain facial similarity. Additionally, the training processis relatively unstable, thereby affecting the overall generative performance of the model. To overcome the abovechallenges,wepropose a novel deepGenerativeAdversarialNetworkmodel for audio-visual synthesis, namedAVPGAN(Attention-enhanced Voice Portrait Model using Generative Adversarial Network). This model is based ona convolutional attention mechanism and is capable of generating corresponding facial images from the voice ofan unknown speaker. Firstly, to address the issue of training instability, we integrate convolutional neural networkswith deep GANs. In the network architecture, we apply spectral normalization to constrain the variation of thediscriminator, preventing issues such as mode collapse. Secondly, to enhance the model’s ability to extract relevantfeatures between the two modalities, we propose a voice portrait model based on convolutional attention. Thismodel learns the mapping relationship between voice and facial features in a common space from both channeland spatial dimensions independently. Thirdly, to enhance the quality of generated faces, we have incorporated adegradation removal module and utilized pretrained facial GANs as facial priors to repair and enhance the clarityof the generated facial images. Experimental results demonstrate that our AVP-GAN achieved a cosine similarity of0.511, outperforming the performance of our compariso 展开更多
关键词 cross-modal generation GANs voice portrait technology face synthesis
下载PDF
“三维视觉—语言”推理技术的前沿研究与最新趋势
5
作者 雷印杰 徐凯 +5 位作者 郭裕兰 杨鑫 武玉伟 胡玮 杨佳琪 汪汉云 《中国图象图形学报》 CSCD 北大核心 2024年第6期1747-1764,共18页
三维视觉推理的核心思想是对点云场景中的视觉主体间的关系进行理解。非专业用户难以向计算机传达自己的意图,从而限制了该技术的普及与推广。为此,研究人员以自然语言作为语义背景和查询条件反映用户意图,进而与点云的信息进行交互以... 三维视觉推理的核心思想是对点云场景中的视觉主体间的关系进行理解。非专业用户难以向计算机传达自己的意图,从而限制了该技术的普及与推广。为此,研究人员以自然语言作为语义背景和查询条件反映用户意图,进而与点云的信息进行交互以完成相应的任务。此种范式称做“三维视觉—语言”推理,在自动驾驶、机器人导航以及人机交互等众多领域广泛应用,已经成为计算机视觉领域中备受瞩目的研究方向。过去几年间,“三维视觉—语言”推理技术迅猛发展,呈现出百花齐放的趋势,但是目前依然缺乏对最新研究进展的全面总结。本文聚焦于两类最具代表性的研究工作,锚框预测和内容生成类的“三维视觉—语言”推理技术,系统性概括领域内研究的最新进展。首先,本文总结了“三维视觉—语言”推理的问题定义和现存挑战,同时概述了一些常见的骨干网络。其次,本文按照方法所关注的下游场景,对两类“三维视觉—语言”推理技术做了进一步细分,并深入探讨了各方法的优缺点。接下来,本文对比分析了各类方法在不同基准数据集上的性能。最后,本文展望了“三维视觉—语言”推理技术的未来发展前景,以期促进该领域的深入研究与广泛应用。 展开更多
关键词 深度学习 计算机视觉 “三维视觉—语言”推理 跨模态学习 视觉定位 密集字幕生成 视觉问答 场景生成
原文传递
音频驱动跨模态视觉生成算法综述 被引量:1
6
作者 姜莱 于震 +2 位作者 王鹏飞 周东生 侯亚庆 《图学学报》 CSCD 北大核心 2022年第2期181-188,共8页
由于音频驱动的跨模态视觉生成算法具有广泛地应用场景,近年来已得到产业界和科研界的广泛关注。音频和视觉为人们日常生活中最重要和常见的2种模态,然而设计一种能够创意地想象出与音频相对应的视觉场景一直是一个巨大挑战,目前关于音... 由于音频驱动的跨模态视觉生成算法具有广泛地应用场景,近年来已得到产业界和科研界的广泛关注。音频和视觉为人们日常生活中最重要和常见的2种模态,然而设计一种能够创意地想象出与音频相对应的视觉场景一直是一个巨大挑战,目前关于音频驱动的跨模态视觉生成问题在已有文献中尚未得到系统而全面地研究。针对现有音频驱动的跨模态视觉生成算法进行概述,并将其分为音频到图像、音频到肢体动作视频和音频到说话人脸视频3类。首先阐述其具体应用领域与主流算法流程,并对涉及框架技术进行解析,然后按照技术推进的顺序对相关算法的核心内容与优劣势进行阐述,并解释其生成表现效果,最后对目前领域内所面临的机遇和挑战进行讨论,给出未来研究方向。 展开更多
关键词 跨模态生成 音频 视觉 深度学习 综述
下载PDF
基于时空图卷积网络的语音驱动个人风格手势生成方法
7
作者 张斌 刘长红 +1 位作者 曾胜 揭安全 《计算机科学》 CSCD 北大核心 2022年第S02期604-608,共5页
人们在发言时的手势动作往往具有自己独特的个人风格,研究者们提出了基于生成式对抗网络的语音驱动个人风格手势生成的方法,然而所生成的动作不自然,存在时序上动作不连贯的问题。针对该问题,文中提出了一种基于时空图卷积网络的语音驱... 人们在发言时的手势动作往往具有自己独特的个人风格,研究者们提出了基于生成式对抗网络的语音驱动个人风格手势生成的方法,然而所生成的动作不自然,存在时序上动作不连贯的问题。针对该问题,文中提出了一种基于时空图卷积网络的语音驱动个人风格手势生成的方法,引入以时空图卷积网络为基础的时序动态性判别器,构建手势动作关节点之间空间和时间上的结构关系,并通过时空图卷积网络捕获手势动作关节点在空间上的相关性和提取时序上的动态性特征,使所生成的手势动作保持时序上的连贯性,以更符合真实手势的行为和结构。在Ginosar等构建的语音手势数据集上进行实验验证,与相关方法相比,正确关键点百分比指标提高了2%~5%,所生成的手势动作更自然。 展开更多
关键词 跨模态生成 手势生成 个人风格学习 时空图卷积网络 时序动态性
下载PDF
面向急性缺血性脑卒中CT到MRI的图像生成 被引量:2
8
作者 冯二燕 秦品乐 +2 位作者 柴锐 曾建朝 孟延锋 《计算机技术与发展》 2023年第10期135-142,共8页
急性缺血性脑卒中病灶很容易在磁共振成像(MRI)上表现为高信号区域。相较于MRI,计算机断层扫描(CT)成像速度快、价格低,不易受金属植入物干扰,但CT对缺血性脑卒中病灶不敏感,通常在CT上难以确定病灶的位置,且CT包含的信息量比MRI少。考... 急性缺血性脑卒中病灶很容易在磁共振成像(MRI)上表现为高信号区域。相较于MRI,计算机断层扫描(CT)成像速度快、价格低,不易受金属植入物干扰,但CT对缺血性脑卒中病灶不敏感,通常在CT上难以确定病灶的位置,且CT包含的信息量比MRI少。考虑到速度与可用性的提升以及成本的降低,为了以CT生成的MRI代替真实的MRI对急性缺血性脑卒中进行诊断,提出一种CT到MRI的跨模态图像生成算法。首先,利用影像组学在CT上确定病灶区域并提取影像组学特征,筛选出信息增益最大的特征并可视化,然后将该特征图与CT一同作为生成对抗网络的输入。生成对抗网络在pix2pix生成器中引入残差块,鉴别器采用PatchGAN。最后在损失函数中引入病灶特征相似性损失函数,更加关注病灶区域的相似性。经两名放射科医生的主观判断与评估指标的客观分析,结果表明,该算法生成的MRI与真实MRI相似性极高,且病灶位置正确,形状相似,可为医生的诊疗提供帮助。 展开更多
关键词 医学图像生成 影像组学 生成对抗网络 计算机断层扫描(CT) 磁共振成像(MRI) 跨模态图像生成
下载PDF
视听同步的细粒度脚步音效合成方法
9
作者 刘子航 齐秋棠 +2 位作者 程皓楠 崔健 叶龙 《现代电影技术》 2023年第12期4-10,56,共8页
电影后期音效制作合成目前仍主要依赖手动操作,其人力与资源成本较高。现有智能拟音技术由于存在合成声音缺乏细粒度内容和真实感不足等问题,难以满足实际电影后期音效制作要求。针对上述问题,本文提出了一种细粒度脚步音效的自动合成方... 电影后期音效制作合成目前仍主要依赖手动操作,其人力与资源成本较高。现有智能拟音技术由于存在合成声音缺乏细粒度内容和真实感不足等问题,难以满足实际电影后期音效制作要求。针对上述问题,本文提出了一种细粒度脚步音效的自动合成方法,充分利用视觉画面信息,以实现视听同步且内容匹配度高的脚步声音效合成。具体而言,本文采用数据驱动的视听跨模态生成方法,深入学习视听时序关联,以实现视听同步。随后,为了进一步丰富合成脚步声音的内容细粒度,对视觉画面中的地面材质和人物运动信息进行深入分析,并构建与声音之间的规则连接。实验证明,本文的方法能够合成与视觉信息匹配的时间同步且内容合理的脚步音效,实现了脚步音效的自动化生成,提升了视听的真实感。 展开更多
关键词 电影音效制作 智能化拟音 脚步音效合成 跨模态视听生成
下载PDF
跨模态行人重识别研究综述 被引量:2
10
作者 刘玉林 《电视技术》 2022年第5期9-11,共3页
跨模态行人重识别,又称可见光-红外行人重识别,是一项在可见光图像与红外图像间进行行人识别与检索的技术。该技术作为视频智能监控系统的核心关键技术之一,目前在安防监控和疑犯追踪等领域被迫切需要。近年来,随着新型摄像头(可在弱光... 跨模态行人重识别,又称可见光-红外行人重识别,是一项在可见光图像与红外图像间进行行人识别与检索的技术。该技术作为视频智能监控系统的核心关键技术之一,目前在安防监控和疑犯追踪等领域被迫切需要。近年来,随着新型摄像头(可在弱光环境下自动切换到红外模式,拍摄红外图像)逐渐代替可见光摄像头并普及起来,跨模态行人重识别得到了学术界和工业界的广泛关注并取得显著的发展。对此,本文分别对跨模态行人重识别的概念以及相关研究进行介绍与分析,并对目前相关研究工作所存在的问题进行总结与展望。 展开更多
关键词 跨模态行人重识别 双流网络 生成对抗网络 模态差异
下载PDF
一种强真实感的图像生成算法设计与仿真 被引量:1
11
作者 应卫强 张帆 张玲燕 《计算机仿真》 北大核心 2022年第4期492-495,500,共5页
传统方法下生成的跨模态图像易造成目标部分重要信息缺失,生成的图像缺乏真实感,于是提出改进生成式对抗网络和半监督学习的跨模态图像生成方法。建立生成式对抗网络,分析半监督学习特征,经融合后组成半监督生成式对抗网络。在判别器中... 传统方法下生成的跨模态图像易造成目标部分重要信息缺失,生成的图像缺乏真实感,于是提出改进生成式对抗网络和半监督学习的跨模态图像生成方法。建立生成式对抗网络,分析半监督学习特征,经融合后组成半监督生成式对抗网络。在判别器中使用卷积神经网络、在生成器中引入反卷积神经网络,在半监督生成式对抗网络中添加分类器,改进所建的网络模型,利用全变差正则化项建立伪判别损失函数。利用架构的随机梯度下降优化算法,完成散度似然比的直接优化,最后在三个网络的共同作用下,输出生成的跨模态图像。仿真阶段分别从视觉效果与评估指标两个角度,验证出所提方法的有效性,结果证明上述方法不仅使生成图像更具真实感,而且保留了大部分目标特征,能够满足图像的高质量需求。 展开更多
关键词 生成式对抗网络 半监督学习 跨模态图像生成 随机梯度下降优化算法 损失函数
下载PDF
改进U-Net3+与跨模态注意力块的医学图像融合 被引量:1
12
作者 王丽芳 米嘉 +3 位作者 秦品乐 蔺素珍 高媛 刘阳 《中国图象图形学报》 CSCD 北大核心 2022年第12期3622-3636,共15页
目的针对目前多模态医学图像融合方法深层特征提取能力不足,部分模态特征被忽略的问题,提出了基于U-Net3+与跨模态注意力块的双鉴别器生成对抗网络医学图像融合算法(U-Net3+and cross-modal attention block dual-discriminator generat... 目的针对目前多模态医学图像融合方法深层特征提取能力不足,部分模态特征被忽略的问题,提出了基于U-Net3+与跨模态注意力块的双鉴别器生成对抗网络医学图像融合算法(U-Net3+and cross-modal attention block dual-discriminator generative adversal network,UC-DDGAN)。方法结合U-Net3+可用很少的参数提取深层特征、跨模态注意力块可提取两模态特征的特点,构建UC-DDGAN网络框架。UC-DDGAN包含一个生成器和两个鉴别器,生成器包括特征提取和特征融合。特征提取部分将跨模态注意力块嵌入到U-Net3+下采样提取图像深层特征的路径上,提取跨模态特征与提取深层特征交替进行,得到各层复合特征图,将其进行通道叠加、降维后上采样,输出包含两模态全尺度深层特征的特征图。特征融合部分通过将特征图在通道上进行拼接得到融合图像。双鉴别器分别对不同分布的源图像进行针对性鉴别。损失函数引入梯度损失,将其与像素损失加权优化生成器。结果将UC-DDGAN与5种经典的图像融合方法在美国哈佛医学院公开的脑部疾病图像数据集上进行实验对比,其融合图像在空间频率(spatial frequency,SF)、结构相似性(structural similarity,SSIM)、边缘信息传递因子(degree of edge information,Q^(AB/F))、相关系数(correlation coefficient,CC)和差异相关性(the sum of the correlations of differences,SCD)等指标上均有提高,SF较DDcGAN(dual discriminator generation adversative network)提高了5.87%,SSIM较FusionGAN(fusion generative adversarial network)提高了8%,Q^(AB/F)较FusionGAN提高了12.66%,CC较DDcGAN提高了14.47%,SCD较DDcGAN提高了14.48%。结论UC-DDGAN生成的融合图像具有丰富深层特征和两模态关键特征,其主观视觉效果和客观评价指标均优于对比方法,为临床诊断提供了帮助。 展开更多
关键词 U-Net3+ 跨模态注意力块 双鉴别器生成对抗网络 梯度损失 多模态医学图像融合
原文传递
注意力机制引导的多模态心脏图像分割
13
作者 杨琬琪 周子奇 郭心娜 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2019年第3期27-31,41,共6页
为有效挖掘模态间共享与模态特有的信息,本文提出一种注意力机制引导的半孪生网络,用于分割多模态(MRI与CT)心脏图像.具体地,首先运用循环一致的生成对抗网络(CycleGAN)进行双向的图像生成(即从MRI到CT以及从CT到MRI),这样可以解决模态... 为有效挖掘模态间共享与模态特有的信息,本文提出一种注意力机制引导的半孪生网络,用于分割多模态(MRI与CT)心脏图像.具体地,首先运用循环一致的生成对抗网络(CycleGAN)进行双向的图像生成(即从MRI到CT以及从CT到MRI),这样可以解决模态间心脏图像不配对的问题;其次,设计一个新的半孪生网络,将原始的CT(或MR)图像及其生成的MR(或CT)图像进行配对并同时输入,先通过两个编码器(encoders)分别学习模态特有的特征,再经过一个跨模态的注意力模块将不同模态的特征进行融合,最后输入一个公共的解码器(decoder)来得到模态共享的特征,用于心脏图像分割.上述学习过程是端到端的方式进行训练.本文将所提方法在真实的CT与MR不配对的心脏图像数据集上进行实验评估,表明所提方法的分割精度超出基准方法. 展开更多
关键词 注意力机制 多模态心脏图像分割 半孪生网络 跨模态图像生成
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部