期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
多模态深度学习综述 被引量:43
1
作者 刘建伟 丁熙浩 罗雄麟 《计算机应用研究》 CSCD 北大核心 2020年第6期1601-1614,共14页
在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了... 在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。 展开更多
关键词 多模态 深度学习 多神经网络 多模态表示 多模态传译 多模态融合 多模态对齐
下载PDF
电影中的“愤怒”隐喻多模态表征 被引量:7
2
作者 李兴忠 《广东外语外贸大学学报》 2017年第3期46-51,共6页
有别于动画片,电影广泛使用面部表情符号、体势符号、行为/事件符号和环境、自然力量符号等四类多模态符号表征"愤怒"。相对于漫画、动画片较高频次地使用面部表情符号和体势符号表征"愤怒",电影使用行为/事件符号... 有别于动画片,电影广泛使用面部表情符号、体势符号、行为/事件符号和环境、自然力量符号等四类多模态符号表征"愤怒"。相对于漫画、动画片较高频次地使用面部表情符号和体势符号表征"愤怒",电影使用行为/事件符号和环境、自然力量符号的频次较高。电影中多模态符号表征的隐喻概念与语言模态基本一致,认知模式突显"试图控制愤怒"和"失控"/"愤怒转移"两个阶段。 展开更多
关键词 电影隐喻 “愤怒”隐喻 多模态隐喻 多模态表征
下载PDF
深度多模态表示学习的研究综述 被引量:5
3
作者 潘梦竹 李千目 邱天 《计算机工程与应用》 CSCD 北大核心 2023年第2期48-64,共17页
尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习... 尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习预测和泛化性能。然而,多模态表示学习研究还处于初级阶段,依然存在许多科学问题尚需解决。迄今为止,多模态表示学习仍缺乏统一的认知,多模态表示学习研究的体系结构和评价指标尚不完全明确。根据不同模态的特征结构、语义信息和表示能力,从表示融合和表示对齐两个角度研究和分析了深度多模态表示学习的进展,并对现有研究工作进行了系统的总结和科学的分类。同时,解析了代表性框架和模型的基本结构、应用场景和关键问题,分析了深度多模态表示学习的理论基础和最新发展,并且指出了多模态表示学习研究当前面临的挑战和今后的发展趋势,以进一步推动深度多模态表示学习的发展和应用。 展开更多
关键词 多模态表示 深度学习 多模态融合 多模态对齐
下载PDF
基于样本内外协同表示和自适应融合的多模态学习方法 被引量:1
4
作者 黄学坚 马廷淮 王根生 《计算机研究与发展》 EI CSCD 北大核心 2024年第5期1310-1324,共15页
多模态机器学习是一种新的人工智能范式,结合各种模态和智能处理算法以实现更高的性能.多模态表示和多模态融合是多模态机器学习的2个关键任务.目前,多模态表示方法很少考虑样本间的协同,导致特征表示缺乏鲁棒性,大部分多模态特征融合... 多模态机器学习是一种新的人工智能范式,结合各种模态和智能处理算法以实现更高的性能.多模态表示和多模态融合是多模态机器学习的2个关键任务.目前,多模态表示方法很少考虑样本间的协同,导致特征表示缺乏鲁棒性,大部分多模态特征融合方法对噪声数据敏感.因此,在多模态表示方面,为了充分学习模态内和模态间的交互,提升特征表示的鲁棒性,提出一种基于样本内和样本间多模态协同的表示方法.首先,分别基于预训练的BERT,Wav2vec 2.0,Faster R-CNN提取文本特征、语音特征和视觉特征;其次,针对多模态数据的互补性和一致性,构建模态特定和模态共用2类编码器,分别学习模态特有和共享2种特征表示;然后,利用中心矩差异和正交性构建样本内协同损失函数,采用对比学习构建样本间协同损失函数;最后,基于样本内协同误差、样本间协同误差和样本重构误差设计表示学习函数.在多模态融合方面,针对每种模态可能在不同时刻表现出不同作用类型和不同级别的噪声,设计一种基于注意力机制和门控神经网络的自适应的多模态特征融合方法.在多模态意图识别数据集MIntRec和情感数据集CMU-MOSI,CMU-MOSEI上的实验结果表明,该多模态学习方法在多个评价指标上优于基线方法. 展开更多
关键词 多模态表示 多模态融合 多模态学习 协同表示 自适应融合
下载PDF
图文语义增强的多模态命名实体识别方法
5
作者 徐玺 王海荣 +1 位作者 王彤 马赫 《计算机应用研究》 CSCD 北大核心 2024年第6期1679-1685,共7页
为了解决多模态命名实体识别方法中存在的图文语义缺失、多模态表征语义不明确等问题,提出了一种图文语义增强的多模态命名实体识别方法。其中,利用多种预训练模型分别提取文本特征、字符特征、区域视觉特征、图像关键字和视觉标签,以... 为了解决多模态命名实体识别方法中存在的图文语义缺失、多模态表征语义不明确等问题,提出了一种图文语义增强的多模态命名实体识别方法。其中,利用多种预训练模型分别提取文本特征、字符特征、区域视觉特征、图像关键字和视觉标签,以全面描述图文数据的语义信息;采用Transformer和跨模态注意力机制,挖掘图文特征间的互补语义关系,以引导特征融合,从而生成语义补全的文本表征和语义增强的多模态表征;整合边界检测、实体类别检测和命名实体识别任务,构建了多任务标签解码器,该解码器能对输入特征进行细粒度语义解码,以提高预测特征的语义准确性;使用这个解码器对文本表征和多模态表征进行联合解码,以获得全局最优的预测标签。在Twitter-2015和Twitter-2017基准数据集的大量实验结果显示,该方法在平均F 1值上分别提升了1.00%和1.41%,表明该模型具有较强的命名实体识别能力。 展开更多
关键词 多模态命名实体识别 多模态表示 多模态融合 多任务学习 命名实体识别
下载PDF
基于多视图表征的虚假新闻检测 被引量:1
6
作者 张新有 孙峰 +1 位作者 冯力 邢焕来 《信息网络安全》 CSCD 北大核心 2024年第3期438-448,共11页
社交网络已经成为人们日常生活中获取和分享信息的主要渠道,同时也为虚假新闻的传播提供了捷径。如今,针对网络虚假新闻的检测问题受到学术界的广泛关注,但目前的检测方法缺乏基于新闻多个视角的深度探索或忽视了新闻中不同信息传播方... 社交网络已经成为人们日常生活中获取和分享信息的主要渠道,同时也为虚假新闻的传播提供了捷径。如今,针对网络虚假新闻的检测问题受到学术界的广泛关注,但目前的检测方法缺乏基于新闻多个视角的深度探索或忽视了新闻中不同信息传播方向不同的问题,有待改进。文章提出一种基于新闻内容、用户信息和新闻传播3种视角的多视图表征和检测的模型MVRFD(Multi-View Representations for Fake News Detection),为虚假新闻检测任务提供更全面的视角。首先,利用协同注意力机制表征新闻内容中的多模态信息,使用具有不同方向的图神经网络聚合新闻传播过程中的用户信息和观点信息;然后,利用双协同注意力机制实现多个视角间的信息交互;最后,将新闻内容特征和新闻上下文特征进行融合。在公开数据集上的实验结果表明,文章所提出的模型实现了96.7%的准确率和96.8%的F1值,优于主流的文本处理模型以及基于单视角的检测模型。 展开更多
关键词 虚假新闻检测 图神经网络 多模态表征 注意力机制 多视图表征
下载PDF
基于多模态表示学习的情感分析框架 被引量:5
7
作者 胡新荣 陈志恒 +3 位作者 刘军平 彭涛 叶鹏 朱强 《计算机科学》 CSCD 北大核心 2022年第S02期631-636,共6页
在多模态表示对整体损失的学习过程中,重构损失对模型的依赖性相对较小,导致隐含表示无法有效捕捉它们各自模态的细节。文中提出了一个基于多模态表示学习的多子空间情感分析框架。首先将每个模态投射到模态不变和模态特定两种不同的话... 在多模态表示对整体损失的学习过程中,重构损失对模型的依赖性相对较小,导致隐含表示无法有效捕捉它们各自模态的细节。文中提出了一个基于多模态表示学习的多子空间情感分析框架。首先将每个模态投射到模态不变和模态特定两种不同的话语表示中,在模态不变表示中构建主共享子空间以及帮助该子空间减少模态差距的辅助共享子空间,在模态特定表示中构建私有子空间以捕获每个模态独有的特征,将所有子空间中的隐藏向量作为解码函数的输入并重构模态向量,以实现对重构损失的优化。然后,在融合阶段对每个模态表示执行基于Transformer的自注意力,使每个表示能从对整体情感取向具有协同作用的其他跨模态表示中获取潜在信息。最后,通过串联生成联合向量并利用全连接层生成任务预测。在两个公开数据集MOSI和MOSEI上的实验结果表明,该框架在大多数评价指标上都优于基线模型。 展开更多
关键词 多模态表示 情感分析 TRANSFORMER 自注意力 跨模态
下载PDF
4~5岁汉语儿童否定行为的多模态表征特点 被引量:1
8
作者 王荣斌 薛耀琴 《学前教育研究》 CSSCI 北大核心 2020年第1期20-29,共10页
否定行为是一类常见的儿童交际行为。除了语言否定,儿童还会通过手势语、身势动作等非语言符号,以及语言与非语言符号的协同使用来实施否定。本研究深入考察两名4耀5岁汉语普通话儿童的多模态否定行为的类型及其表征,结果发现与更年幼... 否定行为是一类常见的儿童交际行为。除了语言否定,儿童还会通过手势语、身势动作等非语言符号,以及语言与非语言符号的协同使用来实施否定。本研究深入考察两名4耀5岁汉语普通话儿童的多模态否定行为的类型及其表征,结果发现与更年幼的儿童相比,4耀5岁汉语儿童的多模态否定交际能力得到进一步发展,能够依据语境实施不同的多模态否定行为;该年龄段儿童具备使用语言否定、非语言否定、语言与非语言协同否定三种表征方式来实施否定行为的多模态交际能力,但以语言否定为主导,且模态互动关系有并列、互补和强化三种。在多模态交际日益普遍化的时代背景下,包括多模态否定在内的多模态交际能力已成为儿童今后必备的一项重要交际能力。家长与儿童教育工作者需要合理给予儿童借助多模态符号自由表征其否定行为的机会,并及时思考和发现个体儿童多模态否定行为表征特点背后可能反映出的儿童心理与多模态交际能力方面的问题,帮助儿童获得心理与多模态交际能力的同步健康发展,从而更好地适应未来普遍化的多模态交际环境。 展开更多
关键词 汉语儿童 否定行为 多模态表征 历时语料
下载PDF
多模态视觉语言表征学习研究综述 被引量:28
9
作者 杜鹏飞 李小勇 高雅丽 《软件学报》 EI CSCD 北大核心 2021年第2期327-348,共22页
我们生活在一个由大量不同模态内容构建而成的多媒体世界中,不同模态信息之间具有高度的相关性和互补性,多模态表征学习的主要目的就是挖掘出不同模态之间的共性和特性,产生出可以表示多模态信息的隐含向量.主要介绍了目前应用较广的视... 我们生活在一个由大量不同模态内容构建而成的多媒体世界中,不同模态信息之间具有高度的相关性和互补性,多模态表征学习的主要目的就是挖掘出不同模态之间的共性和特性,产生出可以表示多模态信息的隐含向量.主要介绍了目前应用较广的视觉语言表征的相应研究工作,包括传统的基于相似性模型的研究方法和目前主流的基于语言模型的预训练的方法.目前比较好的思路和解决方案是将视觉特征语义化,然后与文本特征通过一个强大的特征抽取器产生出表征,其中,Transformer作为主要的特征抽取器被应用表征学习的各类任务中.分别从研究背景、不同研究方法的划分、测评方法、未来发展趋势等几个不同角度进行阐述. 展开更多
关键词 多模态表征学习 表征学习 多模态机器学习 深度学习
下载PDF
联合多模态表示的人脸识别方法研究 被引量:1
10
作者 张杜娟 陈飞 丁莉 《电子设计工程》 2021年第24期175-178,183,共5页
针对人脸图像识别问题,提出联合多模态表示的方法。采用二维经验模态分解(BEMD)对人脸图像进行分解,获得多层次二维内蕴模函数(BIMF),作为人脸的多模态表示。在分类阶段,采用多任务压缩感知模型(MTCS)对多层次BIMF进行表征,求解不同BIM... 针对人脸图像识别问题,提出联合多模态表示的方法。采用二维经验模态分解(BEMD)对人脸图像进行分解,获得多层次二维内蕴模函数(BIMF),作为人脸的多模态表示。在分类阶段,采用多任务压缩感知模型(MTCS)对多层次BIMF进行表征,求解不同BIMF的稀疏系数矢量,进而计算不同类别对于当前测试样本的重构误差,根据重构误差判断样本所属类别。通过在ORL和Yale-B人脸图像数据集上开展实验,所提方法平均识别率分别达到75.42%和94.07%,且对噪声干扰具有良好的稳健性。 展开更多
关键词 人脸识别 二维经验模态分解 多模态表示 多任务压缩感知
下载PDF
防疫科普话语的多模态表征研究——以世卫组织新冠肺炎疫情防控指南为例
11
作者 刘静宜 《秘书》 2022年第1期60-70,共11页
后疫情时代,针对疫情科普话语的研究逐渐受到重视。以张德禄的多模态话语分析理论框架为基础,探究世界卫生组织所发布的防疫科普语料中的多模态话语表征方式及关系。研究发现,这些语料包含语言、图觉、感觉等多种模态类型,其中,语言模... 后疫情时代,针对疫情科普话语的研究逐渐受到重视。以张德禄的多模态话语分析理论框架为基础,探究世界卫生组织所发布的防疫科普语料中的多模态话语表征方式及关系。研究发现,这些语料包含语言、图觉、感觉等多种模态类型,其中,语言模态占主导地位,图觉模态和感觉模态都是对语言模态的补充,起到突出和强化语言模态表达效果的作用。 展开更多
关键词 多模态话语分析 多模态话语表征 防疫科普话语
下载PDF
环保公益广告中的多模态隐喻表征类型研究——以保护水资源公益广告为例 被引量:16
12
作者 胡芳 刘诗萌 《山东外语教学》 2018年第1期34-45,共12页
结合国内外多模态隐喻表征研究的相关成果,在Forceville的多模态隐喻理论框架内,以中华环保基金会官网上收集的90篇保护水资源公益广告为语料来源,本文研究了该类公益广告中多模态隐喻的主要表征类型及其隐喻映射的语类特点。研究表明,... 结合国内外多模态隐喻表征研究的相关成果,在Forceville的多模态隐喻理论框架内,以中华环保基金会官网上收集的90篇保护水资源公益广告为语料来源,本文研究了该类公益广告中多模态隐喻的主要表征类型及其隐喻映射的语类特点。研究表明,保护水资源公益广告中存在六种多模态隐喻表征类型,图像、文字、文图是保护水资源公益广告多模态隐喻表征的三种主要模态,而图像-文字、图像-文图两类表征的出现频率最高。论文结合具体实例分析并阐释了多模态隐喻表征背后的认知理据,其研究结果在一定程度上丰富了公益广告的语类特点研究,同时也为公益广告设计者提供了一定的启发。 展开更多
关键词 保护水资源公益广告 多模态隐喻 多模态隐喻表征
下载PDF
知识驱动的多模态语义理解研究综述 被引量:1
13
作者 郑祎豪 郭奕君 +1 位作者 毋立芳 黄岩 《模式识别与人工智能》 EI CSCD 北大核心 2023年第12期1127-1138,共12页
基于深度学习模型的多模态学习方法已在静态、可控等简单场景下取得较优的语义理解性能,但在动态、开放等复杂场景下的泛化性仍然较低.近期已有不少研究工作尝试将类人知识引入多模态语义理解方法中,并取得不错效果.为了更深入了解当前... 基于深度学习模型的多模态学习方法已在静态、可控等简单场景下取得较优的语义理解性能,但在动态、开放等复杂场景下的泛化性仍然较低.近期已有不少研究工作尝试将类人知识引入多模态语义理解方法中,并取得不错效果.为了更深入了解当前知识驱动的多模态语义理解研究进展,文中在对相关方法进行系统调研与分析的基础上,归纳总结关系型和对齐型这两类主要的多模态知识表示框架.然后选择多个代表性应用进行具体介绍,包括图文匹配、目标检测、语义分割、视觉-语言导航等.此外,文中总结当前相关方法的优缺点并展望未来可能的发展趋势. 展开更多
关键词 机器学习 深度学习 多模态语义理解 多模态知识表示 多模态语义分析 知识驱动
下载PDF
陶瓷涂层材料多模态数据表征学习 被引量:1
14
作者 武星 胡明涛 丁鹏 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第3期492-503,共12页
陶瓷涂层具有耐高温、耐腐蚀、耐磨损等特性,其热膨胀系数和热导率等参数与其性能息息相关.为解决陶瓷涂层性能实验成本高、测试困难等问题,提出了陶瓷涂层材料多模态数据表征学习的性能预测方法.首先利用高斯混合模型虚拟样本生成(G au... 陶瓷涂层具有耐高温、耐腐蚀、耐磨损等特性,其热膨胀系数和热导率等参数与其性能息息相关.为解决陶瓷涂层性能实验成本高、测试困难等问题,提出了陶瓷涂层材料多模态数据表征学习的性能预测方法.首先利用高斯混合模型虚拟样本生成(G aussian mixture model virtual sample generation,GMMVSG)算法生成符合真实陶瓷涂层数据分布的样本来扩充数据集;其次利用卷积神经网络VGG16对陶瓷涂层的显微结构图像数据进行特征提取,利用TabNet对结构化数据进行特征提取,将提取到的图像数据特征与结构化数据特征融合;最终根据多模态数据表征建立基于K-最近邻(K-nearest neighbor,KNN)、支持向量机回归(support vector regression,SVR)和多层感知机(multi-layer perceptron,MLP)3种机器学习算法的预测模型,对陶瓷涂层的性能指标,即热膨胀系数和热导率进行了预测.实验结果表明:提出的多模态数据表征学习模型的预测结果要优于单模态数据表征学习模型,其中基于MLP算法训练的多模态数据表征学习模型对陶瓷涂层性能的预测效果最好;在测试集中,对陶瓷涂层热膨胀系数预测的平均绝对误差(mean absolute error,MAE)和均方误差(mean square error,MSE)分别为0.0266和0.0017,对热导率预测的MAE和MSE分别为0.0179和0.0007.所提出的陶瓷涂层材料多模态数据表征学习方法有效融合了结构化数据与非结构化数据,联合学习了各模态数据的潜在共享信息,成功提升了对陶瓷涂料层材料性能预测的准确度. 展开更多
关键词 陶瓷涂层 高斯混合模型 多模态数据表征 机器学习算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部