期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
双模态跨语料库语音情感识别
1
作者 刘云翔 张可欣 《应用技术学报》 2024年第1期77-84,共8页
语音情感识别(SER)在双模态的跨数据库语音情感识别研究较少,跨数据库情感识别过度减少数据集之间差异的同时,会忽视情感判别能力的特征的问题。YouTube数据集为源数据,互动情感二元动作捕捉数据库(IEMOCAP)为目标数据。在源数据和目标... 语音情感识别(SER)在双模态的跨数据库语音情感识别研究较少,跨数据库情感识别过度减少数据集之间差异的同时,会忽视情感判别能力的特征的问题。YouTube数据集为源数据,互动情感二元动作捕捉数据库(IEMOCAP)为目标数据。在源数据和目标数据中,Opensmile工具箱用来提取语音特征,将提取的语音特征输入到CNN和双向长短期记忆网络(BLSTM),来提取更高层次的特征,文本模态为语音信号的翻译稿。首先双向编码器表示转换器(Bert)把文本信息向量化,BLSTM提取文本特征,然后设计模态不变损失来形成2种模态的公共表示空间。为了解决跨语料库的SER问题,通过联合优化线性判别分析(LDA)、最大平均差异(MMD)、图嵌入(GE)和标签回归(LSR),学习源数据和目标数据的公共子空间。为了保留情绪辨别特征,情感判别损失与MMD+GE+LDA+LSR相结合。SVM分类器作为迁移公共子空间的最终情感分类,IEMOCAP上的实验结果表明,此方法优于其他先进的跨语料库和双模态SER. 展开更多
关键词 跨语料库 情感识别 双模态语音情感识别 迁移子空间学习 循环神经网络
下载PDF
基于图卷积深浅特征融合的跨语料库情感识别 被引量:1
2
作者 杨子秀 金赟 +3 位作者 马勇 戴妍妍 俞佳佳 顾煜 《数据采集与处理》 CSCD 北大核心 2023年第1期111-120,共10页
语音情感识别任务的训练数据和测试数据往往来源于不同的数据库,二者特征空间存在明显差异,导致识别率很低。针对该问题,本文提出新的构图方法表示源和目标数据库之间的拓扑结构,利用图卷积神经网络进行跨语料库的情感识别。针对单一情... 语音情感识别任务的训练数据和测试数据往往来源于不同的数据库,二者特征空间存在明显差异,导致识别率很低。针对该问题,本文提出新的构图方法表示源和目标数据库之间的拓扑结构,利用图卷积神经网络进行跨语料库的情感识别。针对单一情感特征识别率不高的问题,提出一种新的特征融合方法。首先利用OpenSMILE提取浅层声学特征,然后利用图卷积神经网络提取深层特征。随着卷积层的不断深入,节点的特征信息被传递给其他节点,使得深层特征包含更明确的节点特征信息和更详细的语义信息,然后将浅层特征和深层特征进行特征融合。采用两组实验进行验证,第1组用eNTERFACE库训练测试Berlin库,识别率为59.4%;第2组用Berlin库训练测试eNTERFACE库,识别率为36.1%。实验结果高于基线系统和文献中最优的研究成果,证明本文提出方法的有效性。 展开更多
关键词 图卷积神经网络 跨语料库 语音情感识别 构图 深层和浅层特征融合
下载PDF
跨语言语料库的语音情感识别对比研究 被引量:3
3
作者 钟琪 冯亚琴 王蔚 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第5期765-773,共9页
情感感知具有普遍性和差异性,不同语言表达的情感有不同的情感特征,但也存在相似的情感特征.选择IEMOCAP 英语情感数据库、CASIA 汉语情感数据库、EMO?BD 德语情感数据库,以中性、生气、快乐、悲伤四种情感为研究对象,了解在单语言语料... 情感感知具有普遍性和差异性,不同语言表达的情感有不同的情感特征,但也存在相似的情感特征.选择IEMOCAP 英语情感数据库、CASIA 汉语情感数据库、EMO?BD 德语情感数据库,以中性、生气、快乐、悲伤四种情感为研究对象,了解在单语言语料库、混合语言语料库、跨语料库的语音情感识别情况.使用支持向量机(SupportVector Machine,SVM)、卷积神经网络(Convolutional Neural Networks,CNN)和长短时记忆网络(Long?Short TermMemory,LSTM)为分类器进行训练,对情感进行识别.从实验结果可以看出,不同语料库的语音情感的识别模式存在相似性,也存在相似的语言情感特性.还发现英文的中性情感和中文的悲伤情感具有良好的模型泛化性,英文的悲伤情感和中文的中性情感有较好的适应性. 展开更多
关键词 跨语料库 语音情感 深度学习 分类器 迁移学习
下载PDF
Multi-scale discrepancy adversarial network for cross-corpus speech emotion recognition 被引量:2
4
作者 Wanlu ZHENG Wenming ZHENG Yuan ZONG 《Virtual Reality & Intelligent Hardware》 2021年第1期65-75,共11页
Background One of the most critical issues in human-computer interaction applications is recognizing human emotions based on speech.In recent years,the challenging problem of cross-corpus speech emotion recognition(SE... Background One of the most critical issues in human-computer interaction applications is recognizing human emotions based on speech.In recent years,the challenging problem of cross-corpus speech emotion recognition(SER)has generated extensive research.Nevertheless,the domain discrepancy between training data and testing data remains a major challenge to achieving improved system performance.Methods This paper introduces a novel multi-scale discrepancy adversarial(MSDA)network for conducting multiple timescales domain adaptation for cross-corpus SER,i.e.,integrating domain discriminators of hierarchical levels into the emotion recognition framework to mitigate the gap between the source and target domains.Specifically,we extract two kinds of speech features,i.e.,handcraft features and deep features,from three timescales of global,local,and hybrid levels.In each timescale,the domain discriminator and the feature extrator compete against each other to learn features that minimize the discrepancy between the two domains by fooling the discriminator.Results Extensive experiments on cross-corpus and cross-language SER were conducted on a combination dataset that combines one Chinese dataset and two English datasets commonly used in SER.The MSDA is affected by the strong discriminate power provided by the adversarial process,where three discriminators are working in tandem with an emotion classifier.Accordingly,the MSDA achieves the best performance over all other baseline methods.Conclusions The proposed architecture was tested on a combination of one Chinese and two English datasets.The experimental results demonstrate the superiority of our powerful discriminative model for solving cross-corpus SER. 展开更多
关键词 Human-computer interaction cross-corpus speech emotion recognition Hierarchical discri minators Domain adaptation
下载PDF
跨库语音情感识别研究进展
5
作者 张石清 刘瑞欣 赵小明 《计算机系统应用》 2022年第11期31-48,共18页
语音情感识别在人机交互过程中发挥极为重要的作用,近年来备受关注.目前,大多数的语音情感识别方法主要在单一情感数据库上进行训练和测试.然而,在实际应用中训练集和测试集可能来自不同的情感数据库.由于这种不同情感数据库的分布存在... 语音情感识别在人机交互过程中发挥极为重要的作用,近年来备受关注.目前,大多数的语音情感识别方法主要在单一情感数据库上进行训练和测试.然而,在实际应用中训练集和测试集可能来自不同的情感数据库.由于这种不同情感数据库的分布存在巨大差异性,导致大多数的语音情感识别方法取得的跨库识别性能不尽人意.为此,近年来不少研究者开始聚焦跨库语音情感识别方法的研究.本文系统性综述了近年来跨库语音情感识别方法的研究现状与进展,尤其对新发展起来的深度学习技术在跨库语音情感识别中的应用进行了重点分析与归纳.首先,介绍了语音情感识别中常用的情感数据库,然后结合深度学习技术,从监督、无监督和半监督学习角度出发,总结和比较了现有基于手工特征和深度特征的跨库语音情感识别方法的研究进展情况,最后对当前跨库语音情感识别领域存在的挑战和机遇进行了讨论与展望. 展开更多
关键词 语音情感识别 跨库 深度学习 手工特征 深度特征 语音情感
下载PDF
Auditory attention model based on Chirplet for cross-corpus speech emotion recognition 被引量:1
6
作者 张昕然 宋鹏 +2 位作者 查诚 陶华伟 赵力 《Journal of Southeast University(English Edition)》 EI CAS 2016年第4期402-407,共6页
To solve the problem of mismatching features in an experimental database, which is a key technique in the field of cross-corpus speech emotion recognition, an auditory attention model based on Chirplet is proposed for... To solve the problem of mismatching features in an experimental database, which is a key technique in the field of cross-corpus speech emotion recognition, an auditory attention model based on Chirplet is proposed for feature extraction.First, in order to extract the spectra features, the auditory attention model is employed for variational emotion features detection. Then, the selective attention mechanism model is proposed to extract the salient gist features which showtheir relation to the expected performance in cross-corpus testing.Furthermore, the Chirplet time-frequency atoms are introduced to the model. By forming a complete atom database, the Chirplet can improve the spectrum feature extraction including the amount of information. Samples from multiple databases have the characteristics of multiple components. Hereby, the Chirplet expands the scale of the feature vector in the timefrequency domain. Experimental results show that, compared to the traditional feature model, the proposed feature extraction approach with the prototypical classifier has significant improvement in cross-corpus speech recognition. In addition, the proposed method has better robustness to the inconsistent sources of the training set and the testing set. 展开更多
关键词 speech emotion recognition selective attention mechanism spectrogram feature cross-corpus
下载PDF
听觉注意模型的语谱图语音情感识别方法 被引量:1
7
作者 张昕然 查诚 +2 位作者 宋鹏 陶华伟 赵力 《信号处理》 CSCD 北大核心 2016年第9期1117-1125,共9页
在语音情感识别技术中,由于噪声环境、说话方式和说话人特质原因,造成特征向量空间分布不匹配的情况。从语音学上分析,该问题多存在于跨数据库情感识别实验。训练的声学模型和用于测试的语句样本之间的错位,会使语音情感识别性能剧烈下... 在语音情感识别技术中,由于噪声环境、说话方式和说话人特质原因,造成特征向量空间分布不匹配的情况。从语音学上分析,该问题多存在于跨数据库情感识别实验。训练的声学模型和用于测试的语句样本之间的错位,会使语音情感识别性能剧烈下降。语谱图的特征能从图像的角度对现有情感特征进行有效的补充。本文据此所研究的听觉选择性注意模型,模拟人耳听觉特性,能有效探测语谱图上变化的情感特征。同时,利用时频原子对模型进行改进,取得频率特性信号匹配的优势,从时域上提取情感信息。选择注意机制使模型能提取跨语音数据库中的显著性特征,提高语音情感识别系统的情感辨识能力。实验结果表明,利用文章所提方法在跨库情感样本上进行特征提取,再通过典型的分类器,识别性能提高了约9个百分点,从而验证了该方法对不同数据库具有更好的鲁棒性。 展开更多
关键词 语音情感识别 跨数据库 语谱图特征 听觉注意机制 时频原子
下载PDF
用于跨库语音情感识别的DBN特征融合方法 被引量:11
8
作者 张昕然 巨晓正 +2 位作者 宋鹏 查诚 赵力 《信号处理》 CSCD 北大核心 2017年第5期649-660,共12页
跨数据库语音情感识别中,将不同尺度上提取的情感特征进行融合是目前的技术难点。本文利用深度学习领域的深度信念模型,提出了基于深度信念网络的特征层融合方法。将语音频谱图中隐含的情感信息作为图像特征,与传统情感特征融合。研究... 跨数据库语音情感识别中,将不同尺度上提取的情感特征进行融合是目前的技术难点。本文利用深度学习领域的深度信念模型,提出了基于深度信念网络的特征层融合方法。将语音频谱图中隐含的情感信息作为图像特征,与传统情感特征融合。研究解决了跨数据库语音情感识别中,将不同尺度上提取的情感特征进行融合的技术难点。利用STB/Itti模型对语谱图进行分析,从颜色、亮度、方向三个角度出发,提取了新的语谱图特征;然后研究改进的DBN网络模型并对传统声学特征与新提取的语谱图特征进行了特征层融合,增强了特征子集的尺度,提升了情感表征能力。通过在ABC数据库和多个中文数据库上的实验验证,特征融合后的新特征子集相比传统的语音情感特征,其跨数据库识别结果获得了明显提升。 展开更多
关键词 跨库情感识别 深信度网络 语谱图 选择注意机制
下载PDF
基于决策边界优化域自适应的跨库语音情感识别 被引量:3
9
作者 汪洋 傅洪亮 +3 位作者 陶华伟 杨静 谢跃 赵力 《计算机应用》 CSCD 北大核心 2023年第2期374-379,共6页
域自适应算法被广泛应用于跨库语音情感识别中;然而,许多域自适应算法在追求减小域差异的同时,丧失了目标域样本的鉴别性,导致其以高密度的形式存在于模型决策边界处,降低了模型的性能。基于此,提出一种基于决策边界优化域自适应(DBODA... 域自适应算法被广泛应用于跨库语音情感识别中;然而,许多域自适应算法在追求减小域差异的同时,丧失了目标域样本的鉴别性,导致其以高密度的形式存在于模型决策边界处,降低了模型的性能。基于此,提出一种基于决策边界优化域自适应(DBODA)的跨库语音情感识别方法。首先利用卷积神经网络进行特征处理,随后将特征送入最大化核范数及均值差异(MNMD)模块,在减小域间差异的同时,最大化目标域情感预测概率矩阵的核范数,从而提升目标域样本的鉴别性并优化决策边界。在以Berlin、eNTERFACE和CASIA语音库为基准库设立的六组跨库实验中,所提方法的平均识别精度领先于其他算法1.68~11.01个百分点,说明所提模型有效降低了决策边界的样本密度,提升了预测的准确性。 展开更多
关键词 跨库语音情感识别 卷积神经网络 决策边界优化 域自适应 特征分布差异
下载PDF
解耦知识蒸馏优化的域自适应跨库情感识别
10
作者 高翔 白静 +2 位作者 薛珮芸 董浙南 强彦 《现代电子技术》 北大核心 2024年第17期173-180,共8页
减小域间差异和加强特征情感表达是解决跨库语音情感识别任务的两个主要问题,但少有研究同时考虑到上述问题,为此,提出一种基于解耦知识蒸馏策略优化的域自适应跨库语音情感识别算法。在域自适应算法中引入解耦知识蒸馏(DKD)策略,提高... 减小域间差异和加强特征情感表达是解决跨库语音情感识别任务的两个主要问题,但少有研究同时考虑到上述问题,为此,提出一种基于解耦知识蒸馏策略优化的域自适应跨库语音情感识别算法。在域自适应算法中引入解耦知识蒸馏(DKD)策略,提高特征提取器获取具有显著情感信息的域不变特征的能力;并提出一个时频域自校正卷积神经网络(TFSC-CNN),融合不同感受域的特征细节,丰富特征中的情感信息,作为教师模型,指导特征提取器的训练过程;最后,使用优化后的特征提取器进行对抗训练,减小特征的域间差异,提升模型的泛化能力。所提方法在CASIA、EmoDB和RAVDESS数据集上进行了6组不同的跨库语音情感识别任务,在UAR和WAR两个评价指标上分别取得了49.74%和50.62%的识别结果;同时,通过消融实验进一步验证了不同改进模块的有效性。文中方法为跨库情感识别提供了一种新思路。 展开更多
关键词 跨库语音情感识别 时频域自校正模块 解耦知识蒸馏 域自适应 对抗训练 域不变特征
下载PDF
基于深度域适应CNN决策树的跨语料库情感识别 被引量:2
11
作者 孙林慧 赵敏 王舜 《数据采集与处理》 CSCD 北大核心 2023年第3期704-716,共13页
在跨语料库语音情感识别中,由于目标域和源域样本不匹配,导致情感识别性能很差。为了提高跨语料库语音情感识别性能,本文提出一种基于深度域适应和卷积神经网络(Convolutional neural network,CNN)决策树模型的跨语料库语音情感识别方... 在跨语料库语音情感识别中,由于目标域和源域样本不匹配,导致情感识别性能很差。为了提高跨语料库语音情感识别性能,本文提出一种基于深度域适应和卷积神经网络(Convolutional neural network,CNN)决策树模型的跨语料库语音情感识别方法。首先构建基于联合约束深度域适应的局部特征迁移学习网络,通过最小化目标域和源域在特征空间和希尔伯特空间的联合差异,挖掘两个语料库之间的相关性,学习从目标域到源域的可迁移不变特征。然后,为了降低跨语料库背景下多种情感间的易混淆情感的分类误差,依据情感混淆度构建CNN决策树多级分类模型,对多种情感先粗分类再细分类。使用CASIA,EMO-DB和RAVDESS三个语料库进行验证。实验结果表明,本文的跨语料库语音情感识别方法比CNN基线方法平均识别率高19.32%~31.08%,系统性能得到很大提升。 展开更多
关键词 跨语料库语音情感识别 深度域适应 迁移学习 决策树模型 卷积神经网络
下载PDF
基于深度自编码器子域自适应的跨库语音情感识别 被引量:6
12
作者 庄志豪 傅洪亮 +3 位作者 陶华伟 杨静 谢跃 赵力 《计算机应用研究》 CSCD 北大核心 2021年第11期3279-3282,3348,共5页
针对不同语料库之间数据分布差异问题,提出一种基于深度自编码器子域自适应的跨库语音情感识别算法。首先,该算法采用两个深度自编码器分别获取源域和目标域表征性强的低维情感特征;然后,利用基于LMMD(local maximum mean discrepancy)... 针对不同语料库之间数据分布差异问题,提出一种基于深度自编码器子域自适应的跨库语音情感识别算法。首先,该算法采用两个深度自编码器分别获取源域和目标域表征性强的低维情感特征;然后,利用基于LMMD(local maximum mean discrepancy)的子域自适应模块,实现源域和目标域在不同低维情感类别空间中的特征分布对齐;最后,使用带标签的源域数据进行有监督地训练该模型。在eNTERFACE库为源域、Berlin库为目标域的跨库识别方案中,所提算法的跨库识别准确率相比于其他算法提升了5.26%~19.73%;在Berlin库为源域、eNTERFACE库为目标域的跨库识别方案中,所提算法的跨库识别准确率相比于其他算法提升了7.34%~8.18%。因此,所提方法可以有效地提取不同语料库的共有情感特征并提升了跨库语音情感识别的性能。 展开更多
关键词 跨库语音情感识别 深度自编码器 子域自适应 监督学习
下载PDF
基于跨语言语料的汉泰词分布表示 被引量:2
13
作者 张金鹏 周兰江 +2 位作者 线岩团 余正涛 何思兰 《计算机工程与科学》 CSCD 北大核心 2015年第12期2358-2365,共8页
词汇的表示问题是自然语言处理的基础研究内容。目前单语词汇分布表示已经在一些自然语言处理问题上取得很好的应用效果,然而在跨语言词汇的分布表示上国内外研究很少,针对这个问题,利用两种语言名词、动词分布的相似性,通过弱监督学习... 词汇的表示问题是自然语言处理的基础研究内容。目前单语词汇分布表示已经在一些自然语言处理问题上取得很好的应用效果,然而在跨语言词汇的分布表示上国内外研究很少,针对这个问题,利用两种语言名词、动词分布的相似性,通过弱监督学习扩展等方式在中文语料中嵌入泰语的互译词、同类词、上义词等,学习出泰语词在汉泰跨语言环境下的分布。实验基于学习到的跨语言词汇分布表示应用于双语文本相似度计算和汉泰混合语料集文本分类,均取得较好效果。 展开更多
关键词 弱监督学习扩展 跨语言语料 跨语言词汇分布表示 神经概率语言模型
下载PDF
藏汉跨语言文本剽窃检测数据集
14
作者 鲍薇 董建 +2 位作者 徐洋 申影利 戚肖克 《中国科学数据(中英文网络版)》 CSCD 2022年第2期46-54,共9页
本研究从少数民族语言信息处理的实际需要出发,针对藏汉跨语言文本剽窃检测缺少语料问题,基于SemEval 2014年英语评测语料,使用数据增强方法,建立了包含15万句对的藏汉跨语言文本剽窃检测语料库。本数据集为藏汉跨语言文本剽窃检测研究... 本研究从少数民族语言信息处理的实际需要出发,针对藏汉跨语言文本剽窃检测缺少语料问题,基于SemEval 2014年英语评测语料,使用数据增强方法,建立了包含15万句对的藏汉跨语言文本剽窃检测语料库。本数据集为藏汉跨语言文本剽窃检测研究提供数据基础,也可用于藏汉语义计算等其他自然语言处理任务中。此外,数据集建立过程中的数据增强方法,为其他低资源语言自然语言处理任务语料缺少问题提供了解决思路。 展开更多
关键词 文本剽窃检测 藏汉跨语言 跨语言语料库 低资源
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部