-
题名基于文本和声学特征的双模态融合抑郁倾向识别算法
- 1
-
-
作者
赵健
崔骞
石佳
刘岳
-
机构
西北大学信息科学与技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第11期49-58,共10页
-
基金
陕西省国际科技合作计划项目(2021KWZ-07)。
-
文摘
在抑郁症诊断中,抑郁症患者的面部表情、声音信号和文字等数据可以作为评估抑郁倾向的客观指标。相较于视频,文本和音频模态在处理敏感的个人信息时能更好地保护患者的隐私,并且文本和音频均属于语言模态,相关性较强。针对抑郁倾向识别中变长文本数据不易被分析以及手动提取音频特征存在局限性的问题,提出一种基于Transformer的融合网络优化方法。对于文本模态,使用卷积神经网络对文本进行特征提取,得到文本在不同尺度下的局部特征,然后引入Transformer模型来处理全局信息和长距离依赖。对于音频模态,为了降低手动提取音频特征对识别结果的影响,通过使用VGGish网络来自动提取音频特征,并将提取好的音频特征送入Transformer中。最后,为进一步增强文本和音频模态融合网络的识别性能,引入SE通道注意力机制,使模型能够自适应地调整各模态之间的权重分配,更有效地聚焦于关键特征。实验结果表明,双模态融合后的网络准确率达到92.7%,相比仅使用文本或音频模态,准确率分别提升2.9和4.9个百分点。
-
关键词
Transformer模型
vggish网络
双模态融合
抑郁倾向识别
SE通道注意力机制
深度学习
-
Keywords
Transformer model
vggish network
bimodal fusion
depressive tendency recognition
SE channel attention mechanism
deep learning
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于VGGish网络的音频信息情感智能识别算法
被引量:2
- 2
-
-
作者
张志超
李晓燕
-
机构
延安大学鲁迅艺术学院
延安大学数学与计算机科学学院
-
出处
《电子设计工程》
2022年第4期26-30,共5页
-
基金
2020年度陕西省教育厅科学研究计划项目(20JK0982)。
-
文摘
针对目前对于音频信息情感的研究较少以及对音频情感进行智能分析识别缺乏成熟技术的问题,文中提出了一种基于VGGish网络的音频信息情感智能识别算法。该算法通过VGGish网络提取音频信息的特征,利用降维可视化的方法不断调整不同情感音乐数据集分布,通过SVM和LSTM模型实现了音乐情感分类。算法测试结果表明,两种分类模型均能够对音频信息情感进行准确有效地分类,尤其是LSTM模型对于音频信息情感分类的平均准确率可达90.12%。
-
关键词
vggish网络
卷积核
数据标注
数据转换
可视化
音频信息
-
Keywords
vggish network
convolution kernel
data annotation
data conversion
visualization
audio information
-
分类号
TN971
[电子电信—信号与信息处理]
TP391
[电子电信—信息与通信工程]
-