期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于文本和声学特征的双模态融合抑郁倾向识别算法
1
作者 赵健 崔骞 +1 位作者 石佳 刘岳 《计算机工程》 CAS CSCD 北大核心 2024年第11期49-58,共10页
在抑郁症诊断中,抑郁症患者的面部表情、声音信号和文字等数据可以作为评估抑郁倾向的客观指标。相较于视频,文本和音频模态在处理敏感的个人信息时能更好地保护患者的隐私,并且文本和音频均属于语言模态,相关性较强。针对抑郁倾向识别... 在抑郁症诊断中,抑郁症患者的面部表情、声音信号和文字等数据可以作为评估抑郁倾向的客观指标。相较于视频,文本和音频模态在处理敏感的个人信息时能更好地保护患者的隐私,并且文本和音频均属于语言模态,相关性较强。针对抑郁倾向识别中变长文本数据不易被分析以及手动提取音频特征存在局限性的问题,提出一种基于Transformer的融合网络优化方法。对于文本模态,使用卷积神经网络对文本进行特征提取,得到文本在不同尺度下的局部特征,然后引入Transformer模型来处理全局信息和长距离依赖。对于音频模态,为了降低手动提取音频特征对识别结果的影响,通过使用VGGish网络来自动提取音频特征,并将提取好的音频特征送入Transformer中。最后,为进一步增强文本和音频模态融合网络的识别性能,引入SE通道注意力机制,使模型能够自适应地调整各模态之间的权重分配,更有效地聚焦于关键特征。实验结果表明,双模态融合后的网络准确率达到92.7%,相比仅使用文本或音频模态,准确率分别提升2.9和4.9个百分点。 展开更多
关键词 Transformer模型 vggish网络 双模态融合 抑郁倾向识别 SE通道注意力机制 深度学习
下载PDF
基于VGGish网络的音频信息情感智能识别算法 被引量:2
2
作者 张志超 李晓燕 《电子设计工程》 2022年第4期26-30,共5页
针对目前对于音频信息情感的研究较少以及对音频情感进行智能分析识别缺乏成熟技术的问题,文中提出了一种基于VGGish网络的音频信息情感智能识别算法。该算法通过VGGish网络提取音频信息的特征,利用降维可视化的方法不断调整不同情感音... 针对目前对于音频信息情感的研究较少以及对音频情感进行智能分析识别缺乏成熟技术的问题,文中提出了一种基于VGGish网络的音频信息情感智能识别算法。该算法通过VGGish网络提取音频信息的特征,利用降维可视化的方法不断调整不同情感音乐数据集分布,通过SVM和LSTM模型实现了音乐情感分类。算法测试结果表明,两种分类模型均能够对音频信息情感进行准确有效地分类,尤其是LSTM模型对于音频信息情感分类的平均准确率可达90.12%。 展开更多
关键词 vggish网络 卷积核 数据标注 数据转换 可视化 音频信息
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部