-
题名基于卷积神经网络的藏语语音情感识别
被引量:2
- 1
-
-
作者
王希
王君堡
边巴旺堆
-
机构
西藏大学信息科学技术学院
西藏大学信息技术学院国家级实验教学示范中心
-
出处
《信息技术与信息化》
2022年第11期202-206,共5页
-
基金
西藏自治区高原通信科研创新团队(No.XZ2017ZR G-10)
西藏大学研究生高水平人才培养计划项目(2020-GSP-S168)。
-
文摘
语音情感识别(speech emotion recognition,SER)是人机交互中的热点研究技术,但基于藏语的SER研究少有学者涉足。在构建了一个五千条藏语拉萨方言的语音情感语料库TSEC5000的基础上,将卷积神经网络(convolutional neural network,CNN)用于实现藏语语音情感的识别,并通过改变CNN的层数来改进说话人相关、说话人无关的SER性能。实验结果表明,对于藏语说话人相关的SER在4层卷积网络上获得89%的识别率,基于TSEC5000说话人无关SER在5层网络上获得最好的识别率为76%。
-
关键词
藏语语音情感识别
语音情感语料库
卷积神经网络
-
分类号
H214
[语言文字—少数民族语言]
TN912.34
[电子电信—通信与信息系统]
TP183
[电子电信—信息与通信工程]
-
-
题名基于双向GRU模型的藏语语音情感识别
被引量:1
- 2
-
-
作者
蔡优新
边巴旺堆
-
机构
西藏大学信息科学技术学院
-
出处
《信息技术与信息化》
2023年第10期209-213,共5页
-
文摘
语音情感识别(speech emotion recognition,SER)是人机交互的重要组成部分,具有着非常广泛的研究和应用价值,可是在藏语语音情感识别领域的研究成果却不多。为了研究藏语SER领域,在构建了一个有着六千条拉萨话方言的藏语情感语音数据库TSED基础上,提出一种以MFCC特征和谱对比度特征相结合的双向GRU情感识别模型,通过对比不同实验的识别效果,用于判断模型的可行性。最后的实验结果表明,所提出的模型在藏语语音情感识别中可以达到87.22%的识别效果。
-
关键词
藏语语音情感识别
门控循环单元
Mel频谱图
梅尔倒频谱系数
多特征融合
-
分类号
TN912.3
[电子电信—通信与信息系统]
H214
[电子电信—信息与通信工程]
-