-
题名基于卷积神经网络的藏语语音情感识别
被引量:2
- 1
-
-
作者
王希
王君堡
边巴旺堆
-
机构
西藏大学信息科学技术学院
西藏大学信息技术学院国家级实验教学示范中心
-
出处
《信息技术与信息化》
2022年第11期202-206,共5页
-
基金
西藏自治区高原通信科研创新团队(No.XZ2017ZR G-10)
西藏大学研究生高水平人才培养计划项目(2020-GSP-S168)。
-
文摘
语音情感识别(speech emotion recognition,SER)是人机交互中的热点研究技术,但基于藏语的SER研究少有学者涉足。在构建了一个五千条藏语拉萨方言的语音情感语料库TSEC5000的基础上,将卷积神经网络(convolutional neural network,CNN)用于实现藏语语音情感的识别,并通过改变CNN的层数来改进说话人相关、说话人无关的SER性能。实验结果表明,对于藏语说话人相关的SER在4层卷积网络上获得89%的识别率,基于TSEC5000说话人无关SER在5层网络上获得最好的识别率为76%。
-
关键词
藏语语音情感识别
语音情感语料库
卷积神经网络
-
分类号
H214
[语言文字—少数民族语言]
TN912.34
[电子电信—通信与信息系统]
TP183
[电子电信—信息与通信工程]
-
-
题名基于CNN+LSTM的藏语语音去噪算法
被引量:1
- 2
-
-
作者
王君堡
王希
边巴旺堆
-
机构
西藏大学信息科学技术学院
西藏大学信息技术国家级实验教学示范中心
-
出处
《电声技术》
2022年第6期47-53,共7页
-
文摘
本文主要研究藏语语音去噪算法,提出一种基于频谱映射的卷积长短期记忆藏语语音去噪算法。该算法由数据准备模块、特征提取模块、网络模块以及音频还原模块4个模块组成,以纯净的拉萨语语音和加了噪声库NOISE-92六种单一噪声的带噪语音作为数据集,提取带噪语音和纯净语音的对数功率谱特征作为输入对网络进行训练,网络的效果通过可感知语音质量和短时客观可懂度两个指标进行评价。实验结果表明,该算法在非平稳噪声上的去噪效果优于平稳噪声,且信噪比越大其去噪效果越好;在低信噪比下,该算法在非平稳噪声上的表现优于谱减法和最小均方误差法。
-
关键词
藏语去噪
对数功率谱
卷积长短期记忆网络
-
Keywords
Tibetan language denoising
logarithmic power spectrum
convolutional long short-term memory network
-
分类号
TN912.3
[电子电信—通信与信息系统]
-
-
题名藏语语音识别研究进展综述
被引量:3
- 3
-
-
作者
边巴旺堆
王希
王君堡
-
机构
西藏大学信息科学技术学院
信息技术国家级实验教学示范中心
-
出处
《高原科学研究》
CSCD
2022年第4期76-84,共9页
-
基金
西藏自治区高原通信科研创新团队项目(XZJY2018003)。
-
文摘
语音识别研究内容主要包括孤立词识别、连续语音识别、语音情感识别以及语音数据库构建等。文章首先从识别模型、识别率、评价指标等方面对藏语孤立词和连续语音识别研究进行了文献回顾与评述,并对近几年才开始开展的藏语语音情感识别研究现状进行了分析;然后从研究者自用和开放使用两种情况来介绍藏语语音数据库的构建、使用情况;最后分析了目前藏语语音识别研究的主要难点,并对可能的发展方向进行了展望。
-
关键词
藏语
语音数据库
语音识别
语音情感识别
-
Keywords
Tibetan
speech database
speech recognition
speech emotion recognition
-
分类号
TN912.34
[电子电信—通信与信息系统]
-