基于Kaldi的普米语语音识别被引量：12

Primi Speech Recognition Based on Kaldi

下载PDF

导出

摘要为提高普米语语音识别系统的性能,引入深度学习模型进行普米语语音识别,该模型是一个高容量复杂的网络模型。以Kaldi语音识别工具包为实验平台,分别训练5种不同的声学模型,且这5种模型中包含一个有4隐层的深度神经网络模型。比较不同声学模型得到的语音识别率发现,G-DNN模型比Monophone模型的语音识别率平均提升49.8%。实验结果表明,当增加训练集的普米语语音语料量时,基于深度学习的普米语语音识别率会提升,而基于深度学习的普米语语音识别系统的鲁棒性比其余4个声学模型的普米语语音识别系统的鲁棒性更强。 In order to improve the performance of Primi speech recognition system, the deep learning model is introduced into Primi speech recognition. The deep learning model is a large capacity and complex network model. Kaldi speech recognition toolkit is used as an experimental platform and five different acoustic models are respectively trained which contain a deep neural network model with four hidden layers. By comparing the speech recognition rates obtained by different acoustic models,it is found that the G-DNN model improves the accuracy of speech recognition by 49.8% than the Monophone model. Experimental results show that the Primi speech recognition rate based on the deep learning model can be improved, when the number of Primi speech corpus in the training set is increased. And the robustness of the Primi speech recognition system based on deep learning is stronger than the other four acoustic models.

作者胡文君傅美君潘文林

机构地区云南民族大学数学与计算机科学学院

出处《计算机工程》 CAS CSCD 北大核心 2018年第1期199-205,共7页 Computer Engineering

基金国家科技支撑计划项目(2013BAJ07B02-1) 云南省教育厅科学研究基金(2016YJS078) 云南省高校物联网应用技术重点实验室开放研究课题(2015IOT02)

关键词普米语深度学习 Kaldi语音识别工具包语音识别鲁棒性 Primi deep learning Kaldi speech recognition toolkit speech recognition robustness

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献9

1陆惠云.云南省七个“特少”民族语言使用状况调查[J].玉溪师范学院学报,2014,30(1):45-59. 被引量：3
2解鲁云.国内普米族研究综述[J].云南民族学院学报（哲学社会科学版）,2003,20(1):75-78. 被引量：8
3李余芳,苏洁,胡文君,潘文林.基于HTK的普米语孤立词的语音识别[J].云南民族大学学报（自然科学版）,2015,24(5):426-430. 被引量：11
4郭琳,苏洁,李余芳,刘敬凤,胡文君,潘文林.一种人机交互语音切分系统[J].云南民族大学学报（自然科学版）,2016,25(1):87-91. 被引量：4
5苏洁,李余芳,郭琳,刘敬凤,潘文林.HTK参数对普米语孤立词识别率的影响[J].云南民族大学学报（自然科学版）,2015,24(6):510-513. 被引量：4
6科大讯飞.探索语音识别技术的前世今生[J].科技导报,2016,34(9):76-77. 被引量：10
7袁胜龙,郭武,戴礼荣.基于深层神经网络的藏语识别[J].模式识别与人工智能,2015,28(3):209-213. 被引量：14
8其米克.巴特西,黄浩,王羡慧.基于深度神经网络的维吾尔语语音识别[J].计算机工程与设计,2015,36(8):2239-2244. 被引量：13
9陆绍尊编著..普米语简志[M].北京:民族出版社,1983:130.

二级参考文献43

1陆绍尊.普米语概况[J].民族语文,1980(4):58-73. 被引量：5
2CharlesA.Ferguson,李自修.双言现象[J].当代语言学,1983(3):10-17. 被引量：8
3Dahl G E, Yu D, Deng L, et al. Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition.IEEE Trans on Audio, Speech, and Language Processing, 2012, 20 ( 1 ) : 30-42. 被引量：1
4Hinton G E, Osindero S, Teh Y W. A Fast Learning Algorithm for Deep Belief Nets. Neural Computation, 2006, 18(7) : 1527-1554. 被引量：1
5Beulen K, Ney H. Automatic Question Generation for Decision Tree Based State Tying//Proc of the IEEE International Conference on Acoustics, Speech and Signal Processing. Seattle, USA, 1998, II: 805 -805. 被引量：1
6Singh R, Raj B, Stern R M. Automatic Clustering and Generation of Contextual Questions for Tied States in Hidden Markov Models // Proc of the IEEE International Conference on Acoustics, Speech and Signal Processing. Phoenix, USA, 1999, I: 117-120. 被引量：1
7Huang J T, Li J Y, Yu D, et al. Cross-Language Knowledge Trans- fer Using Muhilingual Deep Neural Network with Shared Hidden Layers//Proc of the IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada, 2013 : 7304- 7308. 被引量：1
8Carteira-Perpinan M A, Hinton G E. On Contrastive Divergence Learning. [ EB/OL ]. [ 2013 - 02 - 15 ]. www. doein, com/p - 33657so63. html. 被引量：1
9Mohamed A, Dahl G E, Hinton G. Acoustic Modeling Using Deep Belief Networks. IEEE Trans on Audio, Speech, and Language Processing, 2012, 20( 1 ) : 14-22. 被引量：1
10Erhan D, Bengio Y, Courville A, et al. Why Does Unsupervised Pre-training Help Deep Learning? Journal of Machine Learning Research. 2010, 11:625-660. 被引量：1

共引文献53

1康平德,徐中志,陈翠,徐福荣,汤王外,张恩来,阿新详,杨少华.云南普米族地区农业植物资源调查[J].西南农业学报,2011,24(1):356-362. 被引量：12
2杨少华,康平德,郭承刚,陈翠,徐福荣,汤王外,徐中志.云南普米族主要居住地调查及其农业资源分析[J].中国农学通报,2011,27(17):103-110. 被引量：1
3杨少华,康平德,郭承刚,陈翠,徐福荣,汤王外,徐中志.Investigation and Analysis on Agricultural Resources in the Main Living Areas of Pumi Nationality in Yunnan Province[J].Agricultural Science & Technology,2011,12(11):1691-1698. 被引量：1
4李余芳,苏洁,胡文君,潘文林.基于HTK的普米语孤立词的语音识别[J].云南民族大学学报（自然科学版）,2015,24(5):426-430. 被引量：11
5苏洁,李余芳,郭琳,刘敬凤,潘文林.HTK参数对普米语孤立词识别率的影响[J].云南民族大学学报（自然科学版）,2015,24(6):510-513. 被引量：4
6郭琳,苏洁,李余芳,刘敬凤,胡文君,潘文林.一种人机交互语音切分系统[J].云南民族大学学报（自然科学版）,2016,25(1):87-91. 被引量：4
7黄威,石佳影.基于深度神经网络的语音识别研究[J].现代计算机,2016,22(5):20-25. 被引量：4
8陈斌,胡平舸,屈丹.子空间域相关特征变换与融合的语音识别方法[J].西安交通大学学报,2016,50(4):60-67. 被引量：4
9黄成龙.2015年羌语支语言研究前沿[J].阿坝师范学院学报,2016,33(1):5-9. 被引量：2
10张圣,郭武.采用通用语音属性建模的说话人确认[J].小型微型计算机系统,2016,37(11):2577-2581. 被引量：2

同被引文献85

1鲍怀翘,周植志.佤语浊送气声学特征分析[J].民族语文,1990(2):62-70. 被引量：10
2菅志刚,金旭.数据挖掘中数据预处理的研究与实现[J].计算机应用研究,2004,21(7):117-118. 被引量：56
3薛明东,郭立.基于SVM算法的图像分类[J].计算机工程与应用,2004,40(30):230-232. 被引量：13
4赵岩社.佤语音节的配合规律[J].云南民族大学学报（哲学社会科学版）,2005,22(3):151-154. 被引量：3
5潘凌云,孙达传,吴美朝.语音识别中基于语谱图的语音音素分割方法[J].杭州大学学报（自然科学版）,1995,22(1):42-46. 被引量：7
6王守觉,徐春燕,潘晓霞,安冬,陈旭,曹文明.为连续语音识别用的单词音节神经网络建模的研究[J].电子学报,2005,33(10):1883-1885. 被引量：4
7蔡琴,吾守尔.斯拉木.基于HTK的维吾尔语连续数字语音识别[J].现代计算机,2007,13(4):14-16. 被引量：7
8余建潮,张瑞林.基于MFCC和LPCC的说话人识别[J].计算机工程与设计,2009,30(5):1189-1191. 被引量：47
9杨善茜,黄汉明,蒋正锋,李锐.基于HTK的语音识别网络优化算法[J].计算机工程,2010,36(14):169-171. 被引量：3
10吴灏,肖吉阳,范红旗,付强.TMS320C6678多核DSP的核间通信方法[J].电子技术应用,2012,38(9):11-13. 被引量：27

引证文献12

1杨胜捷,朱灏耘,冯天祥,陈宇.基于Kaldi的语音识别算法[J].电脑知识与技术,2019,15(1Z):163-166. 被引量：6
2刘琼.几种开源英语识别工具包的对比分析[J].计算技术与自动化,2018,37(4):123-127. 被引量：3
3董华珍,潘文林,王翠,和丽华,杨建香,解学琴.基于免疫遗传优化支持向量机的普米语孤立词语谱图分类[J].云南民族大学学报（自然科学版）,2019,28(1):100-104. 被引量：2
4黄成龙.2018年羌语支语言研究前沿[J].阿坝师范学院学报,2019,36(1):5-10. 被引量：1
5王翠,王璐,解雪琴,和丽华,潘文林.基于AlexNet模型的佤语语谱图识别[J].云南民族大学学报（自然科学版）,2019,28(4):377-381. 被引量：2
6丁龙斌,伍忠东,苏佳丽.基于集成深度森林的入侵检测方法[J].计算机工程,2020,46(3):144-150. 被引量：13
7侯俊龙,潘文林,王璐,何翠玲,王翠.基于剪枝AlexNet的普米语孤立词识别[J].云南民族大学学报（自然科学版）,2020,29(4):382-389. 被引量：2
8王凯,马明栋.基于Kaldi的语音识别[J].计算机技术与发展,2021,31(1):13-17. 被引量：4
9董华珍.基于CNN的普米语孤立词语谱图分类[J].西南大学学报（自然科学版）,2021,43(2):160-168. 被引量：5
10陈景达,郭丽霞.基于机载语音识别软件中的分段识别设计[J].电子技术与软件工程,2021(14):50-53.

二级引证文献36

1冯乐乐,王昆,郝冲,赵阳.语音识别技术在智能作业指导书系统中的应用[J].电声技术,2023,47(1):105-109.
2解雪琴,张天军,潘文林,王璐,和丽华,杨建香.基于小波分析与Boll改进谱减法的普米语语音增强算法[J].云南民族大学学报（自然科学版）,2019,28(3):306-312. 被引量：1
3杜刚,朱艳云,张晨,杜雪涛.基于声学模型的不良语音识别技术研究[J].电信工程技术与标准化,2019,32(12):18-22. 被引量：1
4黄成龙.2019年羌语支语言研究前沿[J].阿坝师范学院学报,2020,37(1):5-12. 被引量：1
5侯俊龙,潘文林,王璐,何翠玲,王翠.基于剪枝AlexNet的普米语孤立词识别[J].云南民族大学学报（自然科学版）,2020,29(4):382-389. 被引量：2
6刘菲菲,伍忠东,丁龙斌,张凯.基于改进在线序列极限学习机的AMI入侵检测算法[J].计算机工程,2020,46(9):136-142. 被引量：8
7王欣欣,马发民.一种基于DNN的少儿英语口语评分系统的改进[J].信息技术,2020,44(9):46-50. 被引量：5
8王凯,马明栋.基于Kaldi的语音识别[J].计算机技术与发展,2021,31(1):13-17. 被引量：4
9李世友,阳志伟.智能家电语音红外遥控系统的设计[J].电子测量技术,2020,43(21):34-39. 被引量：5
10郑晓芳,丁龙斌.基于Python的管路弯管坐标转换工具设计[J].科技创新导报,2021,18(8):97-102.

1乌日其其格.蒙古语和蒙古语语音识别系统[J].中国蒙古学（蒙文）,2017,45(6):220-226.
2苏雄生.面向5G网络的超密集组网探讨[J].电信快报（网络与通信）,2017(12):6-8. 被引量：5
3孙卫红,高孔军,刘波.水下航行体声隐身材料的研究[J].青岛科技大学学报（自然科学版）,2017,38(6):67-74. 被引量：1
4九野——梁燕的中国式新设计[J].服装设计师,2018,0(1):36-43.
5王彤,马延周,易绵竹.基于DTW的俄语短指令语音识别[J].山东大学学报（理学版）,2017,52(11):29-36. 被引量：4
6王霞,杜桂明,王光艳,张艳.基于卷积神经网络的面罩语音识别[J].传感器与微系统,2017,36(10):31-34. 被引量：6
7王萍.高职高专非英语专业学生的英语语音特点[J].新校园（上旬刊）,2017,0(12):93-93.
8周磊.110kV变电站主变压器改造的技术经济[J].科技尚品,2017,0(9):230-231.
9李云.清浊音分离抗噪的语音识别算法的研究[J].电子技术与软件工程,2017(24):83-84. 被引量：2
10文仕学,孙磊,杜俊.渐进学习语音增强方法在语音识别中的应用[J].小型微型计算机系统,2018,39(1):1-6. 被引量：5

计算机工程

2018年第1期

浏览历史

内容加载中请稍等...

基于Kaldi的普米语语音识别被引量：12

参考文献9

二级参考文献43

共引文献53

同被引文献85

引证文献12

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于Kaldi的普米语语音识别 被引量：12

参考文献9

二级参考文献43

共引文献53

同被引文献85

引证文献12

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于Kaldi的普米语语音识别被引量：12