简化LSTM的语音合成被引量：4

Speech synthesis using simplified LSTM

下载PDF

导出

摘要在增大训练数据的情况下,使用传统的隐马尔科夫模型难以提升参数化语音合成预测质量。长短期记忆神经网络学习序列内的长程特征,在大规模并行数值计算下获得更准确的语音时长和更连贯的频谱模型,但同时也包含了可简化的计算。首先分析双向长短期记忆神经网络功能结构,接着移除遗忘门和输出门,最后对文本音素信息到倒频谱的映射关系建模。在普通话语料库上的对比实验证明,简化双向长短期记忆神经网络计算量减少一半,梅尔倒频率失真度由隐马尔科夫模型的3.466 1降低到1.945 9。 Conventional parametric speech synthesis approach using hidden Markov model can hardly obtain significant improvement when trained with large scale data. As Long Short-Term Memory(LSTM)is designed to take full account of the long-term sequence features, it dynamically produces an output respecting on the input and its internal status, which brings more accuracy and smoothness in sequential prediction. However, its large computation is still tailorable. In this paper, LSTM is simplified by removing the forget gate and output gate, and then models the relationship between syllable and its cepstral on a Chinese speech data set. Both training and prediction time decrease by half while Mel cepstral distortion goes down from HMM's 3.466 1 to 1.945 9.

作者陈宙斯胡文心

机构地区华东师范大学计算中心

出处《计算机工程与应用》 CSCD 北大核心 2018年第3期131-135,共5页 Computer Engineering and Applications

基金国家科技支撑项目(No.2015BAH01F02)

关键词参数化语音合成神经网络长短期记忆神经网络 parametric speech synthesis neural network Long Short-Term Memory(LSTM)

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1李霄寒..基于概率统计模型的说话人确认的研究[D].中国科学技术大学,2003:
2梁军,柴玉梅,原慧斌,高明磊,昝红英.基于极性转移和LSTM递归网络的情感分析[J].中文信息学报,2015,29(5):152-159. 被引量：91
3卫晓欣..基于长短型记忆递归神经网络的英文手写识别[D].华南理工大学,2014:

二级参考文献17

1Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model. The Journal of Ma- chine Learning Research, 2003, 3; 1137-1155. 被引量：1
2Mikolov T, Karaficit M, Burget L, et al. Recurrent neural network based language model[C]//Proceed- ings of the llth Annual Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September 26-30, 2010. 2010. 1045-1048. 被引量：1
3Socher R, Pennington J, Huang E H, et al. Semi-su- pervised recursive autoencoders for predicting senti- ment distributions[C]//Proeeedings of the Conference on Empirical Methods in Natural Language Process- ing. Association for Computational Linguistics, 2011:151-161. 被引量：1
4Hochreiter S, Bengio Y, Frasconi P, et al. Gradient flow in recurrent nets: the difficulty of learning long- term dependencies M. Wiley-IEEE Press, 2001: 237-243. 被引量：1
5Hochreiter S, Schmidhuber J. Long short-term memo- ry. Neural computation, 1997, 9(8): 1735-1780. 被引量：1
6Socher R, Lin C C, Manning C, et al. Parsing natural scenes and natural language with recursive neural net- works[C//Proceedings of the 28th international con- ference on machine learning (ICML-11). 2011 : 129- 136. 被引量：1
7Socher R, Perelygin A, Wu J Y, et al. Recursive deep models for semantic compositionality over a sentiment treebankC//Proceedings of the conference on empiri- cal methods in natural language processing (EMNLP). 2013 : 1631-1642. 被引量：1
8Irsoy O, Cardie C. Deep Recursive Neural Networks for Compositionality in Language[-C//Proeeedings of the Advances in Neural Information Processing Sys- tems. 2014:2096 -2104. 被引量：1
9Li P, Liu Y, Sun M. Recursive Autoencoders for ITG-Based Translation[C]//Proceedings of the EMN- LP. 2013: 567-577. 被引量：1
10Le P, Zuidema W. Inside-Outside Semantics: A Framework for Neural Models of Semantic Composi tlon[C]//Proceeding of the Deep Learning and Rep- resentation Learning Workshop: NIPS 2014. 被引量：1

共引文献90

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2章宣,赵宝奇,孙军梅,葛青青,肖蕾,尉飞.面向微博文本的自杀风险识别模型[J].计算机系统应用,2020,29(11):121-127. 被引量：3
3孟威,尉永清,刘文锋.基于CRT机制混合神经网络的特定目标情感分析[J].计算机应用研究,2020,37(2):360-364. 被引量：1
4刘小明,张英,郑秋生.基于卷积神经网络模型的互联网短文本情感分类[J].计算机与现代化,2017(4):73-77. 被引量：9
5李超,柴玉梅,高明磊,昝红英.句法分析和深度神经网络在中文问答系统答案抽取中的研究[J].小型微型计算机系统,2017,38(6):1341-1346. 被引量：4
6林鹏程,林培杰,程树英.基于自编码的中国手语识别研究[J].微型机与应用,2017,36(13):59-61. 被引量：2
7王树恒,吐尔根.依布拉音,卡哈尔江.阿比的热西提,艾山.吾买尔,古丽尼格尔.阿不都外力.基于BLSTM的维吾尔语文本情感分析[J].计算机工程与设计,2017,38(10):2879-2886. 被引量：16
8赵明,杜会芳,董翠翠,陈长松.基于word2vec和LSTM的饮食健康文本分类研究[J].农业机械学报,2017,48(10):202-208. 被引量：42
9殷昊,李寿山,贡正仙,周国栋.基于多通道LSTM的不平衡情绪分类方法[J].中文信息学报,2018,32(1):139-145. 被引量：15
10鲍豪,李少童.融合Bi-LSTM和位置关系的对象级情感分析[J].信息系统工程,2018,31(3):149-151. 被引量：1

同被引文献25

1李永宏,于洪志.安多藏语语音合成语料库的设计[J].西北民族大学学报（自然科学版）,2006,27(1):36-39. 被引量：16
2张家騄.汉语普通话机读音标SAMPA-SC[J].声学学报,2009,34(1):81-86. 被引量：9
3王海燕,杨鸿武,甘振业,裴东.基于说话人自适应训练的汉藏双语语音合成[J].清华大学学报（自然科学版）,2013,53(6):776-780. 被引量：5
4袁文浩,林家骏,陈宁,王雨.一种基于Bark域能量分布的噪声分类方法[J].华东理工大学学报（自然科学版）,2013,39(4):472-476. 被引量：5
5朱琦,酆广增,肖海勇.基于模式识别的语音分类方法[J].南京邮电学院学报,2000,20(4):29-33. 被引量：2
6陈小莹,艾金勇.安多方言—夏河话SAMPA_AT设计[J].智能计算机与应用,2016,6(1):24-25. 被引量：2
7胡青,刘本永.基于卷积神经网络分类的说话人识别算法[J].信息网络安全,2016(4):55-60. 被引量：6
8Guo-Bing Zhou,Jianxin Wu,Chen-Lin Zhang,Zhi-Hua Zhou.Minimal Gated Unit for Recurrent Neural Networks[J].International Journal of Automation and computing,2016,13(3):226-234. 被引量：38
9才项措,刘思思,达哇彭措.安多藏语尖扎话的音位系统研究[J].西北民族大学学报（自然科学版）,2016,37(3):29-34. 被引量：5
10解焱陆,张蓓,张劲松.基于音高映射合成语音的汉语双字调声调训练[J].清华大学学报（自然科学版）,2017,57(2):170-175. 被引量：2

引证文献4

1王华朋,牛瑾琳,刘元周,张琨瑶.不同语音特征对声音分类的有效性研究[J].中国刑警学院学报,2020(6):122-128. 被引量：3
2苏丽.基于HMM的藏语安多方言文本分析研究[J].新一代信息技术,2020,3(23):35-40.
3李文静,王潇潇.基于简化型LSTM神经网络的时间序列预测方法[J].北京工业大学学报,2021,47(5):480-488. 被引量：11
4苏丽.一种HMM的藏语安多方言文本分析方法[J].新一代信息技术,2021,4(3):42-47.

二级引证文献14

1南兆营.基于参数迁移和C-LSTM的说话人识别研究[J].电声技术,2020,44(11):37-41. 被引量：1
2郭霏霏.基于隐马尔可夫模型的物联网终端语音身份动态识别方法[J].上海电机学院学报,2021,24(6):361-365. 被引量：2
3侯清睿,安冬.基于人工神经网络的音符识别研究[J].自动化与仪器仪表,2022(1):53-58. 被引量：1
4彭路,柳俊凯,盛爱晶,张兴海,孙文正.基于LSTM的机场跑道视程预测[J].计算机系统应用,2022,31(5):203-212.
5胡赛,周庆燕,李号,邵继.基于ARIMA-LSTM的服装流行趋势预测模型[J].工业控制计算机,2022,35(8):115-117. 被引量：1
6刘兴华,耿晨,谢胜寒,田佳强,曹晖.考虑光伏发电不确定性的日前火电-光伏经济调度[J].系统仿真学报,2022,34(8):1874-1884. 被引量：14
7许自舟,李亚芳,程嘉熠,吉志新,张晓霞,林建国.天津市近岸海域水质变化趋势分析及水质目标研究[J].环境工程技术学报,2022,12(5):1378-1388. 被引量：3
8苏万斌,江叶峰,徐彪,易灿灿.基于Encoder-Decoder LSTM的电梯制动滑移量预测方法研究[J].机械制造与自动化,2022,51(6):28-31. 被引量：2
9韩雅萱,石梦舒,黄元生,刘敦楠,段文军.基于机器学习的短期电力负荷预测方法比较及改进研究[J].科技管理研究,2023,43(1):163-170. 被引量：7
10张多纳,赵宏佳,鲁远耀,张宝昌.电磁信号调制方式识别:现状、方法和展望[J].信息与控制,2023,52(1):59-74. 被引量：2

1乔松林,孙仁诚,刘吉.基于深度学习的短时交通流量预测[J].青岛大学学报（自然科学版）,2017,30(4):65-69. 被引量：6
2梅洪建.我的班级文化布置渐进式成长历程[J].江苏教育,2017(71):9-10.
3李方前,杨斌,黄永程.基于小波包——倒频谱的滚动轴承故障检测方法[J].电子技术与软件工程,2018(3):90-91. 被引量：2
4曹芳芳,张海涛.中国心脏重症镇静镇痛专家共识解读与更新要点[J].中国实用内科杂志,2018,38(1):44-46. 被引量：2
5王冰洁,刘振涛.管理层预测质量对权益资本成本的影响[J].经济问题探索,2017(11):46-58. 被引量：4
6廖涛,徐二强,高利明,赵岩.电能表检定装置现场检定中的常见故障及问题分析[J].河南电力,2017,45(4):30-32.
7黄毅,鲍秉坤,徐常胜.关系挖掘驱动的视频描述自动生成[J].南京信息工程大学学报（自然科学版）,2017,9(6):642-649.
8刘廷平.浅谈顶层设计理念对高中物理教学的启发[J].学周刊,2018(6):64-65.
9陈虹.基于学习进阶的课堂教学设计——以“流体压强与流速的关系”为例[J].湖南中学物理,2017,0(10):91-92.
10英飞凌推出信噪比70dB的封装MEMS麦克风[J].世界电子元器件,2017,0(8):17-17.

计算机工程与应用

2018年第3期

浏览历史

内容加载中请稍等...

简化LSTM的语音合成被引量：4

参考文献3

二级参考文献17

共引文献90

同被引文献25

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

简化LSTM的语音合成 被引量：4

参考文献3

二级参考文献17

共引文献90

同被引文献25

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

简化LSTM的语音合成被引量：4