-
题名低资源非自回归壮语语音合成
- 1
-
-
作者
王杰
秦董洪
-
机构
广西民族大学人工智能学院
-
出处
《中央民族大学学报(自然科学版)》
2024年第2期40-47,共8页
-
基金
广西科技基地和人才专项(桂科AD23026054)
广西民族大学横向科研项目(2022450016000429)。
-
文摘
基于FastSpeech2模型,文章提出了非自回归的壮语语音合成模型Zhuang-TTS。为了提升模型合成壮语语音的韵律,根据壮语特点及实地调查提出了一套新的壮语音系(声调、声母或辅音、韵母或元音),同时针对壮语声学特点进行了改进:(1)使用壮语音素序列表征壮语发音信息;(2)使用音素级的声学调节器(与FastPitch类似),使合成结果更加稳定;(3)使用Conformer代替FastSpeech2模型中的Transformer,同时构建了一个壮语语音合成语料库。实验结果表明,Zhuang-TTS在韵律方面的意见评分(Mean Opinion Score, MOS)达到3.90,合成实时率达8.65×10^(-2)。该模型在合成壮语语音的质量和速度方面获得了较大提升,优于Tacotron2和FastSpeech2基线模型,研究推动了壮语语音合成领域的发展。
-
关键词
壮语语音合成
非自回归声学模型
非自回归声码器
CONFORMER
-
Keywords
Zhuang language speech synthesis
non-autoregressive acoustic model
non-autoregressive vocoder
Conformer
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-