-
题名基于本征音子说话人子空间的说话人自适应算法
被引量:4
- 1
-
-
作者
屈丹
张文林
-
机构
信息工程大学信息系统工程学院
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2015年第6期1350-1356,共7页
-
基金
国家自然科学基金(61175017
61302107和61403415)资助课题
-
文摘
本征音子说话人自适应算法在自适应数据量充足时可以取得很好的自适应效果,但在自适应数据量不足时会出现严重的过拟合现象。为此该文提出一种基于本征音子说话人子空间的说话人自适应算法来克服这一问题。首先给出基于隐马尔可夫模型-高斯混合模型(HMM-GMM)的语音识别系统中本征音子说话人自适应的基本原理。其次通过引入说话人子空间对不同说话人的本征音子矩阵间的相关性信息进行建模;然后通过估计说话人相关坐标矢量得到一种新的本征音子说话人子空间自适应算法。最后将本征音子说话人子空间自适应算法与传统说话人子空间自适应算法进行了对比。基于微软语料库的汉语连续语音识别实验表明,与本征音子说话人自适应算法相比,该算法在自适应数据量极少时能大幅提升性能,较好地克服过拟合现象。与本征音自适应算法相比,该算法以较小的性能牺牲代价获得了更低的空间复杂度而更具实用性。
-
关键词
语音信号处理
说话人自适应
本征音子
本征音子说话人子空间
低秩约束
本征音
-
Keywords
Speech signal processing
Speaker adaptation constraint
Eigenvoice Eigenphone
Eigenphones' speaker subspace
Low-rank
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名一种新的基于子空间的说话人自适应方法
被引量:3
- 2
-
-
作者
张文林
张卫强
刘加
李弼程
屈丹
-
机构
中国人民解放军信息工程大学信息工程学院
清华大学电子工程系
-
出处
《自动化学报》
EI
CSCD
北大核心
2011年第12期1495-1502,共8页
-
基金
国家自然科学基金(60872142
61005019
61175017)资助~~
-
文摘
提出了一种新的基于子空间的快速说话人自适应方法.该方法在本征音(Eigen-voice,EV)自适应方法基础上,进一步在音子空间寻找低维子空间,得到更为紧凑的"说话人–音子"联合子空间.该子空间不仅包含了说话人间的模型参数相关性信息,而且对音子间的模型参数相关性信息也进行了显式建模,在大大降低模型存储量的同时更为全面地反映模型参数的先验信息.在基于连续语音识别的无监督自适应实验中,在少量的自适应数据条件下,新方法取得了比最大似然线性回归和聚类最大似然线性基方法更好的效果.
-
关键词
连续语音识别
说话人自适应
本征音
本征音子
-
Keywords
Continuous speech recognition
speaker adaptation
eigen-voice (EV)
eigen-phone (EP)
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名语音识别中基于低秩约束的本征音子说话人自适应方法
被引量:3
- 3
-
-
作者
张文林
张连海
陈琦
李弼程
-
机构
解放军信息工程大学信息系统工程学院
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2014年第4期981-987,共7页
-
基金
国家自然科学基金(61175017)
国家863计划项目(2012AA011603)资助课题
-
文摘
该文提出一种基于低秩约束的本征音子(Eigenphone)说话人自适应方法。原始的本征音子说话人自适应方法在自适应语料充分时具有很好的效果,然而当自适应语料不足时,出现严重的过拟合现象,导致自适应后的系统可能比自适应前的系统还要差。首先,对协方差矩阵为对角阵的隐马尔可夫-高斯混合模型语音识别系统,推导出一种简化的本征音子矩阵估计算法;然后,对本征音子矩阵引入低秩约束,采用矩阵的核范数作为矩阵秩的凸近似,通过调节核范数的权重因子以有效控制自适应模型的复杂度;最后,给出一种加速近点梯度算法以求解新算法中引入的带有核范数正则项的数学优化问题。汉语连续语音识别的说话人自适应实验表明,引入低秩约束后,本征音子说话人自适应方法的自适应效果得到了明显提高,在5~50 s的自适应数据条件下,均取得了比最大似然线性回归后接最大后验(MLLR+MAP)自适应更佳的识别效果。
-
关键词
语音识别
说话人自适应
本征音子
低秩约束
近点梯度法
-
Keywords
Speech recognition
Speaker adaptation
Eigenphone
Low-rank constraint
Proximal gradient method
-
分类号
TN912.3
[电子电信—通信与信息系统]
-
-
题名基于稀疏组LASSO约束的本征音子说话人自适应
- 4
-
-
作者
屈丹
张文林
-
机构
信息工程大学信息系统工程学院
-
出处
《通信学报》
EI
CSCD
北大核心
2015年第9期47-54,共8页
-
基金
国家自然科学基金资助项目(61175017
61302107
61403415)~~
-
文摘
本征音子说话人自适应方法在自适应数据量不足时会出现严重的过拟合现象,提出了一种基于稀疏组LASSO约束的本征音子说话人自适应算法。首先给出隐马尔可夫—高斯混合模型下本征音子说话人自适应的基本原理;然后将稀疏组LASSO正则化引入到本征音子说话人自适应,通过调整权重因子控制模型的复杂度,并通过一种加速近点梯度的数学优化算法来实现;最后将稀疏组LASSO约束的自适应算法与当前多种正则化约束的自适应方法进行比较。汉语连续语音识别的说话人自适应实验表明,引入稀疏组LASSO约束后,本征音子说话人自适应方法的性能得到了明显提高,且稀疏组LASSO约束方法优于l1、l2和弹性网正则化方法。
-
关键词
说话人自适应
本征音子
组稀疏约束
稀疏组LASSO约束
近点梯度法
-
Keywords
speaker adaptation
eigenphone
group sparse constraint
sparse group LASSO constraint
proximal gradient method
-
分类号
TN912.34
[电子电信—通信与信息系统]
-