摘要
在说话人辨认任务中,Gauss混合模型-通用背景模型(Gaussian mixture model-universal backgroundmodel,GMM-UBM)采用帧向量进行建模和识别,突出了说话人个性特征,但受信道影响较大;支持向量机(support vector machine,SVM)利用帧向量在空间中分布的Gauss混合的均值进行建模和识别,对信道的鲁棒性较好,但对说话人的个性体现不够。该文分析了这2种说话人识别系统的优缺点,并采用融合方法来提高系统的性能。在美国国家标准与技术研究所(NIST)评测数据集的实验中,融合系统的等错误率从GMM-UBM系统的9.30%和SVM系统的8.26%降低到7.34%,分别相对降低了21.08%和11.14%。
The Gaussian mixture model-universal background model(GMM-UBM) speaker identification system uses the features of each frame to model and identify the characteristics of the target speaker but has poor robustness to channel effects.The support vector machine(SVM) speaker identification system uses the mean vector of each Gaussian mixture of the frame vectors to model and identify the speaker with much more robust channel effects but while ignoring the characteristics of the target speaker.Tests of a combine...
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2008年第S1期693-698,共6页
Journal of Tsinghua University(Science and Technology)