在大数据规模下,基于深度学习的语音识别技术已经相当成熟,但在小样本资源下,由于特征信息的关联性有限,模型的上下文信息建模能力不足从而导致识别率不高。针对此问题,提出了一种嵌入注意力机制层(Attention Mechanism)的时延神经网络(...在大数据规模下,基于深度学习的语音识别技术已经相当成熟,但在小样本资源下,由于特征信息的关联性有限,模型的上下文信息建模能力不足从而导致识别率不高。针对此问题,提出了一种嵌入注意力机制层(Attention Mechanism)的时延神经网络(Time Delay Neural Network,TDNN)结合长短时记忆递归(Long Short Term Memory,LSTM)神经网络的时序预测声学模型,即TLSTM-Attention,有效地融合了具有重要信息的粗细粒度特征以提高上下文信息建模能力。通过速度扰动技术扩增数据,结合说话人声道信息特征以及无词格最大互信息训练准则,选取不同输入特征、模型结构及节点个数进行对比实验。实验结果表明,该模型相比于基线模型,词错误率降低了3.37个百分点。展开更多
文摘在大数据规模下,基于深度学习的语音识别技术已经相当成熟,但在小样本资源下,由于特征信息的关联性有限,模型的上下文信息建模能力不足从而导致识别率不高。针对此问题,提出了一种嵌入注意力机制层(Attention Mechanism)的时延神经网络(Time Delay Neural Network,TDNN)结合长短时记忆递归(Long Short Term Memory,LSTM)神经网络的时序预测声学模型,即TLSTM-Attention,有效地融合了具有重要信息的粗细粒度特征以提高上下文信息建模能力。通过速度扰动技术扩增数据,结合说话人声道信息特征以及无词格最大互信息训练准则,选取不同输入特征、模型结构及节点个数进行对比实验。实验结果表明,该模型相比于基线模型,词错误率降低了3.37个百分点。