双向长短时记忆(bidirectional lorg short term memory,BLSTM)是一种特殊的递归神经网络(recurrent neural network,RNN),能够有效地对语音的长时上下文进行建模。该文提出一种基于深度BLSTM的语音驱动面部动画合成方法,利用说话人的...双向长短时记忆(bidirectional lorg short term memory,BLSTM)是一种特殊的递归神经网络(recurrent neural network,RNN),能够有效地对语音的长时上下文进行建模。该文提出一种基于深度BLSTM的语音驱动面部动画合成方法,利用说话人的音视频双模态信息训练BLSTM-RNN神经网络,采用主动外观模型(active appearance model,AAM)对人脸图像进行建模,将AAM模型参数作为网络输出,研究网络结构和不同语音特征输入对动画合成效果的影响。基于LIPS2008标准评测库的实验结果表明:具有BLSTM层的网络效果明显优于前向网络的,基于BLSTM-前向-BLSTM 256节点(BFB256)的三层模型结构的效果最佳,FBank、基频和能量组合可以进一步提升动画合成效果。展开更多
针对静态表情特征缺乏时间信息,不能充分体现表情的细微变化,该文提出一种针对非特定人的动态表情识别方法:基于动态时间规整(Dynamic Time Warping,DTW)和主动外观模型(Active Appearance Model,AAM)的动态表情识别。首先采用基于局部...针对静态表情特征缺乏时间信息,不能充分体现表情的细微变化,该文提出一种针对非特定人的动态表情识别方法:基于动态时间规整(Dynamic Time Warping,DTW)和主动外观模型(Active Appearance Model,AAM)的动态表情识别。首先采用基于局部梯度DT-CWT(Dual-Tree Complex Wavelet Transform)主方向模式(Dominant Direction Pattern,DDP)特征的DTW对表情序列进行规整。然后采用AAM定位出表情图像的66个特征点并进行跟踪,利用中性脸的特征点构建人脸几何模型,通过人脸几何模型的匹配克服不同人呈现表情的差异,并通过计算表情序列中相邻两帧图像对应特征点的位移获得表情的变化特征。最后采用最近邻分类器进行分类识别。在CK+库和实验室自建库HFUT-FE(He Fei University of Technology-Face Emotion)上的实验结果表明,所提算法具有较高的准确性。展开更多
文摘双向长短时记忆(bidirectional lorg short term memory,BLSTM)是一种特殊的递归神经网络(recurrent neural network,RNN),能够有效地对语音的长时上下文进行建模。该文提出一种基于深度BLSTM的语音驱动面部动画合成方法,利用说话人的音视频双模态信息训练BLSTM-RNN神经网络,采用主动外观模型(active appearance model,AAM)对人脸图像进行建模,将AAM模型参数作为网络输出,研究网络结构和不同语音特征输入对动画合成效果的影响。基于LIPS2008标准评测库的实验结果表明:具有BLSTM层的网络效果明显优于前向网络的,基于BLSTM-前向-BLSTM 256节点(BFB256)的三层模型结构的效果最佳,FBank、基频和能量组合可以进一步提升动画合成效果。
文摘针对静态表情特征缺乏时间信息,不能充分体现表情的细微变化,该文提出一种针对非特定人的动态表情识别方法:基于动态时间规整(Dynamic Time Warping,DTW)和主动外观模型(Active Appearance Model,AAM)的动态表情识别。首先采用基于局部梯度DT-CWT(Dual-Tree Complex Wavelet Transform)主方向模式(Dominant Direction Pattern,DDP)特征的DTW对表情序列进行规整。然后采用AAM定位出表情图像的66个特征点并进行跟踪,利用中性脸的特征点构建人脸几何模型,通过人脸几何模型的匹配克服不同人呈现表情的差异,并通过计算表情序列中相邻两帧图像对应特征点的位移获得表情的变化特征。最后采用最近邻分类器进行分类识别。在CK+库和实验室自建库HFUT-FE(He Fei University of Technology-Face Emotion)上的实验结果表明,所提算法具有较高的准确性。