期刊文献+

唇语识别关键技术研究进展 被引量:4

Research Advances in Key Technology of Lip-Reading
下载PDF
导出
摘要 唇形及其动态特征在人类语言感知的过程中起着重要作用,通过分析唇形图像序列,根据口型特征向量和特定语音之间的对应关系,不仅可以帮助理解讲话内容,提高语音识别的识别率,而且还可以识别出话音语种和讲话人身份。本文从唇语识别系统的各环节入手综述了该领域的最新研究进展,并讨论了现有方法的优缺点,最后提出了唇语识别新的应用领域和有待进一步研究的问题。 唇形及其动态特征在人类语言感知的过程中起着重要作用,通过分析唇形图像序列,根据口型特征向量和特定语音之间的对应关系,不仅可以帮助理解讲话内容,提高语音识别的识别率,而且还可以识别出话音语种和讲话人身份。本文从唇语识别系统的各环节入手综述了该领域的最新研究进展,并讨论了现有方法的优缺点,最后提出了唇语识别新的应用领域和有待进一步研究的问题。
出处 《数据采集与处理》 CSCD 北大核心 2012年第S2期277-283,共7页 Journal of Data Acquisition and Processing
基金 解放军理工大学预研基金(20110504)资助项目
关键词 唇语识别 特征提取 信息融合 语言模型 lip reading feature extraction information fusion language model
  • 相关文献

参考文献38

二级参考文献70

  • 1王守觉,曲延锋,李卫军,覃鸿.基于仿生模式识别与传统模式识别的人脸识别效果比较研究[J].电子学报,2004,32(7):1057-1061. 被引量:46
  • 2王瑞.连续语音唇读识别的研究.哈尔滨工业大学计算机系博士论文开题报告[M].哈尔滨工业大学档案馆,1998.. 被引量:1
  • 3徐彦君.中文双语料语音识别关键技术研究:博士论文[M].北京:中科院语音所,1998.. 被引量:1
  • 4间濑健二.读唇[J].电子情报通信学会论文志,1990,73(6):796-803. 被引量:1
  • 5Potamianos G, Neti C, Iyengar G, et al. A cascade visual front end for speaker independent automatic speechreading[J]. International Journal of speech technology, 2001 (4) :193 -208. 被引量:1
  • 6Gerasimos Potamianos, Chalapathy Neti. Improved ROI and within frame discriminant features for lipreading[A]. In: Proceedings of the International Conference on Image Processing[C]. Piscataway: IEEE, 2001. 被引量:1
  • 7Kazuhiro Nakamura, Noriaki Murakam, Ka-zuyoshi Takagi, et al. A real-time lipreading LSI for word recognition [J/OL]. http:∥www. ap-asic. org/2002/proceedings/SC/3C _ 5. pdf, 2002. 被引量:1
  • 8AWC Liew, SH Leung, WH Lau. Lip contour extraction from color images using a deformable model[J]. Pattern Recognition, 2002, 35: 2949- 2962. 被引量:1
  • 9Uda K, Tagawa N, Minagawa A, et al. Effectiveness evaluation of word characteristics obtained from 3D image information for lipreading[A]. In: Proceedings 11th International Conference on Image Analysis and Processing[C]. Los Alamitos: IEEE, 2001. 被引量:1
  • 10Matthews I, Potamianos G, Neti C, et al. A comparison of model and transform-based visual features for audiovisual LVCSR[A]. In: Proc lnt Conf Multimedia Expo[C]. Los Alamitos: IEEE, 2001. 被引量:1

共引文献127

同被引文献22

  • 1吴国斌,李斌,阎骥洲.Kinect人机交互开发实践[M].北京:人民邮电出版社,2013. 被引量:14
  • 2CANDIDE - a parameterized face. http://www.icg.isy.liu.se/candide/. 被引量:1
  • 3MSDN. Face Tracking Programming Guide. https://msdn.microsoft.com/en-us/library/jj130970.aspx#. 被引量:1
  • 4Alper Yarg, Muzaffer Dogan. A Lip Reading Application on MS Kinect Camera. In Innovations in Intelligent Systems and Applications (INISTA), 2013 IEEE International Symposium on, pp. 1-5. IEEE, 2013. 被引量:1
  • 5Rosenfeild R. Two decades of statistical language modeling: Where do we go from here? [J]. Proceedings of the IEEE, 2000, 88(8): 1270-1278. 被引量:1
  • 6Sundermeyer M, Sehluter R, Ney H. On the estimation of discount parameters for language model smoothing [C]// The 12th Annual Conference of the International Speech Communication Association. Florence, Italy: ISCA, 2011:1433-1436. 被引量:1
  • 7Deoras A, Mikolov T, Kombrink S, et al. Variational approximation of long-span language models for LVCSR [C]// IEEE International Conference on Acoustics, Speech and Signal Processing. Prague, Czech Republic: IEEE, 2011 : 5532-5535. 被引量:1
  • 8Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model [J]. Journal of Machine Learning Research, 2003, 3(2): 1137-1155. 被引量:1
  • 9Mikolov T, Karafiat M, Burget L, et al. Recurrent neural network based language model [C]//The llth International Speech Communication Association. Makuhari, Chiba, Japan: ISCA, 2010: 1045-1048. 被引量:1
  • 10Sundermeyer M, Oparin I, Gauvain J L, et al. Comparison of feedforward and recurrent neural network language models [C]// IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada: IEEE, 2013.- 8430- 8434. 被引量:1

引证文献4

二级引证文献7

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部