期刊文献+

基于统计翻译框架的蒙古文自动拼写校对方法 被引量:10

A Spelling Correction Method for Traditional Mongolian Based on Statistical Translation Framework
下载PDF
导出
摘要 在以国际标准编码存储的传统蒙古文电子文本中,拼写错误十分普遍。人工校对这些错误不仅速度慢而且成本高。该文提出了一种基于统计翻译框架的传统蒙古文自动拼写校对方法,将拼写校对看作是从错误词到正确词的翻译。该文使用改进的基于短语的统计机器翻译模型来构建拼写校对模型,然后对测试文本进行校对。实验结果表明,该方法可以快速、有效地校对拼写错误,而且不依赖于特定语言的语法知识。使用该方法对包含1 026个正确词、1 102个错误词的测试集进行拼写校对,校对后文本中的正确词所占比例最高可达97.55%。 In traditional Mongolian electronic textsencoded inUnicode, spelling errors are very common. The cost of correcting spelling errors artificially is extremely high. This paper proposed an automatic spellingcorrection method for traditional Mongolian based on statistical machine translation framework, and we regardspelling correction task as a translation work which translates the wrong words to the correct words. This paper used the improved phrasebased statistical machine translation model to build spelling correction model. We use this model tocorrect the rawtext. We used atest set whichcontained 1 026 correct words and 1 102 wrong words to test our method, Experimental results show that our method can correct spelling errors quickly and efficiently without special language knowledge. The percentage of correct words in ourproofreadtextcan reach to 97.55%.
出处 《中文信息学报》 CSCD 北大核心 2013年第6期175-179,共5页 Journal of Chinese Information Processing
基金 工信部电子信息产业发展基金课题资助项目
关键词 蒙古文 拼写检查 拼写校对 机器翻译 Mongolian spelling check spelling correction machine translation
  • 相关文献

参考文献17

  • 1Joseph J. Pollock. Automatic Spelling Correction in Scientific and Scholarly Text [J]. Communication of the ACM, 1984, (4): 358-368. 被引量:1
  • 2K Kukich. Techniques for Automatically Correcting Words in Text[J]. ACM Computing Surveys, 1992, 24(4) : 377-438. 被引量:1
  • 3骆卫华,罗振声,宫小瑾.中文文本自动校对技术的研究[J].计算机研究与发展,2004,41(1):244-249. 被引量:21
  • 4张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量:39
  • 5斯·劳格劳.基于DFA的蒙古文自动校对算法[C].第二届少数民族青年自然语言处理研讨会,2010. 被引量:1
  • 6斯.劳格劳.基于不确定有限自动机的蒙古文校对算法[J].中文信息学报,2009,23(6):110-115. 被引量:8
  • 7敖敏,熊子瑜,呼和.基于蒙科立输入法的同形异码词研究[C].第十一届全国人机语音通讯学术会议,2011,10. 被引量:1
  • 8赵军,敖其尔.基于统计语言模型蒙古文词汇分析校正器的设计与实现[C] ∥民族语言文字信息技术研究--第11届全国民族语言文字信息学术研讨会论文集.西双版纳:西苑出版社,2007. 被引量:2
  • 9Philipp Koehn, Franz Josef Och, Daniel Marcu. Sta-tistical Phrase-Based Translation[C]//Proceedings of HLT-NAACL, 2003: 127-133. 被引量:1
  • 10Peter F Brown, John Cocke, Stephen A Delia Pietra. A Statistical Approach to Machine Translation [J]. Computational Linguistics, 1990, 16(6): 79-85. 被引量:1

二级参考文献40

共引文献56

同被引文献51

引证文献10

二级引证文献25

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部