基于统计翻译框架的蒙古文自动拼写校对方法被引量：10

A Spelling Correction Method for Traditional Mongolian Based on Statistical Translation Framework

下载PDF

导出

摘要在以国际标准编码存储的传统蒙古文电子文本中,拼写错误十分普遍。人工校对这些错误不仅速度慢而且成本高。该文提出了一种基于统计翻译框架的传统蒙古文自动拼写校对方法,将拼写校对看作是从错误词到正确词的翻译。该文使用改进的基于短语的统计机器翻译模型来构建拼写校对模型,然后对测试文本进行校对。实验结果表明,该方法可以快速、有效地校对拼写错误,而且不依赖于特定语言的语法知识。使用该方法对包含1 026个正确词、1 102个错误词的测试集进行拼写校对,校对后文本中的正确词所占比例最高可达97.55%。 In traditional Mongolian electronic textsencoded inUnicode, spelling errors are very common. The cost of correcting spelling errors artificially is extremely high. This paper proposed an automatic spellingcorrection method for traditional Mongolian based on statistical machine translation framework, and we regardspelling correction task as a translation work which translates the wrong words to the correct words. This paper used the improved phrasebased statistical machine translation model to build spelling correction model. We use this model tocorrect the rawtext. We used atest set whichcontained 1 026 correct words and 1 102 wrong words to test our method, Experimental results show that our method can correct spelling errors quickly and efficiently without special language knowledge. The percentage of correct words in ourproofreadtextcan reach to 97.55%.

作者苏传捷侯宏旭杨萍员华瑞

机构地区内蒙古大学计算机学院临汾职业技术学院计算机系

出处《中文信息学报》 CSCD 北大核心 2013年第6期175-179,共5页 Journal of Chinese Information Processing

基金工信部电子信息产业发展基金课题资助项目

关键词蒙古文拼写检查拼写校对机器翻译 Mongolian spelling check spelling correction machine translation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1Joseph J. Pollock. Automatic Spelling Correction in Scientific and Scholarly Text [J]. Communication of the ACM, 1984, (4): 358-368. 被引量：1
2K Kukich. Techniques for Automatically Correcting Words in Text[J]. ACM Computing Surveys, 1992, 24(4) : 377-438. 被引量：1
3骆卫华,罗振声,宫小瑾.中文文本自动校对技术的研究[J].计算机研究与发展,2004,41(1):244-249. 被引量：21
4张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
5斯·劳格劳.基于DFA的蒙古文自动校对算法[C].第二届少数民族青年自然语言处理研讨会,2010. 被引量：1
6斯.劳格劳.基于不确定有限自动机的蒙古文校对算法[J].中文信息学报,2009,23(6):110-115. 被引量：8
7敖敏,熊子瑜,呼和.基于蒙科立输入法的同形异码词研究[C].第十一届全国人机语音通讯学术会议,2011,10. 被引量：1
8赵军,敖其尔.基于统计语言模型蒙古文词汇分析校正器的设计与实现[C] ∥民族语言文字信息技术研究--第11届全国民族语言文字信息学术研讨会论文集.西双版纳:西苑出版社,2007. 被引量：2
9Philipp Koehn, Franz Josef Och, Daniel Marcu. Sta-tistical Phrase-Based Translation[C]//Proceedings of HLT-NAACL, 2003: 127-133. 被引量：1
10Peter F Brown, John Cocke, Stephen A Delia Pietra. A Statistical Approach to Machine Translation [J]. Computational Linguistics, 1990, 16(6): 79-85. 被引量：1

二级参考文献40

1张仰森,曹元大,徐波.基于统计的纠错建议给出算法及其实现[J].计算机工程,2004,30(11):106-109. 被引量：7
2张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
3蔡增玉,谷文祥.汉字双向有穷自动机的研究[J].中文信息学报,2005,19(3):40-44. 被引量：4
4张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
5易蓉湘,何克抗.计算机汉语文稿校对系统[J].计算机研究与发展,1997,34(5):346-350. 被引量：12
6.知网及其说明文档..http://www.keenage.com(Hownet and its specifications. 2001. http://www.keenage.com).,2001. 被引量：1
7Wuu Y. Mealy machines are a better model of lexical analyzers [J]. Computer Languages, 1996, 22 ( 1 ) : 27-38. 被引量：1
8Jian hua, Wang Xiaolong. Study on Automatic Spelling Check and Correction[J]. Journal of Chinese Language and Computing, 2003,1 (1) : 25-36. 被引量：1
9Karen Kukich. Techniques for Automatically Correcting Words in Text [J]. ACM Computing Surveys, 1992, 24(4): 377-438. 被引量：1
10Karen Kukich.Techniques for Automatically Correcting Words in Text[J].ACM Computing Surveys,1992,24(4):377-438. 被引量：1

共引文献56

1斯·劳格劳,白斯勤,白庆格勒图.一种传统蒙古文拼写检查系统的实现[J].中央民族大学学报（哲学社会科学版）,2021,48(1):158-168. 被引量：1
2梁志建,徐广生,方宇彤.科学期刊编辑工作流程再造探索及实践[J].编辑学报,2005,17(2):94-96. 被引量：10
3李成城,白涛,赵述芳,钟义信.基于OCR的纵向文字校对的研究与实现[J].计算机应用研究,2006,23(4):234-236. 被引量：1
4张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
5张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：33
6陈翔,徐平先,张玉志.面向文本数字化的自动纠错方法[J].计算机应用研究,2008,25(5):1434-1436. 被引量：3
7王永景,刘功申,李生红,荆涛.用于文本校对的分词与词性标注一体化算法[J].计算机技术与发展,2008,18(8):1-3. 被引量：1
8李斌,姚建民,朱巧明.英文作文的自动拼写检查研究[J].郑州大学学报（理学版）,2008,40(3):48-51. 被引量：5
9潘昊,颜军.基于中文分词的文本自动校对算法[J].武汉理工大学学报,2009,31(3):18-20. 被引量：4
10才让卓玛,才智杰.藏文文本自动校对系统开发研究[J].西北民族大学学报（自然科学版）,2009,30(1):25-28. 被引量：10

同被引文献51

1冯志伟.链语法述评[J].语言文字应用,1999(4):100-102. 被引量：2
2郭永辉,吴保民,王炳锡.基于混合策略的英汉机器翻译系统设计与实现[J].信息工程大学学报,2005,6(3):63-67. 被引量：4
3张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
4张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：33
5刘荣.英汉机器翻译系统的框架设计和实现[J].科技情报开发与经济,2006,16(18):227-228. 被引量：4
6张建梅.面向信息处理的蒙古文同形异音词读音识别研究[J].内蒙古大学学报（哲学社会科学版）,2007,39(3):25-28. 被引量：2
7侯宏旭,刘群,刘志文,张国强.Skip-N蒙古文统计语言模型[J].内蒙古大学学报（自然科学版）,2008,39(2):220-224. 被引量：8
8华沙宝.现代蒙古文自动校对系统——MHAHP[J].内蒙古大学学报（哲学社会科学版）,1997,29(4):49-53. 被引量：4
9那顺乌日图.蒙古文词根、词干、词尾的自动切分系统[J].内蒙古大学学报（哲学社会科学版）,1997,29(2):53-57. 被引量：15
10程显毅,孙萍,朱倩.基于HNC的中文文本校对系统模型的研究[J].微电子学与计算机,2009,26(10):49-52. 被引量：8

引证文献10

1斯·劳格劳,白斯勤,白庆格勒图.一种传统蒙古文拼写检查系统的实现[J].中央民族大学学报（哲学社会科学版）,2021,48(1):158-168. 被引量：1
2孙瑞.基于英语翻译应用视角下的计算机智能校对系统开发研究[J].微型电脑应用,2020,36(2):145-148. 被引量：6
3白双成.蒙古文原始语料统计建模研究[J].中文信息学报,2017,31(1):118-125. 被引量：1
4张睿.基于短语相似度的统计机器翻译系统设计[J].自动化与仪器仪表,2017(8):66-67. 被引量：6
5陈功,梁茂成.面向中国学生的英语书面语动词形式错误自动检查——基于链语法的研究[J].中文信息学报,2017,31(6):196-204. 被引量：3
6包乌格德勒,李娟.蒙古文文本自动校对研究综述[J].电脑知识与技术（过刊）,2016,22(12X):227-229. 被引量：1
7杨利润,斯琴巴图,锡林宝力尔.关于解决蒙古文形对码错错误的研究综述[J].现代计算机,2020,26(4):29-31.
8张蕾,王剑楠.基于短语翻译模型的英语翻译计算机智能校对方法[J].自动化技术与应用,2021,40(2):55-58. 被引量：6
9张月.基于改进短语翻译模型的计算机智能化校对系统研究[J].自动化技术与应用,2021,40(12):58-61. 被引量：2
10申影利,包乌格德勒,赵小兵.蒙汉机器翻译校正数据集[J].中国科学数据（中英文网络版）,2022,7(2):55-61.

二级引证文献25

1娜仁图雅,白双成.蒙古语媒体资产编目问题研究[J].广西科学院学报,2018,34(1):72-77.
2杨利润,斯琴巴图.浅析蒙古文电子文档中的文本错误[J].电脑知识与技术,2019,15(4Z):211-213. 被引量：1
3许阳.基于语料库的外文字幕转码质量自动评价系统设计[J].自动化与仪器仪表,2020,0(2):81-84. 被引量：1
4王瑛瑛.以短语译文组合构成英汉翻译系统开发研究[J].现代科学仪器,2019,0(6):14-17.
5张晓娟.基于机器智能化翻译与短语译文组合的英语自动翻译系统设计[J].自动化技术与应用,2020,39(6):54-57. 被引量：7
6成洁.汉英机器翻译中从句复杂度的错误分析[J].微型电脑应用,2020,36(9):51-53. 被引量：3
7姚兰.基于语义选择与信息特征的英语机器翻译系统[J].自动化技术与应用,2021,40(2):182-185. 被引量：3
8王蕊.基于神经机器翻译的英语语法错误纠正方法分析[J].自动化技术与应用,2021,40(8):57-60. 被引量：8
9薛慧娟,刘敏.基于数据挖掘的专门用途英语(ESP)测试自动评分[J].微型电脑应用,2021,37(10):32-35.
10李艳.机器翻译智能校对系统在翻译实践中的应用[J].电脑编程技巧与维护,2021(11):104-105. 被引量：1

1胡茹.一种嵌入词义消歧的机器翻译框架[J].黑龙江科技信息,2014(30):126-126.
2晁学鹏.冶金铁轨对接控制过程三维图像虚拟仿真[J].电气应用,2014,0(20):90-93. 被引量：1
3刘文香.藏文文本词校对模型研究[J].西藏大学学报（社会科学版）,2009,24(5):70-74. 被引量：10
4何晋一,陈红英,姜文斌,张海波,刘群.基于上下文的拉丁维文拼写校对的研究[J].计算机系统应用,2011,20(12):60-63.
5解凯,郭恒业,张田文.一种具有径向畸变校正的图像整合算法[J].电子学报,2004,32(10):1726-1729. 被引量：5
6林晖,林劼.基于Markov模型的改进型疑错窗口算法[J].实验科学与技术,2008,6(4):40-42. 被引量：1
7蒋凯,刘欣亮,王平,韩飞.一种基于粗糙集的兼类词词性自动校对方法[J].软件导刊,2014,13(9):139-141. 被引量：1
8于勐,姚天顺.一种混合的中文文本校对方法[J].中文信息学报,1998,12(2):31-36. 被引量：21
9苗洪霞,蔡东风,宋彦.基于短语的统计机器翻译方法[J].沈阳航空工业学院学报,2007,24(2):32-34. 被引量：1
10肖海蓉.UML在软件系统开发中的应用[J].陕西理工学院学报（自然科学版）,2013,29(3):23-27. 被引量：7

中文信息学报

2013年第6期

浏览历史

内容加载中请稍等...

基于统计翻译框架的蒙古文自动拼写校对方法被引量：10

参考文献17

二级参考文献40

共引文献56

同被引文献51

引证文献10

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于统计翻译框架的蒙古文自动拼写校对方法 被引量：10

参考文献17

二级参考文献40

共引文献56

同被引文献51

引证文献10

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于统计翻译框架的蒙古文自动拼写校对方法被引量：10