面向维汉机器翻译的语料筛选技术研究被引量：2

Research in corpus filtering technique for Uyghur-Chinese machine translation

下载PDF

导出

摘要统计机器翻译是目前主流的机器翻译技术,其在维汉翻译中良好的性能已经得到了广泛的认可。维汉统计机器翻译的最终结果同样是受这几方面的影响:翻译模型、语言模型、语料质量和规模等。旨在通过对维汉双语训练语料的筛选来提高最终的机器翻译性能。在相关学者的研究基础上,提出了改进的IBM1模型评价句对齐质量、双语语言模型困惑度进行语料筛选和多种筛选指标综合求交集的方法。这些方法没有语言特性的依赖,支持维汉双语语料的筛选。通过实验可证明,使用笔者提出的方法可以得到更优的维汉机器翻译结果。 Statistical machine translation is the main technique of machine translation at present, its good performance in Uyghur-Chinese machine translation area has been widely accepted. The factors affecting Uyghur-Chinese MT eventually performance still are these ： translation model,language model, the quality and scale of corpus and so on. This paper aimed to improve the performance of Uyghur-Chinese SMT by filtering the Uyghur-Chinese training corpus. On the basis of relevant scholars＇ research, this paper proposed modified IBM1 model to evaluate the quality of sentence alignment,bilingual language model perplexity to filter corpus and getting intersection with multi filtering indexes. These methods were independent on language features, so it supported Uyghur-Chinese corpus filtering well. According to the experimental results,it can achieve better performance in Uyghur-Chinese SMT by the proposed methods.

作者孔金英温政阳杨雅婷王磊李晓 Kong Jinying Wen Zhengyang Yang Yating Wang Lei Li Xiao(Xinjiang Technical Institute of Physics ＆ Chemistry, Chinese Academic of Science, Urumqi 830011, China Xinjiang Laboratory of Minority Speech ＆ Language Information Processing, Ururnqi 830011, China University of Chinese Academy of Sciences, Beijing 100049, China Experimental Center for Electronic Data ldentifwation of Urumqi Municipal Public Security Bureau, Urumqi 830000, China Institute of Acoustics of Chinese Academy of Sciences, Bering 100190, China)

机构地区中国科学院新疆理化技术研究所新疆民族语音语言信息处理重点实验室中国科学院大学乌鲁木齐市公安局电子数据鉴定实验中心中国科学院声学研究所

出处《计算机应用研究》 CSCD 北大核心 2016年第12期3654-3657,共4页 Application Research of Computers

基金中国科学院西部之光项目(XBBS201216 LHXZ201301) 中国科学院先导科技专项项目(XDA06030400) 新疆维吾尔自治区青年自然科学基金资助项目(2015211B034) 新疆维吾尔自治区重点实验室开放课题项目(2015KL031)

关键词维汉机器翻译语料筛选语言模型 Uyghur-Chinese machine translation corpus filtering language model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1米成刚,王磊,杨雅婷,陈科海.维汉机器翻译未登录词识别研究[J].计算机应用研究,2013,30(4):1112-1115. 被引量：9
2陈毅东,史晓东,周昌乐.平行语料库处理初探：一种排序模型[J].中文信息学报,2006,20(B03):66-70. 被引量：4
3姚树杰,肖桐,朱靖波.基于句对质量和覆盖度的统计机器翻译训练语料选取[J].中文信息学报,2011,25(2):72-77. 被引量：11
4王星,涂兆鹏,谢军,吕雅娟,姚建民.一种基于分类的平行语料选择方法[J].中文信息学报,2013,27(6):144-150. 被引量：4
5黄瑾,吕雅娟,刘群.基于信息检索方法的统计翻译系统训练数据选择与优化[J].中文信息学报,2008,22(2):40-46. 被引量：9
6梁华参,赵铁军.统计机器翻译中双语语料的过滤及词对齐的改进[J].智能计算机与应用,2013,3(4):10-13. 被引量：3

二级参考文献69

1古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
2陈毅东,史晓东,周昌乐.平行语料库处理初探：一种排序模型[J].中文信息学报,2006,20(B03):66-70. 被引量：4
3阿依克孜.卡德尔,开沙尔.卡德尔,吐尔根.依布拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3):43-48. 被引量：22
4Philipp Koehn, Franz Josef Och, and Daniel Marcu. Statistical phrase-based translation [ C]//Proc. of HLT-NAACL, 2003. May: 127-133. 被引量：1
5Yajuan Lti, Jin Huang and Qun Liu. Improving Statistical Machine Translation Performance by Training Data Selection and Optimization[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2007:343-350. 被引量：1
6Matthias Eck, Stephan Vogel, Alex Waibei Low cost portability for statistical machine translation based on n-gram coverage[C]//MT Summit X: 2005:227-234. 被引量：1
7Tong Xiao, Rushan Chen, Tianning Li, Muhua Zhu, Jingbo Zhu, ttuizhen Wang and Feiliang Ren. NEUTrans: a Phrase-Based SMT System for CWMT2009 [C]//5th China workshop on Machine Translation (CWMT), Nanjing, China, 2009: 40-46. 被引量：1
8Deyi Xiong, Qun Liu and Shouxun Lin. Maximum Entropy Based Phrase Reordering Model for Statistical Machine Translation [ C]//Proc. of ACL Sydney, 2006 : 521-528. 被引量：1
9Franz Josef Och Hermann Ney. The Alignment Template Approach to Statistical Machine Translation [C ]//Association for Computational Linguistics. 2004. 被引量：1
10Philip Resnik, and Noah A. Smith,The Web as a Parallel Corpus [J]. Computational Linguistics, Sep. 2003,29(3):349-380. 被引量：1

共引文献26

1黄瑾,吕雅娟,刘群.基于信息检索方法的统计翻译系统训练数据选择与优化[J].中文信息学报,2008,22(2):40-46. 被引量：9
2姚树杰,肖桐,朱靖波.基于句对质量和覆盖度的统计机器翻译训练语料选取[J].中文信息学报,2011,25(2):72-77. 被引量：11
3王星,涂兆鹏,谢军,吕雅娟,姚建民.一种基于分类的平行语料选择方法[J].中文信息学报,2013,27(6):144-150. 被引量：4
4李响,南江,杨雅婷,周喜,米成刚.泛化语言模型在汉维机器翻译中的应用[J].计算机应用研究,2014,31(10):2994-2997. 被引量：4
5张力文,努尔麦麦提.尤鲁瓦斯,吾守尔.斯拉木.维吾尔语语音检索技术研究[J].中文信息学报,2014,28(5):182-186. 被引量：3
6艾孜孜.吐尔逊,杨雅婷,吐尔洪.吾司曼,周俊林,李晓.维-汉统计机器翻译中维吾尔语预处理研究[J].计算机工程与设计,2014,35(11):4034-4039. 被引量：3
7韩芳,杨天心,宋继华.基于句本位句法体系的古汉语机器翻译研究[J].中文信息学报,2015,29(2):103-110. 被引量：5
8尹宝生,杨阳.双向词典和语义相似度计算相结合的词对齐算法[J].沈阳航空航天大学学报,2015,32(2):67-74. 被引量：1
9肖雨,崔荣一,怀丽波.一种融合位置信息的字符串相似度度量方法[J].计算机应用研究,2015,32(11):3287-3290. 被引量：3
10张海阳,马晓雷,张宗波.国内机器翻译领域研究动态科学知识图谱分析(1995-2015)[J].海军工程大学学报（综合版）,2015,12(4):81-85. 被引量：2

同被引文献4

1黄婷婷.计算机辅助翻译研究方法及其应用[J].湖南城市学院学报（自然科学版）,2016,25(1):170-171. 被引量：3
2刘宇鹏,乔秀明,赵石磊,马春光.统计机器翻译中大规模特征的深度融合[J].浙江大学学报（工学版）,2017,51(1):46-56. 被引量：4
3徐牧,朱正杰.漫谈机器翻译与计算机辅助翻译[J].海外英语,2017(19):121-122. 被引量：4
4徐一灿,刘继斌.机器翻译的现状和前景[J].海外英语,2017(21):117-118. 被引量：12

引证文献2

1倪文琼,刘玲玲,秦俭,马圣清.氯雷他定治疗异位性皮炎前后血清IL-4和总IgE的临床研究[J].中国皮肤性病学杂志,2000,14(1):19-20. 被引量：3
2周红,周明理,姜思佳.基于云平台的计算机辅助翻译研究与实践[J].大众科技,2021,23(2):10-12. 被引量：2

二级引证文献5

1刘慧锋.特应性皮炎的治疗进展[J].医学文选,2006,25(3):529-532.
2郑益志,余土根,朱金土,曹毅,马丽俐,吴蓓玲.异位性皮炎中医辨证分型与Th_1/Th_2细胞因子表达水平的相关性[J].中国中西医结合杂志,2010,30(1):102-103. 被引量：11
3张昊,朱耀武.基于云平台的计算机辅助翻译系统应用[J].集成电路应用,2023,40(8):132-133. 被引量：1
4刘琳.基于云翻译平台的文学翻译课程建构实践研究[J].中国新通信,2024,26(1):115-117.
5慈超,马小玲,孟庆琴.咪唑斯汀治疗慢性荨麻疹临床疗效评价及对血清IL-4水平的影响[J].中国临床药理学与治疗学,2003,8(3):326-328. 被引量：4

1申文娟.基于粗糙集理论的评价指标属性约简[J].科技创新与应用,2016,6(5):26-27.
2黄永文,何中市.基于互信息的统计语言模型平滑技术[J].中文信息学报,2005,19(4):46-51. 被引量：8
3郭蓝天,李扬,慕德俊,杨涛,李哲.一种基于LDA主题模型的话题发现方法[J].西北工业大学学报,2016,34(4):698-702. 被引量：21
4赵知纬,钱龙华,周国栋.一个面向信息抽取的中文跨文本指代语料库[J].中文信息学报,2015,29(1):57-66. 被引量：3
5刘章,陈小平.联合无监督词聚类的递归神经网络语言模型[J].计算机系统应用,2014,23(5):101-106. 被引量：1
6梁华参,赵铁军.统计机器翻译中双语语料的过滤及词对齐的改进[J].智能计算机与应用,2013,3(4):10-13. 被引量：3
7孙水华,丁鹏,黄德根.利用句法短语改善统计机器翻译性能[J].中文信息学报,2015,29(2):95-102. 被引量：5
8王贵成,徐心和,姜长洪.一种优化控制器参数的方法[J].微计算机信息,2006,22(03S):53-55.
9何忠秀,王霜,杜亚军.基于Web的多渠道用户需求知识获取框架研究[J].计算机技术与发展,2010,20(4):124-127. 被引量：2
10吐尔根·依步拉音,吾守尔·斯拉木,麦合甫热提,艾山·吾买尔.词典和统计相结合的维吾尔文拼写查错方法的研究[J].新疆大学学报（自然科学维文版）,2012(1):1-10.

计算机应用研究

2016年第12期

浏览历史

内容加载中请稍等...

面向维汉机器翻译的语料筛选技术研究被引量：2

参考文献6

二级参考文献69

共引文献26

同被引文献4

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

面向维汉机器翻译的语料筛选技术研究 被引量：2

参考文献6

二级参考文献69

共引文献26

同被引文献4

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

面向维汉机器翻译的语料筛选技术研究被引量：2