基于自动抽取词汇信息的双语句子对齐被引量：17

ALIGNING SENTENCES IN PARALLEL CORPORA USING SELF-EXTRACTED LEXICAL INFORMATION

下载PDF

导出

摘要双语语料库句子对齐已成为新一代机器翻译研究中的一个至关重要的问题．对齐方法主要有基于长度的方法和基于词汇的方法，两者各具特点：前者实现简单、效率高，但精度低；后者精度高但实现复杂．本文提出一种新的对齐方法，首先利用基于长度的方法对文本进行粗对齐，然后在双语平行文本中确定锚点并自动抽取双语对应的关键词汇，降低了对齐问题的复杂度并减少了错误的蔓延．最后再利用所得到的词汇对应信息进行句子的对齐．这种方法融合了基于长度和基于词汇方法的优点，实验表明，它很大程度地提高了对齐的精度． Parallel corpora alignment is a key issue in the research of new generation of MT. Thereare two main methods in sentence alignment, i. e., length-based and lexicon-based methods. Thesetwo methods have different characteristics. The former is efficient and easy to implement, but theprecision is not satisfactory, versus the latter. This paper proposes a novel method to alignsentences in Chinese-English parallel corpora. First, the rough result is obtained using thelengthbased method. Then anchors are identified in the texts to reduce the complexity. Some lexicalcorrespondence is also extracted. Finally, the extracted lexical correspondence information is applied infine alignment using lexicon--method. The experimental result shows that this new method cangreatly reduce errors of alignment.

作者刘昕周明朱胜火黄昌宁

机构地区清华大学计算机科学与技术系清华大学智能技术与系统国家重点实验室

出处《计算机学报》 EI CSCD 北大核心 1998年第S1期151-158,共8页 Chinese Journal of Computers

基金国家自然科学基金航天预研基金

关键词双语语料库句子对齐机器翻译 Parallel corpora, sentence alignment, machine translation

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献32

1甄凤超,张霞.语料库语言学发展趋势瞻望——2003语料库语言学国际会议综述[J].外语界,2004(4):74-77. 被引量：31
2吕学强,李清隐,黄志丹,沈嫣娜,姚天顺.基于统计的汉英句子对齐研究[J].小型微型计算机系统,2004,25(6):990-992. 被引量：15
3郭建中.汉译英的翻译单位问题[J].外国语,2001,24(6):49-56. 被引量：69
4黄俊红,黄萍,范云.专门用途语类翻译平行语料库研究述评[J].重庆大学学报（社会科学版）,2004,10(6):91-94. 被引量：16
5王克非.双语平行语料库在翻译教学上的用途[J].外语电化教学,2004(6):27-32. 被引量：209
6曾泰元.语料库与汉英词典编纂[J].辞书研究,2005(1):79-87. 被引量：12
7张艳,柏冈秀纪.基于长度的扩展方法的汉英句子对齐[J].中文信息学报,2005,19(5):31-36. 被引量：24
8李维刚,刘挺,张宇,李生.基于长度和位置信息的双语句子对齐方法[J].哈尔滨工业大学学报,2006,38(5):689-692. 被引量：25
9王洪俊,施水才,俞士汶,肖诗斌.跨语言相似文档检索[J].中文信息学报,2007,21(1):30-37. 被引量：4
10李维刚,刘挺,李生.基于双语语料库的短语复述实例获取研究[J].中文信息学报,2007,21(5):112-117. 被引量：5

引证文献17

1张绪华.基于对译信息的汉英句子自动对齐[J].当代外语研究,2010(9):40-43. 被引量：2
2张艳,柏冈秀纪.基于长度的扩展方法的汉英句子对齐[J].中文信息学报,2005,19(5):31-36. 被引量：24
3李德俊.基于英汉平行语料库的词典编写系统CpsDict的研制[J].现代外语,2006,29(4):371-381. 被引量：14
4宋冰,李锡祚,安纪霞.双语对齐技术在双语教学词典自动编纂中的应用[J].计算机与数字工程,2007,35(11):153-157. 被引量：2
5李晓光,王鹏,张威,王大玲.面向多领域资源的汉英双语语料库构建的研究[J].计算机应用,2008,28(1):146-148. 被引量：2
6林哲辉,贾剑锋,郭文.新闻领域双语语料建设与句子对齐方法的研究[J].电脑与信息技术,2008,16(1):5-7.
7王占军,姚卫东.一种汉英双语句子自动对齐算法[J].计算机仿真,2009,26(2):329-333. 被引量：4
8热西旦.塔依,吐尔根.依布拉音.汉文-维吾尔文双语语料库中基于词典译文的句子对齐方法研究[J].新疆大学学报（自然科学版）,2009,26(3):359-363. 被引量：4
9姜怡,姜欣,王大鹏.基于多级锚点词的典籍英汉双语对齐研究——以《茶经》及其译文为例[J].中国外语,2010,7(1):92-97. 被引量：9
10玛依拉.艾尼扎提,胡学钢.一种基于汉维对齐的双语语料库的获取方法[J].合肥工业大学学报（自然科学版）,2011,34(11):1670-1673.

二级引证文献64

1黄俊红,范云,黄萍.双语平行语料库对齐技术述评[J].外语电化教学,2007(6):21-25. 被引量：20
2昝红英,张霞,刘亚雷.基于多种长度单位的汉英句子分组对齐算法[J].郑州大学学报（理学版）,2009,41(2):33-36. 被引量：2
3陆军,张乐.语料库语言学发展新动态——语料库语言学发展战略研讨会综述[J].当代外语研究,2010(2):32-35. 被引量：1
4吕学强,吴宏林,姚天顺.无双语词典的英汉词对齐[J].计算机学报,2004,27(8):1036-1045. 被引量：11
5李德俊.基于英汉平行语料库的词典编写系统CpsDict的研制[J].现代外语,2006,29(4):371-381. 被引量：14
6宋冰,李锡祚,安纪霞.双语对齐技术在双语教学词典自动编纂中的应用[J].计算机与数字工程,2007,35(11):153-157. 被引量：2
7郭锐,宋继华,廖敏.基于自动句对齐的相似古文句子检索[J].中文信息学报,2008,22(2):87-91. 被引量：15
8李英,吐尔根.依布拉音.双语句子对齐算法分析[J].现代计算机,2008,14(12):71-74.
9陈相,林鸿飞.基于锚信息的生物医学文献双语摘要句子对齐[J].中文信息学报,2009,23(1):58-62. 被引量：4
10李德俊.完全对等、零对等的考察与汉英双语词典研编——基于平行语料库的研究[J].辞书研究,2009(2):55-66. 被引量：10

1塞麦提.麦麦提敏,侯敏,吐尔根.伊布拉音.基于锚点句对的汉维句子对齐方法[J].计算机工程,2015,41(4):166-170. 被引量：5
2张艳,柏冈秀纪.基于长度的扩展方法的汉英句子对齐[J].中文信息学报,2005,19(5):31-36. 被引量：24
3张霞,昝红英,张恩展.汉英句子对齐长度计算方法的研究[J].计算机工程与设计,2009,30(18):4356-4358. 被引量：7
4热西旦.塔依,吐尔根.依布拉音.汉文-维吾尔文双语语料库中基于词典译文的句子对齐方法研究[J].新疆大学学报（自然科学版）,2009,26(3):359-363. 被引量：4
5李英,吐尔根.依布拉音.双语句子对齐算法分析[J].现代计算机,2008,14(12):71-74.
6陈相,林鸿飞,杨志豪.基于高斯混合模型的生物医学领域双语句子对齐[J].中文信息学报,2010,24(4):68-73. 被引量：3
7李英,李亚.一种基于词典和长度相结合的汉-维句子对齐算法[J].新乡学院学报,2012,29(1):66-68.
8陈相,林鸿飞.基于锚信息的生物医学文献双语摘要句子对齐[J].中文信息学报,2009,23(1):58-62. 被引量：4
9申丽平.WordNet在查询扩展中的应用研究[J].科技信息,2009(14):219-220. 被引量：1
10王继曾,任浩征,罗恒,刘宽.基于统计的句法分析方法研究[J].计算机工程与设计,2006,27(12):2207-2210. 被引量：2

计算机学报

1998年第S1期

浏览历史

内容加载中请稍等...

基于自动抽取词汇信息的双语句子对齐被引量：17

同被引文献32

引证文献17

二级引证文献64

相关作者

相关机构

相关主题

浏览历史

基于自动抽取词汇信息的双语句子对齐 被引量：17

同被引文献32

引证文献17

二级引证文献64

相关作者

相关机构

相关主题

浏览历史

基于自动抽取词汇信息的双语句子对齐被引量：17