大规模句子相似度计算方法被引量：6

Approach of Large-Scale Sentence Similarity Computation

下载PDF

导出

摘要如何根据源语言文本从大规模语料库中找出其最相近的翻译实例，即句子相似度计算，是基于实例翻译方法的关键问题之一。本文提出一种多层次句子相似度计算方法：首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例，然后针对这些候选实例进行泛化匹配，从而计算出相似句子。在多策略机器翻译系统IHSMTS中的实验表明，当语料规模为20万英汉句对时，系统提取相似句子的召回率达96％。准确率达90％，充分说明了本文算法的有效性。 The retrieval of the similar translation examples corresponding to the SL sentence from the large-scale corpora, or the computation of sentence similarity, is one of the key problems of EBMT. A new multi-layer sentence similarity computation approach is proposed in this paper. First, a few candidate translation examples are selected form a large-scale corpus on the basis of the surface features and entropies of the given words. Second, the degree of generalization match between the input sentence and each of those candidate translation examples is computed respectively. Finally, the sentence similarity is computed according to the outcomes of the previous two steps. Experimental results from tests on IHSMTS show that this approach has a recall rate of 96% and a precision rate of 90% when applied to a corpus of 200,000 English-Chinese sentence pairs.

作者黄河燕陈肇雄张孝飞张克亮

机构地区中国科学院计算机语言信息工程研究中心南京理工大学

出处《中文信息学报》 CSCD 北大核心 2006年第B03期47-52,共6页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目（60502048,60272088）国家863计划资助项目（2002AA117010-02）

关键词句子相似度基于实例的机器翻译多策略机器翻译泛化匹配 sentence similarity example-based machine translation hybrid-strategy machine translation generaliza-tion matching

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1H. Maruyama and H. Watanabe. Tree Cover Search Algorithm for Example-Based Translation [A]. In: Proceeding of the Fourth International Conference on Theoretical and Methodological Issues in Machine Translation[C] (TMI-92). Montreal, 1992, 173-184. 被引量：1
2Ralf D. Brown, Example-Based Machine Translation in the Pang, loss System[A]. In: Proceedings of the 16th International Conference on Computational Linguistics [C] (COLING-96).. Copenhagen, Denmark, August 5-9, 1996, 169-174. 被引量：1
3Keiji Yasuda, Fumiali Suagya, etc, An Automatic Evaluation Method of Translation Quality Using Translation Answer Candidates Queried from a Paralledl Corpus [A]. In: Proceeding of MT Summit's conference [C].Santiago de Compostela, 2001. 被引量：1
4Jianmin Yao, Ming Zhou etc, An Automatic Evaluation Method for Localization Oriented Lexicalised EBMT System [A]. In: Proceeding of the 19th International Confernce on Computational Linguistics [C] (COLING2002).Taipei, 2002. 被引量：1
5Yasuhiro Akiba, Kenji Imamura, and Eiichiro Sumita, Using Multiple Edit Distances to Automatically Rank Machine Translation Output [A]. In: Proceeding of MT Summit's conference [C]. Santiago de Compostela, 2001. 被引量：1
6黄河燕陈肇雄.基于多策略的交互式智能辅助翻译平台总体设计[A].黄河燕主编.机器翻译研究进展[M].北京:电子工业出版社,2002年11月.137-146. 被引量：3

共引文献2

1张孝飞,陈肇雄,黄河燕,代六玲.多策略机器翻译系统IHSMTS中候选实例模式检索算法[J].小型微型计算机系统,2005,26(3):330-334. 被引量：2
2张孝飞,陈肇雄,黄河燕,胡春玲.多策略机器翻译系统IHSMTS中实例模式泛化匹配算法[J].中文信息学报,2005,19(4):1-9. 被引量：1

同被引文献79

1李卫,王枞,李蕾,郭燕慧,钟义信.全信息知识制导的科技期刊初审辅助系统[J].北京邮电大学学报,2006,29(z2):127-132. 被引量：2
2朱礼军,陶兰,刘慧.领域本体中的概念相似度计算[J].华南理工大学学报（自然科学版）,2004,32(z1):147-150. 被引量：48
3董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
4那顺乌日图.计算机处理现代蒙古语TAI、TEI形式的尝试[J].民族语文,1991(3):74-79. 被引量：2
5车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
6姚建民,周明,赵铁军,李生.基于句子相似度的机器翻译评价方法及其有效性分析[J].计算机研究与发展,2004,41(7):1258-1265. 被引量：17
7林贤明,李堂秋,陈毅东.句子相似度的动态规划求解及改进[J].计算机工程与应用,2004,40(35):64-65. 被引量：6
8王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
9张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
10金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80

引证文献6

1侯宏旭,刘群,那顺乌日图.基于实例的汉蒙机器翻译[J].中文信息学报,2007,21(4):65-72. 被引量：16
2化柏林.基于句子匹配的文章自写度测评系统[J].现代图书情报技术,2007(11):40-44. 被引量：2
3巢文涵,李舟军,陈跃新.一种用于机器翻译的相似句对检索方法[J].计算机工程与科学,2008,30(9):132-136.
4朱姝,张政.基于多层次句子相似度与向量空间模型的词义消歧[J].北京工商大学学报（自然科学版）,2009,27(2):68-72. 被引量：2
5周峰,朱俊武,童林,陈伟聪,陈波.无关语获取与语料聚类方法研究[J].南京师大学报（自然科学版）,2014,37(4):150-157. 被引量：2
6张克亮,李芊芊.基于本体的语义相似度计算研究[J].郑州大学学报（理学版）,2019,0(2):52-59. 被引量：11

二级引证文献33

1裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：3
2杨攀,张建,李淼,乌达巴拉,雪艳.汉蒙统计机器翻译中的形态学方法研究[J].中文信息学报,2009,23(1):50-57. 被引量：10
3侯宏旭,刘群,李锦涛.一种基于短语的汉蒙统计机器翻译与调序模型[J].高技术通讯,2009,19(5):475-479. 被引量：3
4李纲,寇广增,夏晨曦,全吉,张东赫.中文词义消歧上下文最优边界问题研究[J].现代图书情报技术,2009(7):49-53. 被引量：1
5王森,王宇.基于文本结构树的论文复制检测算法[J].现代图书情报技术,2009(10):50-55. 被引量：4
6刘志文,侯宏旭,李沙茹拉,柳林.基于trigger对的蒙古语语言模型的三种实现方法比较[J].中文信息学报,2009,23(6):105-109. 被引量：1
7赵俊杰.学术论文抄袭检测方法研究综述[J].湖南工业大学学报（社会科学版）,2010,15(1):157-159. 被引量：3
8王斯日古楞,斯琴图,那顺乌日图.基于短语的汉蒙统计机器翻译研究[J].计算机工程与应用,2010,46(14):138-142. 被引量：6
9赵伟,侯宏旭,从伟,宋美娜.基于条件随机场的蒙古语词切分研究[J].中文信息学报,2010,24(5):31-35. 被引量：13
10王斯日古楞,斯琴图,那顺乌日图.汉蒙机器翻译系统中量词翻译研究[J].中文信息学报,2010,24(5):92-95. 被引量：3

1张孝飞,陈肇雄,黄河燕,胡春玲.多策略机器翻译系统IHSMTS中实例模式泛化匹配算法[J].中文信息学报,2005,19(4):1-9. 被引量：1
2朱姝,张政.基于多层次句子相似度与向量空间模型的词义消歧[J].北京工商大学学报（自然科学版）,2009,27(2):68-72. 被引量：2
3张小艳.中文主观题自动批改中相似句子检索算法[J].南京师范大学学报（工程技术版）,2007,7(2):62-66. 被引量：3
4张孝飞,陈肇雄,黄河燕,代六玲.多策略机器翻译系统IHSMTS中候选实例模式检索算法[J].小型微型计算机系统,2005,26(3):330-334. 被引量：2
5王忠民.交互图式翻译实例绘制[J].经济技术协作信息,2006(4):60-61.
6申文明,黄家裕,刘连芳.平行语料库的相似语句去重算法[J].广西科学院学报,2009,25(4):248-250. 被引量：4
7吕学强,任飞亮,黄志丹,姚天顺.句子相似模型和最相似句子查找算法[J].东北大学学报（自然科学版）,2003,24(6):531-534. 被引量：68
8晋薇,夏云庆,王建德.多策略机器翻译系统IHSMTS中模式库的设计[J].微型电脑应用,2002,18(3):5-9. 被引量：1
9晋薇,夏云庆,王建德.交互式机译系统IHSMTS的多策略翻译引擎[J].计算机工程,2002,28(7):58-60. 被引量：1
10郭锐,宋继华,廖敏.基于自动句对齐的相似古文句子检索[J].中文信息学报,2008,22(2):87-91. 被引量：15

中文信息学报

2006年第B03期

浏览历史

内容加载中请稍等...

大规模句子相似度计算方法被引量：6

参考文献6

共引文献2

同被引文献79

引证文献6

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

大规模句子相似度计算方法 被引量：6

参考文献6

共引文献2

同被引文献79

引证文献6

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

大规模句子相似度计算方法被引量：6