-
题名基于短语统计翻译的汉维机器翻译系统
被引量:5
- 1
-
-
作者
杨攀
李淼
张建
-
机构
中国科学院合肥智能机械研究所
中国科学技术大学信息科学技术学院
-
出处
《计算机应用》
CSCD
北大核心
2009年第7期2022-2025,共4页
-
基金
中国科学院知识创新工程重要方向项目(KGCX2-SW-511)
-
文摘
描述了一种基于短语统计翻译的汉维机器翻译系统。首先使用汉维语料进行训练,得到语言模型和翻译模型;再利用训练好的模型对源语句进行解码,以得到最佳的翻译语句。解码的核心算法是柱搜索(beam search)算法。其中维文语料使用的是拉丁维文。实验结果表明,基于短语的统计机器翻译方法可以快速有效地构建一个汉维机器翻译平台。
-
关键词
短语统计翻译
语言模型
翻译模型
柱搜索算法
-
Keywords
phrase-based statistical translation
language model
translation model
beam search algorithm
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于短语模糊匹配和句子扩展的统计翻译方法
被引量:4
- 2
-
-
作者
刘鹏
宗成庆
-
机构
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2009年第5期40-46,共7页
-
基金
国家自然科学基金资助项目(60575043
60736014)
+1 种基金
国家863计划资助项目(2006AA01Z194
2006AA010108)
-
文摘
近几年来,基于短语的统计翻译模型在机器翻译研究中受到普遍关注,并取得了较好的翻译性能。但是,由于目前基于短语的翻译系统在解码时采用精确匹配的策略,常常导致数据稀疏,一方面,有些短语在训练获得的短语表中找不到精确的匹配,使其成为未知短语;另一方面,短语表中大量的短语无法得到充分的利用。为此,我们提出了基于短语模糊匹配和句子扩展的翻译方法。对于不存在于短语表中的短语,通过模糊匹配的办法,寻找与其相似的短语,然后将所有相似短语用于替换原短语,从而生成扩展句子,在此基础上对所有扩展的句子进行翻译。由于并不是所有扩展后的句子都能提高原始句子的翻译效果,因此,我们在句子翻译完成后设置了组合分类器用于选择最优翻译结果。实验证明,这种方法可以有效地提高翻译系统的译文质量。
-
关键词
人工智能
机器翻译
基于短语的统计机器翻译
模糊匹配
组合分类器
-
Keywords
artificial intelligence
machine translation
phrase-based statistical machine translation
fuzzy matching
combination classifier
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于短语相似度的统计机器翻译模型
被引量:3
- 3
-
-
作者
何中军
刘群
林守勋
-
机构
中国科学院计算技术研究所中国科学院智能信息处理重点实验室
中国科学院研究生院
-
出处
《高技术通讯》
EI
CAS
CSCD
北大核心
2009年第4期337-341,共5页
-
基金
863计划(2006AA010108)
国家自然科学基金(60573188
+1 种基金
60603095
60736014)资助项目
-
文摘
针对基于短语的统计机器翻译(SMT)模型中由于采用精确匹配策略导致的短语稀疏问题,提出了一种基于短语相似度的统计机器翻译模型。该模型将基于实例的翻译方法引入到统计机器翻译中。翻译时,对于训练语料库中未出现过的短语,通过计算源语言短语之间的相似度,采用模糊匹配策略从短语表中查找相似的实例短语,并根据实例短语为其构造翻译。与精确匹配策略相比,利用相似度进行模糊匹配增加了对短语表的利用程度,缓解了短语稀疏问题。实验表明,该模型能够明显地提高统计机器翻译的质量,效果超过了当前最好的短语系统'摩西(Moses)'。
-
关键词
相似度
基于短语的统计机器翻译
基于实例的机器翻译
-
Keywords
similarity, phrase-based statistical machine translation, example-based machine translation
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
TP18
[自动化与计算机技术—计算机科学与技术]
-
-
题名人机互助的交互式口语翻译方法
- 4
-
-
作者
刘鹏
宗成庆
-
机构
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2009年第3期58-64,共7页
-
基金
国家自然科学基金资助项目(60575043
60736014)
+1 种基金
支撑计划资助项目(2006BAH03B02)
国家863计划资助项目(2006AA01Z194)
-
文摘
基于短语的统计翻译模型是目前机器翻译领域广泛使用的模型之一。但是,由于在解码时采用短语精确匹配的策略,造成了严重的数据稀疏问题,短语表中的大量短语无法得到充分利用。为此,该文提出了人机互助的交互式翻译方法。对于翻译短语表中找不到的短语,首先通过模糊匹配的方法,在短语表中寻找与其相似的短语。然后利用组合分类器,判断哪些相似短语可能提高句子的翻译质量。最后,通过人机交互的方法,选择可能提高翻译质量且保持原句语义的短语。在口语语料上的实验结果证明,这种方法可以有效地提高翻译系统的译文质量。
-
关键词
人工智能
机器翻译
口语翻译
基于短语的统计机器翻译
人机交互
模糊匹配
-
Keywords
artificial intelligence
machine translation
spoken language translation
phrase-based statistical machine translation
human machine interaction
fuzzy matching
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于虚拟上下文的统计机器翻译短语表的过滤
被引量:1
- 5
-
-
作者
殷乐
张玉洁
徐金安
-
机构
北京交通大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2013年第6期139-143,共5页
-
基金
北京交通大学人才基金资助项目(KKRC11001532)
-
文摘
在基于短语的统计机器翻译系统中,自动抽取的短语表中不可避免的包含大量的冗余和错误的短语对,这浪费了解码资源又影响翻译质量。为了缓解这个问题,该文提出一种基于虚拟上下文的过滤短语表的方法。该方法引入虚拟上下文计算短语对的得分增量;并通过计算最大和最小的短语对的得分增量,设计了一种对短语对重排序的过滤策略。我们在NTCIR-9的中英数据上进行了验证实验,结果显示,当短语表的规模下降到原来的47%时,翻译质量的BLEU值提高了0.000 5;当短语表的规模下降到原来的30%时,BLEU值仅下降0.000 6。实验结果表明,在大规模短语表的过滤中,该文的方法是有效可行的。
-
关键词
基于短语的统计机器翻译
短语表过滤
虚拟上下文
-
Keywords
phrase-based statistical machine translation, filter phrase table, virtual context
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于短语的统计机器翻译中汉维短语对抽取算法改进
- 6
-
-
作者
任高举
吐尔根.伊布拉音
艾山.吾买尔
-
机构
新疆大学信息科学与工程学院
-
出处
《现代计算机》
2010年第5期9-11,共3页
-
基金
国家自然科学基金(No.60663006
60763006)
-
文摘
提出一种改进的短语抽取算法,该算法首先考虑词对齐矩阵中一个汉语词对齐到多个维语词的情况(包括不连续),然后采用Och方法进行判断。如果满足条件则进行短语抽取。试验结果表明,改进后的短语抽取算法能够抽取出更多汉维短语对,提高短语翻译对抽取的效果。
-
关键词
基于短语的统计机器翻译
短语抽取
汉维短语对
翻译模型
-
Keywords
phrase-based statistical Machine translation
phrase Extraction
Chinese-Uyghur phrase Pairs
translation Model
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于统计和模板的双层翻译研究
- 7
-
-
作者
张贯虹
高玲玲
-
机构
合肥学院网络与智能信息处理重点实验室
-
出处
《电脑知识与技术》
2008年第11Z期1247-1249,共3页
-
基金
合肥学院2008年度院科研发展基金项目(08KY018ZR)
-
文摘
为了提高翻译系统的翻译准确率,在短语基础上结合模板的方法自动抽取模板结构;解码时,首先进行模板匹配,套用模板结构进行翻译,然后再按照Beam Search搜索算法进行后续翻译。因此,该方法可以有效地解决单一的统计翻译中语序错误。以汉蒙翻译为例,实验结果显示此方法可以有效地提高翻译效果,翻译效率比基于短语的统计翻译方法提高10%。
-
关键词
基于短语的统计机器翻译
模板抽取
短语模型
语言模型
翻译模型
-
Keywords
phrase-based statistical machine translation
template extraction
phrase model
language model
translation model
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术][自动化与计算机技术—计算机科学与技术]
-
-
题名基于立方剪枝的短语机器解码算法改进
- 8
-
-
作者
朱海
李淼
乌达巴拉
张建
-
机构
中国科学院合肥智能机械研究所
中国科学技术大学信息科学技术学院
-
出处
《微电子学与计算机》
CSCD
北大核心
2011年第2期153-156,共4页
-
基金
中国科学院知识创新工程重要方向项目(KGCX2-SW-511)
-
文摘
柱搜索算法是短语统计机器翻译广泛使用的解码算法.文中在立方剪枝算法的基础上提出了另一种对柱搜索算法的改进算法-基于立方剪枝的逆向递归算法.柱搜索算法对栈中所有的假进行扩展,立方剪枝算法有选择地扩展栈中的前k个最好假设,而基于立方剪枝的逆向递归算法只扩展栈中评分高的假设.实验结果表明获得相同的翻译质量,立方剪枝算法比柱搜索算法快10倍,立方剪枝的改进算法在大规模语料中比立方剪枝算法更节省时间.
-
关键词
基于短语统计机器翻译系统
柱搜索算法
立方剪枝
逆向递归
-
Keywords
phrase-based statistical machine translation
beam search
cube pruning
reverse recursive
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于中心/修饰依存重排序模型的短语SMT
被引量:1
- 9
-
-
作者
刘水
李生
赵铁军
刘鹏远
-
机构
哈尔滨工业大学计算机科学与技术系
北京语言大学应用语言学研究所
-
出处
《软件学报》
EI
CSCD
北大核心
2012年第5期1120-1131,共12页
-
基金
国家自然科学基金(60603032)
国家高技术研究发展计划(863)(2006AA010108)
-
文摘
为了提高基于短语的机器翻译系统的重排序能力,提出了一个基于源语言端的中心-修饰依存结构的重排序模型,并将该重排序模型以软约束的方式加入到机器翻译系统中.该排序模型提出了一种在机器翻译中应用句法树资源的方法,将句法树结构,通过将句法树映射成中心-修饰词的依存关系集合.该重排序模型在基于短语系统的默认参数设置下,显著地提升了系统的翻译质量.在系统原有的词汇化的重排序模型基础上,该重排序模型在翻译模型中融入了句法信息.实验结果显示,该模型可以明显地改善机器翻译系统的局部调序.
-
关键词
短语机器翻译
重排序模型
中心修饰依存关系
无词汇化
-
Keywords
phrase-based SMT (statistical machine translation)
reordering model
head-modifier relationship
non-lexicalized
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-