期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
汉语语句的自动改写 被引量:6
1
作者 张玉洁 山本和英 《中文信息学报》 CSCD 北大核心 2003年第6期31-38,共8页
在基于转换方式的口语机器翻译中 ,口语的多样性和不规则性加重了转换模块的处理负担。另外 ,由于缺少双语语料库和懂双语的语言学家 ,使得翻译知识的开发很困难或成本很高。为了解决这些问题 ,我们提出了在翻译前对源语言的语句进行自... 在基于转换方式的口语机器翻译中 ,口语的多样性和不规则性加重了转换模块的处理负担。另外 ,由于缺少双语语料库和懂双语的语言学家 ,使得翻译知识的开发很困难或成本很高。为了解决这些问题 ,我们提出了在翻译前对源语言的语句进行自动改写的方法 ,试图通过加强源语言的处理来分散转换模块的负担。本文介绍了汉日口语机器翻译系统中汉语语句改写模块的开发。作者在分析了口语句子的改写目标后 ,提出了基于模板匹配的改写方法和从改写语料库中获取改写模板的半自动化方法。作者还介绍了改写模块的设计与实现 ,以及评价试验和结果。 展开更多
关键词 人工智能 机器翻译 语句改写 汉语口语 模板匹配 语句改写语料库
下载PDF
基于自动构建语料库的词汇级复述研究 被引量:3
2
作者 赵世奇 刘挺 李生 《电子学报》 EI CAS CSCD 北大核心 2009年第5期975-980,共6页
本文针对词汇级复述问题提出了一种新的方法.该方法首先利用翻译引擎将双语平行语料库自动转换为单语平行语料库,以此构建复述语料库并用于候选复述的抽取.在此基础上,本文提出了一种新的统计模型.该模型根据特定的上下文为待复述词选... 本文针对词汇级复述问题提出了一种新的方法.该方法首先利用翻译引擎将双语平行语料库自动转换为单语平行语料库,以此构建复述语料库并用于候选复述的抽取.在此基础上,本文提出了一种新的统计模型.该模型根据特定的上下文为待复述词选择最为合适的复述.实验结果表明自动构建的复述语料库对于词汇级复述的抽取是有效的.同时,本文提出的模型明显优于两种传统模型,在准确率和召回率上分别提高10%左右. 展开更多
关键词 词汇级复述 复述语料库 复述模型
下载PDF
基于移动端的神经网络汉英翻译模型 被引量:1
3
作者 成洁 《计算机测量与控制》 2020年第10期186-190,共5页
为了使中英文翻译更加智能以及更加合理,采用句子级的释义对译文进行改写,将其视为同一语言之间的翻译任务;在没有大规模平行释义语料库的情况下,利用机器翻译结果和源语言的参考翻译来近似平行释义语料库;然后,利用该模型训练一个从机... 为了使中英文翻译更加智能以及更加合理,采用句子级的释义对译文进行改写,将其视为同一语言之间的翻译任务;在没有大规模平行释义语料库的情况下,利用机器翻译结果和源语言的参考翻译来近似平行释义语料库;然后,利用该模型训练一个从机器翻译结果到参考翻译的重复系统,生成语义一致的句子级重复结果;在此基础上,将重述结果引入系统整合的翻译假设中;最后,在翻译和释义的基础上,进行了面向移动应用的设计和开发,实现了中英文机器翻译;通过实验发现,该方法相对于经典的基线系统提高了1.02-1.71BLEU分数。 展开更多
关键词 机器学习 机器翻译 RNN 神经网络 释义 语料库
下载PDF
基于多翻译引擎的汉语复述平行语料构建方法 被引量:3
4
作者 王雅松 刘明童 +3 位作者 马彬彬 张玉洁 徐金安 陈钰枫 《情报工程》 2020年第5期27-40,共14页
复述指同一语言内相同意思的不同表达,复述生成指同一种语言内意思相同的不同表达之间的转换,是改进信息检索、机器翻译、自动问答等自然语言处理任务不可或缺的基础技术。目前,复述生成模型性能都依赖于大量平行的复述语料,而很多语言... 复述指同一语言内相同意思的不同表达,复述生成指同一种语言内意思相同的不同表达之间的转换,是改进信息检索、机器翻译、自动问答等自然语言处理任务不可或缺的基础技术。目前,复述生成模型性能都依赖于大量平行的复述语料,而很多语言并没有可用的复述资源,使得复述生成任务的研究无法开展。针对复述语料十分匮乏的问题,我们以汉语为研究对象,提出基于多翻译引擎的复述平行语料构建方法,将英语复述平行语料迁移到汉语,构建大规模高质量汉语复述平行语料,同时构建有多个参考复述的汉语复述评测数据集,为汉语复述生成的研究提供一定的基础数据。基于构建的汉语复述语料,我们进一步对汉语复述现象进行总结和归纳,并进行复述生成研究。我们构建基于神经网络编码-解码框架的汉语复述生成模型,采用注意力机制、复制机制和覆盖机制解决汉语复述生成中的未登录词和重复生成问题。为了缓解复述语料不足导致的神经网络复述生成模型性能不高的问题,我们引入多任务学习框架,设计联合自编码任务的汉语复述生成模型,通过联合学习自编码任务来增强复述生成编码器语义表示学习能力,提高复述生成质量。我们利用联合自编码任务的复述生成模型进行汉语复述生成实验,在评测指标ROUGE-1、ROUGE-2、BLEU、METEOR上以及生成汉语复述实例分析上均取得了较好性能。实验结果表明所构建的汉语复述平行语料可以有效训练复述生成模型,生成高质量的汉语复述句。同时,联合自编码的汉语复述生成模型,可以进一步改进汉语复述生成的质量。 展开更多
关键词 复述语料构建 汉语复述现象分类 复述生成 多任务学习 自编码任务
下载PDF
基于多译文的中文转述语料库建设及转述评价方案 被引量:4
5
作者 阮翀 施文娴 +2 位作者 李岩昊 翁伊嘉 胡俊峰 《中文信息学报》 CSCD 北大核心 2018年第12期67-75,共9页
转述语料是转述现象研究的基础。针对目前学术界中文转述语料稀缺的现状,该文以《简爱》的多个中文译本为基础,通过句对齐得到五万句级别的平行转述语料(1)。使用无监督的小句对齐和词对齐算法,从语料中挖掘到九千多对词汇转述知识。同... 转述语料是转述现象研究的基础。针对目前学术界中文转述语料稀缺的现状,该文以《简爱》的多个中文译本为基础,通过句对齐得到五万句级别的平行转述语料(1)。使用无监督的小句对齐和词对齐算法,从语料中挖掘到九千多对词汇转述知识。同时,还复现和改进了机器翻译测评指标Meteor,使得该指标更适合于中文转述句子的测评,并构造了一个中文句子转述测评数据集,以便对不同的转述知识和评价指标进行比较。实验表明,该文算法挖掘到的词汇转述知识在封闭测试中不逊于《同义词词林》。 展开更多
关键词 转述知识挖掘 转述评价指标 转述语料库建设
下载PDF
复述平行语料构建及其应用方法研究 被引量:2
6
作者 王雅松 刘明童 +2 位作者 张玉洁 徐金安 陈钰枫 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2021年第1期68-74,共7页
以汉语为研究对象,提出构建大规模高质量汉语复述平行语料的方法。基于翻译引擎进行复述数据增强,将英语复述平行语料迁移到汉语中,同时人工构建汉语复述评测数据集。基于构建的汉语复述数据,在复述识别和自然语言推理任务中验证复述数... 以汉语为研究对象,提出构建大规模高质量汉语复述平行语料的方法。基于翻译引擎进行复述数据增强,将英语复述平行语料迁移到汉语中,同时人工构建汉语复述评测数据集。基于构建的汉语复述数据,在复述识别和自然语言推理任务中验证复述数据构建及其应用方法的有效性。首先基于复述语料生成复述识别数据集,预训练基于注意力机制的神经网络句子匹配模型,训练模型捕获复述信息,然后将预训练的模型用于自然语言推理任务,改进其性能。在自然语言推理公开数据集上的评测结果表明,所构建的复述语料可有效地应用在复述识别任务中,模型可以学习复述知识。应用在自然语言推理任务中时,复述知识能有效地提升自然语言推理模型的精度,从而验证了复述知识对下游语义理解任务的有效性。所提出的复述语料构建方法不依赖语种,可为其他语言和领域提供更多的训练数据,生成高质量的复述数据,改进其他任务的性能。 展开更多
关键词 复述语料构建 数据增强 迁移学习 复述识别 自然语言推理
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部