期刊文献+
共找到123篇文章
< 1 2 7 >
每页显示 20 50 100
基于长度的扩展方法的汉英句子对齐 被引量:24
1
作者 张艳 柏冈秀纪 《中文信息学报》 CSCD 北大核心 2005年第5期31-36,58,共7页
本文提出了一种用于汉英平行语料库对齐的扩展方法。该扩展方法以基于长度的统计对齐方法为主,然后根据双语词典引入了词汇信息,而基于标点的方法作为对齐的后处理部分。这种扩展方法不仅避免了复杂的中文处理,例如,汉语分词和词性标注... 本文提出了一种用于汉英平行语料库对齐的扩展方法。该扩展方法以基于长度的统计对齐方法为主,然后根据双语词典引入了词汇信息,而基于标点的方法作为对齐的后处理部分。这种扩展方法不仅避免了复杂的中文处理,例如,汉语分词和词性标注,而且在统计方法中引入了关键词信息,以提高句子对齐的正确率。本文中所用的双语语料是LDC的关于香港的双语新闻报道。动态规划算法用于系统的实现。和单纯的基于长度的方法和词汇方法相比,我们的扩展方法提高了句子对齐的正确率,并且结果是比较理想的。 展开更多
关键词 人工智能 机器翻译 句子对齐 中文处理 双语语料库
下载PDF
基于长度和位置信息的双语句子对齐方法 被引量:25
2
作者 李维刚 刘挺 +1 位作者 张宇 李生 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2006年第5期689-692,共4页
提出了一种利用句子长度和位置信息的双语句子对齐方法,该方法的根本思想是:一定长度的句对在双语文本中的位置分布是相似的,利用(1∶1)型的句珠代替高频词作为候选锚点,使这种方法具有通用性.利用多种形式的测试数据进行的评价结果显示... 提出了一种利用句子长度和位置信息的双语句子对齐方法,该方法的根本思想是:一定长度的句对在双语文本中的位置分布是相似的,利用(1∶1)型的句珠代替高频词作为候选锚点,使这种方法具有通用性.利用多种形式的测试数据进行的评价结果显示,这种方法有着良好的健壮性和语言无关性,有效地解决了双语真实文本的句子对齐问题. 展开更多
关键词 句子对齐 双语语料库 锚点 长度和位置
下载PDF
面向汉英机器翻译的双语语料库的建设及其管理 被引量:19
3
作者 常宝宝 詹卫东 张华瑞 《术语标准化与信息技术》 2003年第1期28-31,共4页
近年来,在语言信息处理的研究和开发中,单语和多语语料库(主要是双语语料库)的作用日益突显出来。为了支持一项正在进行的汉英机器翻译系统的开发,我们建立了一个汉英双语语料库。本文简要介绍了该语料库的建设和管理情况。
关键词 编码 汉语 英语 双语语料库 机器翻译 标记 标注 设计 语料收集
下载PDF
基于汉英双语语料库的翻译等价单位自动获取研究 被引量:17
4
作者 常宝宝 《术语标准化与信息技术》 2002年第2期24-29,共6页
双语语料库在机器翻译或机器辅助翻译研究中的重要作用已经越来越多地得到研究人员的认可。本文探讨了如何利用汉英双语语料进行汉英翻译等价单位的抽取,提出了基于词语关联度进行多词组合单位的识别方法,并利用假设-检验的方法,在汉英... 双语语料库在机器翻译或机器辅助翻译研究中的重要作用已经越来越多地得到研究人员的认可。本文探讨了如何利用汉英双语语料进行汉英翻译等价单位的抽取,提出了基于词语关联度进行多词组合单位的识别方法,并利用假设-检验的方法,在汉英双语语料库中抽取翻译等价单位。本文还对不同的关联度量方法进行了对比,并提出利用范畴假设改进抽取算法的效率。 展开更多
关键词 英语 汉语 双语语料库 翻译等价单位 自动抽取
下载PDF
论实施中国标准“走出去”战略的语言服务路径 被引量:17
5
作者 王立非 蒙永业 《中国标准化》 2016年第3期34-39,46,共7页
中国企业、资本、技术走出去迫切需要中国标准先行,而相关的语言服务相对滞后。日、韩、德等国的标准英文版率均达到40%以上,而我国尚还不足5%。在中国标准国际化过程中,呼吁要大批量翻译中国标准英文版、积极参与国际标准化活动,其中... 中国企业、资本、技术走出去迫切需要中国标准先行,而相关的语言服务相对滞后。日、韩、德等国的标准英文版率均达到40%以上,而我国尚还不足5%。在中国标准国际化过程中,呼吁要大批量翻译中国标准英文版、积极参与国际标准化活动,其中核心都是语言服务问题。本文提出,要实施中国标准"走出去"战略,至少需要分四步来完成:第一,加强基础中英文语言基础教育与标准化知识教育;第二,培养标准国际化职业人才,构建双语标准平行语料库与智能云翻译平台;第三,翻译中国标准英文版,参与国际化工作,设立中国标准化驻外机构;第四,在国际项目中采用中国标准,将中国标准转化为国际标准。 展开更多
关键词 标准国际化 标准英文版 双语语料库 智能翻译平台
下载PDF
基于统计的翻译等价词对抽取研究 被引量:11
6
作者 常宝宝 《计算机学报》 EI CSCD 北大核心 2003年第5期616-621,共6页
对利用汉英双语语料进行翻译等价词对抽取进行了探索 .对不同的词对关联度量方法进行了对比 ,考察了词性信息、多词翻译单元识别对翻译等价词对抽取结果所可能产生的改进以及负面影响 .
关键词 机器翻译 双语语料库 翻译等价词 统计 知识获取 单元识别
下载PDF
英汉平行语料库在双语词典编纂中的作用 被引量:13
7
作者 李德俊 《解放军外国语学院学报》 北大核心 2006年第3期41-44,64,共5页
语料库语言学与词典编纂的结合已有时日,但如何利用平行语料库编写双语词典的研究才刚刚开始。对于双语词典的编纂来说,平行语料库明显优于单语语料库。双语词典常称为“翻译词典”,对应词的选取被视为双语词典的核心。英汉平行语料库... 语料库语言学与词典编纂的结合已有时日,但如何利用平行语料库编写双语词典的研究才刚刚开始。对于双语词典的编纂来说,平行语料库明显优于单语语料库。双语词典常称为“翻译词典”,对应词的选取被视为双语词典的核心。英汉平行语料库中蕴藏着大量的双语对等翻译,能为英汉双语词典词汇对等系统的建立提供很大的帮助。此外,双语语料库在义项分析和排序、双语词典的配例、新词新义、词典立目、文化局限词的处理与搭配研究等方面也发挥着举足轻重的作用。 展开更多
关键词 词典学 双语词典 平行语料库 配例 文化局限
下载PDF
单语句法分析指导的双语结构对齐 被引量:5
8
作者 吕雅娟 赵铁军 李生 《计算机研究与发展》 EI CSCD 北大核心 2003年第7期970-976,共7页
提出了一种单语句法分析指导的双语语料库结构对齐方法 该方法以统计的双语模型———反向转换文法为基础 ,通过把英语句法分析知识融入到双语模型中 ,实现英汉双语的结构对齐 与现有方法相比 ,只需要一种语言的句法分析结果 ,避开了... 提出了一种单语句法分析指导的双语语料库结构对齐方法 该方法以统计的双语模型———反向转换文法为基础 ,通过把英语句法分析知识融入到双语模型中 ,实现英汉双语的结构对齐 与现有方法相比 ,只需要一种语言的句法分析结果 ,避开了汉语句法分析的难题 ,同时保证了双语结构对齐的语法合理性 实验结果表明 ,这种方法充分利用现有的句法分析知识 ,有效地提高了结构对齐的正确率 展开更多
关键词 双语语料库 词对齐 结构对齐 知识获取
下载PDF
基于有效句型的英汉双语短语对齐 被引量:6
9
作者 屈刚 陈笑蓉 陆汝占 《计算机研究与发展》 EI CSCD 北大核心 2003年第2期143-149,共7页
双语短语对齐的输入是源语言 (英语 )、目标语言 (汉语 )候选句法分析树集 由于翻译异常现象的大量存在 ,源语言句法树和目标语言句法树间往往不存在简单的对应关系 如何在翻译异常的情况下 ,从源语言、目标语言候选句法树集中排除歧... 双语短语对齐的输入是源语言 (英语 )、目标语言 (汉语 )候选句法分析树集 由于翻译异常现象的大量存在 ,源语言句法树和目标语言句法树间往往不存在简单的对应关系 如何在翻译异常的情况下 ,从源语言、目标语言候选句法树集中排除歧义 ,选出正确的句法树 ,并揭示其短语层次上的对应关系 ,是双语短语对齐的主要困难 提出的基于“有效句型”概念和“翻译中相对不变准则”的短语对齐模型基本解决了上述问题 双语短语对齐本身是一个复杂度较高的处理过程 ,提出的有关定理和算法使系统在保证对齐正确率的前提下 。 展开更多
关键词 有效包型 英汉双语短语对齐 自然语言处理 语料库 语言翻译
下载PDF
面向中文学术专著的机器辅助翻译研究 被引量:6
10
作者 柏晓静 俞士汶 《中国翻译》 CSSCI 北大核心 2006年第2期78-84,共7页
学术专著的对外传播对我国科学技术的发展意义重大。本文分析当前专著翻译工作中存在的问题和专著本身的特点,介绍一个面向中文学术专著的机器辅助翻译模型及其计算机辅助环境,用以细化专著翻译过程、规范人与计算机的分工与协作。实际... 学术专著的对外传播对我国科学技术的发展意义重大。本文分析当前专著翻译工作中存在的问题和专著本身的特点,介绍一个面向中文学术专著的机器辅助翻译模型及其计算机辅助环境,用以细化专著翻译过程、规范人与计算机的分工与协作。实际应用的结果表明,该模型及辅助翻译系统能有效地提高专著翻译工作的自动化程度,保证专著翻译的效率和质量。 展开更多
关键词 机器辅助翻译 中文学术专著 过程建模 翻译记忆 双语语料库
原文传递
科技大数据背景下的中英双语语料库的构建及其特点研究 被引量:5
11
作者 苏晓娟 张英杰 +1 位作者 白晨 吴思 《中国科技资源导刊》 2019年第6期87-92,共6页
首先通过对双语语料库全过程构建的描述,提出基于专业领域词库快速构建双语语料库的方式,并用于快速发现科技大数据基础语料的多属性,完成语料的标注,这对于科技大数据知识检索、知识图谱方面的应用具有基础性支撑作用。然后通过分析新... 首先通过对双语语料库全过程构建的描述,提出基于专业领域词库快速构建双语语料库的方式,并用于快速发现科技大数据基础语料的多属性,完成语料的标注,这对于科技大数据知识检索、知识图谱方面的应用具有基础性支撑作用。然后通过分析新时期科技大数据对语料库构建的要求,从期刊、专利中选择“分布式能源”主题数据集,结合“神经网络机器翻译+统计机器翻译”的机器翻译技术,构建形成20834个双语词对初试语料集,利用中国科学技术信息研究所专利数据库、德温特专利数据库形成6428条专利数据对双语词对初试语料集进行测试应用。最后从忠实度、流畅度、可理解度3个方面进行人工评测。 展开更多
关键词 科技大数据 双语语料库 机器学习 语料库构建 机器翻译引擎
下载PDF
基于限定领域的平行语料库的设计 被引量:1
12
作者 毕雪华 吐尔根.依布拉音 《电脑知识与技术》 2005年第9期77-78,共2页
作为一项重要的基础资源,双语平行语料库在人工智能领域的研究起着举足轻重的作用。我国涉及少数民族语言的双语语料库的探索工作相对较少,本文介绍了汉维双语语料库的建立过程,并对语料的收集整理和组织做了初步的设想。
关键词 双语语料库 语料整理 语料标注 语料对齐
下载PDF
基于预训练模型的机器翻译译文检测方法 被引量:4
13
作者 田科 张家俊 《情报工程》 2020年第5期15-26,共12页
机器翻译译文检测任务旨在大规模文本中判别每句话是机器翻译译文还是人工翻译译文。现有的机器翻译译文检测方法大都采用统计的方法提取特征,但是基于统计的方法提取特征能力有限,严重依赖于离散的手工特征,而神经网络模型使用分布式表... 机器翻译译文检测任务旨在大规模文本中判别每句话是机器翻译译文还是人工翻译译文。现有的机器翻译译文检测方法大都采用统计的方法提取特征,但是基于统计的方法提取特征能力有限,严重依赖于离散的手工特征,而神经网络模型使用分布式表示,构建代价较低且能表达细粒度的句法、语义特征差别。在本文中,我们提出使用预训练语言模型和双向门控循环单元模型结合,提取机器翻译译文的语言风格、惯用词等隐层表示作为特征来检测机器翻译译文,检测结果相较之前的统计方法有很大的提升。本文尝试使用所提方法过滤混合机器翻译译文的双语语料,过滤后的语料相较原始的语料规模减小了,但是模型的性能却略有提升。 展开更多
关键词 机器翻译译文 预训练语言模型 双语语料
下载PDF
基于统计和词典方法相结合的韩汉双语语料库名词短语对齐 被引量:4
14
作者 凌天斌 毕玉德 《中文信息学报》 CSCD 北大核心 2018年第8期27-31,共5页
韩汉双语语料库短语对齐对于基于实例的韩汉机器翻译系统具有重要意义,该文从韩国语名词短语结构特点出发,在基于统计和基于词典的词对齐方法进行试验分析的基础上,提出了基于词对齐位置信息的韩汉双语语料库名词短语对齐方法。该方法... 韩汉双语语料库短语对齐对于基于实例的韩汉机器翻译系统具有重要意义,该文从韩国语名词短语结构特点出发,在基于统计和基于词典的词对齐方法进行试验分析的基础上,提出了基于词对齐位置信息的韩汉双语语料库名词短语对齐方法。该方法通过基于统计的方法获得词对齐位置信息,在此基础上利用基于词典方法的相似度计算进行词对齐校正;根据以上结果,该文通过韩国语名词短语左右边界规则抽取名词短语及其汉语译文,利用关联度度量方法进行过滤,实现名词短语对齐。实验结果表明,在较大规模语料库情况下,该方法取得了较好的短语对齐结果。 展开更多
关键词 双语语料库 词对齐 短语对齐
下载PDF
查询翻译方法研究——以汉英跨语言信息检索为例 被引量:4
15
作者 曲琳琳 《情报科学》 CSSCI 北大核心 2021年第8期132-138,F0003,共8页
【目的/意义】跨语言信息检索研究的目的即在消除因语言的差异而导致信息查询的困难,提高从大量纷繁复杂的查找特定信息的效率。同时提供一种更加方便的途径使得用户能够使用自己熟悉的语言检索另外一种语言文档。【方法/过程】本文通... 【目的/意义】跨语言信息检索研究的目的即在消除因语言的差异而导致信息查询的困难,提高从大量纷繁复杂的查找特定信息的效率。同时提供一种更加方便的途径使得用户能够使用自己熟悉的语言检索另外一种语言文档。【方法/过程】本文通过对国内外跨语言信息检索的研究现状分析,介绍了目前几种查询翻译的方法,包括:直接查询翻译、文献翻译、中间语言翻译以及查询—文献翻译方法,对其效果进行比较,然后阐述了跨语言检索关键技术,对使用基于双语词典、语料库、机器翻译技术等产生的歧义性提出了解决方法及评价。【结果/结论】使用自然语言处理技术、共现技术、相关反馈技术、扩展技术、双向翻译技术以及基于本体信息检索技术确保知识词典的覆盖度和歧义性处理,通过对跨语言检索实验分析证明采用知识词典、语料库和搜索引擎组合能够提高查询效率。【创新/局限】本文为了解决跨语言信息检索使用词典、语料库中词语缺乏的现象,提出通过搜索引擎从网页获取信息资源来充实语料库中语句对不足的问题。文章主要针对中英文信息检索问题进行了探讨,解决方法还需要进一步研究,如中文切词困难以及字典覆盖率低等严重影响检索的效率。 展开更多
关键词 双语词典 语料库 共现技术 相关反馈 查询翻译 切词 同源匹配
原文传递
基于词向量与可比语料库的双语词典提取研究 被引量:4
16
作者 柳路芳 李波 +2 位作者 陈鹏 周凌寒 王兵 《计算机工程与科学》 CSCD 北大核心 2018年第2期368-373,共6页
双语词典是跨语言信息检索以及机器翻译等自然语言处理应用中的一项重要资源。现有的基于可比语料库的双语词典提取算法不够成熟,抽取效果有待提高,而且大多数研究都集中在特定领域的专业术语抽取。针对此不足,提出了一种基于词向量与... 双语词典是跨语言信息检索以及机器翻译等自然语言处理应用中的一项重要资源。现有的基于可比语料库的双语词典提取算法不够成熟,抽取效果有待提高,而且大多数研究都集中在特定领域的专业术语抽取。针对此不足,提出了一种基于词向量与可比语料库的双语词典提取算法。首先给出了该算法的基本假设以及相关的研究方法,然后阐述了基于词向量利用词间关系矩阵从可比语料库中提取双语词典的具体步骤,最后将该抽取方法与经典的向量空间模型做对比,通过实验分析了上下文窗口大小、种子词典大小、词频等因素对两种模型抽取效果的影响。实验表明,与基于向量空间模型的方法相比,本算法的抽取效果有着明显的提升,尤其是对于高频词语其准确率提升最为显著。 展开更多
关键词 双语词典 词向量 词间关系 可比语料库
下载PDF
一种汉英双语句子自动对齐算法 被引量:4
17
作者 王占军 姚卫东 《计算机仿真》 CSCD 北大核心 2009年第2期329-333,共5页
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义。双语对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作(诸如机器辅助翻译)的进行。基于汉英双语的实际情况,提出了一种新的句子对齐混合算法,该算法... 双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义。双语对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作(诸如机器辅助翻译)的进行。基于汉英双语的实际情况,提出了一种新的句子对齐混合算法,该算法主要采用一种新的基于长度的对齐算法,并结合基于词典的对齐算法,通过正反双向对齐,进一步提高了句子对齐的准确率。最后通过100个文件,5000多句英汉双语对该算法进行了验证,从对齐效果可以发现,结果比较理想,因而可以证明,该算法在实际工作中是可行的。 展开更多
关键词 双语语料库 句子对齐 混合算法
下载PDF
基于Web的汉日双语平行语料库系统的构建 被引量:2
18
作者 和凤珍 石宜金 《牡丹江师范学院学报(自然科学版)》 2018年第1期25-27,共3页
构建一个基于B/S架构的语料库系统.采用PHP作为主要编程语言,应用Smarty模板引擎,采用轻量级数据库框架,利用MySQL数据库管理系统进行数据的存储,构建一个汉日双语平行语料库.语料库具有完整的前台和后台管理系统,可以实现云南旅游景点... 构建一个基于B/S架构的语料库系统.采用PHP作为主要编程语言,应用Smarty模板引擎,采用轻量级数据库框架,利用MySQL数据库管理系统进行数据的存储,构建一个汉日双语平行语料库.语料库具有完整的前台和后台管理系统,可以实现云南旅游景点汉日双语信息的对照浏览和查询. 展开更多
关键词 双语语料库 平行语料库 语料库系统
下载PDF
面向新闻语料的中日命名实体翻译抽取 被引量:3
19
作者 尹存燕 黄书剑 +1 位作者 戴新宇 陈家骏 《小型微型计算机系统》 CSCD 北大核心 2015年第6期1393-1397,共5页
命名实体翻译可以有效地提高跨语言信息检索、统计机器翻译等系统的性能.双语新闻语料包含了丰富的命名实体,利用统计方法可以从中抽取出命名实体翻译.基于中日双语新闻语料,对中日命名实体的翻译特征进行了分析,基于这些特征,提出一种... 命名实体翻译可以有效地提高跨语言信息检索、统计机器翻译等系统的性能.双语新闻语料包含了丰富的命名实体,利用统计方法可以从中抽取出命名实体翻译.基于中日双语新闻语料,对中日命名实体的翻译特征进行了分析,基于这些特征,提出一种中日双语命名实体翻译自动抽取的方法,该方法融合了中日汉字翻译概率、片假名词汇和中文音译词汇的拼音相似度以及双语词汇共现等特征.实验表明本文方法充分利用这些特征,在语料规模不大的情况下,也可以取得较好的效果. 展开更多
关键词 命名实体 双语语料 对齐模型 拼音相似度 词汇共现
下载PDF
汉英双语标注集的研究与实现 被引量:2
20
作者 杨沐昀 李生 赵铁军 《情报学报》 CSSCI 北大核心 2000年第5期464-469,共6页
标注集是任何自然语言处理研究中的知识表达基础。本文结合汉英双向机器翻译开发和双语语料库加工的实践 ,提出了建立标准的汉英双语标注集的必要性 ,探讨了该标注集设计过程中遇到的几个关键问题并给出了一个比较完备的汉英双语标注集... 标注集是任何自然语言处理研究中的知识表达基础。本文结合汉英双向机器翻译开发和双语语料库加工的实践 ,提出了建立标准的汉英双语标注集的必要性 ,探讨了该标注集设计过程中遇到的几个关键问题并给出了一个比较完备的汉英双语标注集解决方案。实践证明 ,该方案具有良好的开放性和兼容性 ,对于汉英双向机器翻译系统和汉英双语语料库研究都具有适用性。 展开更多
关键词 标注集 英语 汉语 双语语料库 机器翻译
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部