-
题名引入源端信息的机器译文自动评价方法研究
被引量:2
- 1
-
-
作者
罗琪
李茂西
-
机构
江西师范大学计算机信息工程学院
-
出处
《中文信息学报》
CSCD
北大核心
2021年第12期60-67,共8页
-
基金
国家自然科学基金(61662031,61462044)
江西省教育厅研究生创新基金(YC2020-S161)
-
文摘
机器译文自动评价是机器翻译中的一个重要任务。针对目前译文自动评价中完全忽略源语言句子信息,仅利用人工参考译文度量翻译质量的不足,该文提出了引入源语言句子信息的机器译文自动评价方法:从机器译文与其源语言句子组成的二元组中提取描述翻译质量的质量向量,并将其与基于语境词向量的译文自动评价方法利用深度神经网络进行融合。在WMT’19译文自动评价任务数据集上的实验结果表明,该文所提出的方法能有效增强机器译文自动评价与人工评价的相关性。深入的实验分析进一步揭示了源语言句子信息在译文自动评价中发挥着重要作用。
-
关键词
机器翻译
译文自动评价
质量向量
语境词向量
自然语言推断
-
Keywords
machine translation
automatic evaluation of machine translation
quality embeddings
contextual embeddings
natural language inference
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名面向语文辞书编纂的神经网络语料库检索研究
- 2
-
-
作者
胡钦谙
-
机构
中国社会科学院语言研究所/辞书编纂研究中心
-
出处
《辞书研究》
2023年第1期36-45,I0002,共11页
-
基金
国家语委“十三五”科研规划2020年度一般(委托)项目“辅助语文辞书编纂的人工智能关键技术研究”(项目编号WT135-69)的研究成果之一。
-
文摘
语料库检索已成为语文辞书编纂过程中不可或缺的一个步骤。现有的语料库检索系统通常先返回句子列表,然后由人工进行筛选。然而,随着语料库规模不断扩大,海量检索结果与用户有限的语料消化能力之间的矛盾已成为辞书编纂过程中的痛点之一。文章注意到,辞书编纂人员在检索语料库时,实际上更为关注的是检索词出现的语境(或称上下文)。语境具有相对稳定的语言学规律,语料库中往往存在着大量符合同一语言规律的语境。这种同质的语境对辞书编纂提供的价值相对有限,单纯依靠增加语料数量对辞书编纂的贡献已呈现出边际效益递减的现象。因此,文章尝试以海量检索结果中的同质语境为突破口,通过人工智能中的注意力机制、上下文相关词向量以及预训练语言模型等技术,以可视化及可交互的形式为辞书编纂人员展现检索结果分布的概貌,批量处理同质的语境,以提升辞书编纂的效率。
-
关键词
语料库检索
语境
语义
上下文相关词向量
注意力机制
-
Keywords
corpus retrieval
contexts
semantics
contextual word embeddings
attentions
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
TP391.1
[自动化与计算机技术—控制科学与工程]
H16
[语言文字—汉语]
-
-
题名结合五笔字形与上下文相关字向量的命名实体识别
被引量:7
- 3
-
-
作者
张栋
王铭涛
陈文亮
-
机构
苏州大学计算机科学与技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第3期94-101,共8页
-
基金
国家自然科学基金(61876115)。
-
文摘
命名实体识别(NER)作为自然语言处理的重要部分,在信息抽取和知识图谱等任务中得到广泛应用。然而目前中文预训练语言模型通常仅对上下文中的字符进行建模,忽略了中文字符的字形结构。提出2种结合五笔字形的上下文相关字向量表示方法,以增强字向量的语义表达能力。第一种方法分别对字符和字形抽取特征并联合建模得到字向量表示,第二种方法将五笔字形作为辅助信息拼接到字向量中,训练一个基于字符和五笔字形的混合语言模型。实验结果表明,所提两种方法可以有效提升中文NER系统的性能,且结合五笔字形的上下文相关字向量表示方法的系统性能优于基于单一字符的语言模型。
-
关键词
语言模型
命名实体识别
五笔字形
上下文相关字向量
无标注语料
-
Keywords
language model
Named Entity Recognition(NER)
Wubi glyphs
contextualized character embeddings
unlabeled corpus
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-