-
题名一种基于分类的平行语料选择方法
被引量:4
- 1
-
-
作者
王星
涂兆鹏
谢军
吕雅娟
姚建民
-
机构
苏州大学计算机科学与技术学院
中国科学院计算技术研究所智能信息处理重点实验室
加州大学戴维斯分校计算机科学系
-
出处
《中文信息学报》
CSCD
北大核心
2013年第6期144-150,共7页
-
基金
863重大项目课题(No.2011AA01A207)
国家自然科学基金资助项目(No.61003152
61272259)
-
文摘
大规模高质量双语平行语料库是构造高质量统计机器翻译系统的重要基础,但语料库中的噪声影响着统计机器翻译系统的性能,因此有必要对大规模语料库中语料进行筛选。区别于传统的语料选择排序模型,本文提出一种基于分类的平行语料选择方法。通过少数句对特征构造差异较大的分类器训练句对,在该训练句对上使用更多的句对特征对分类器进行训练,然后对其他未分类句对进行分类。相比于基准系统,我们的方法不仅缩减40%训练语料规模,同时在NIST测试数据集合上将BLEU值提高了0.87个百分点。
-
关键词
统计机器翻译
平行语料选择
-
Keywords
statistical machine translation
bilingual corpus selection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名概率式关联可信中文知识图谱——“文脉”
- 2
-
-
作者
李文浩
刘文长
孙茂松
矣晓沅
-
机构
清华大学计算机科学与技术系
清华大学人工智能研究院
北京信息科学与技术国家研究中心
加州大学戴维斯分校计算机科学系
江苏高校语言能力协同创新中心
微软亚洲研究院
-
出处
《中文信息学报》
CSCD
北大核心
2022年第12期67-73,共7页
-
基金
国家社会科学基金(18ZDA238)
-
文摘
国内现有的中文知识图谱往往以维基百科、百度百科等群体智能贡献的知识库作为资源抽取得到,但这些知识图谱利用的主要是百科的实体名片信息和分类体系信息。然而,这些百科中也有大量的内部链接信息,其中蕴含了大量知识。故而该文中利用维基百科的内部链接构造边,并统计目标实体在源实体定义文本中出现的频度,利用其对应的TF-IDF值作为边权,构造了一个概率式中文知识图谱。该文还提出了一种可信链接筛选算法,对偶发链接进行了去除,使知识图谱更加可信。基于上述方法,该文挖掘出了一个概率式关联可信中文知识图谱,命名为“文脉”,将其在GitHub上进行了开源,以期能对知识指导的自然语言处理以及其他下游任务有所襄助。
-
关键词
维基百科
知识图谱构建
可信链接筛选
-
Keywords
Wikipedia
knowledge graph construction
reliable link screening
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-