期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一种基于分类的平行语料选择方法 被引量:4
1
作者 王星 涂兆鹏 +2 位作者 谢军 吕雅娟 姚建民 《中文信息学报》 CSCD 北大核心 2013年第6期144-150,共7页
大规模高质量双语平行语料库是构造高质量统计机器翻译系统的重要基础,但语料库中的噪声影响着统计机器翻译系统的性能,因此有必要对大规模语料库中语料进行筛选。区别于传统的语料选择排序模型,本文提出一种基于分类的平行语料选择方... 大规模高质量双语平行语料库是构造高质量统计机器翻译系统的重要基础,但语料库中的噪声影响着统计机器翻译系统的性能,因此有必要对大规模语料库中语料进行筛选。区别于传统的语料选择排序模型,本文提出一种基于分类的平行语料选择方法。通过少数句对特征构造差异较大的分类器训练句对,在该训练句对上使用更多的句对特征对分类器进行训练,然后对其他未分类句对进行分类。相比于基准系统,我们的方法不仅缩减40%训练语料规模,同时在NIST测试数据集合上将BLEU值提高了0.87个百分点。 展开更多
关键词 统计机器翻译 平行语料选择
下载PDF
概率式关联可信中文知识图谱——“文脉”
2
作者 李文浩 刘文长 +1 位作者 孙茂松 矣晓沅 《中文信息学报》 CSCD 北大核心 2022年第12期67-73,共7页
国内现有的中文知识图谱往往以维基百科、百度百科等群体智能贡献的知识库作为资源抽取得到,但这些知识图谱利用的主要是百科的实体名片信息和分类体系信息。然而,这些百科中也有大量的内部链接信息,其中蕴含了大量知识。故而该文中利... 国内现有的中文知识图谱往往以维基百科、百度百科等群体智能贡献的知识库作为资源抽取得到,但这些知识图谱利用的主要是百科的实体名片信息和分类体系信息。然而,这些百科中也有大量的内部链接信息,其中蕴含了大量知识。故而该文中利用维基百科的内部链接构造边,并统计目标实体在源实体定义文本中出现的频度,利用其对应的TF-IDF值作为边权,构造了一个概率式中文知识图谱。该文还提出了一种可信链接筛选算法,对偶发链接进行了去除,使知识图谱更加可信。基于上述方法,该文挖掘出了一个概率式关联可信中文知识图谱,命名为“文脉”,将其在GitHub上进行了开源,以期能对知识指导的自然语言处理以及其他下游任务有所襄助。 展开更多
关键词 维基百科 知识图谱构建 可信链接筛选
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部