期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
大规模多粒度中文复述语料库 被引量:1
1
作者 安波 《情报工程》 2022年第2期19-33,共15页
[目的/意义]复述是相同语义的不同表达,集中反映了语言的多样性,一直是自然语言处理领域的核心问题。PPDB英文复述数据集在英文自然语言处理的多种任务中得到了应用,推动了英文自然语言处理领域的发展。缺少大规模多粒度中文复述数据集... [目的/意义]复述是相同语义的不同表达,集中反映了语言的多样性,一直是自然语言处理领域的核心问题。PPDB英文复述数据集在英文自然语言处理的多种任务中得到了应用,推动了英文自然语言处理领域的发展。缺少大规模多粒度中文复述数据集阻碍了复述技术在中文自然语言处理中的应用,是亟待解决的问题。[方法/过程]本文实现了一个针对多源数据的复述抽取系统,并抽取构建了一个大规模中文复述数据集,该数据集具有规模大、质量高的特点,且包含复述短语、复述模板和复述句三种粒度的复述文本。[结果/结论]自动评估和人工评估的结果表明,我们抽取的中文复述数据具有较高的文本多样性和语义一致性。 展开更多
关键词 中文复述 复述识别 复述抽取
下载PDF
一种句词五特征融合模型的复述研究
2
作者 何贤江 何维维 左航 《四川大学学报(工程科学版)》 EI CAS CSCD 北大核心 2012年第6期127-132,共6页
为解决中文同义词词林无法用做上下文相关的复述语料问题,提出了一种词汇级复述方法。在中文大语料库环境下,根据给定的上下文,提取复述目标词和复述候选词;建立词、句融合的分层概率统计模型,给出了计算句、词复述相似度的5项特征值,... 为解决中文同义词词林无法用做上下文相关的复述语料问题,提出了一种词汇级复述方法。在中文大语料库环境下,根据给定的上下文,提取复述目标词和复述候选词;建立词、句融合的分层概率统计模型,给出了计算句、词复述相似度的5项特征值,用以训练二元分类器,并对候选复述词进行筛选。实验结果证明:1)基于大语料库数据挖掘,获取候选复述词提取方法具有实用价值,每个目标词给定的上下文句子中获取3.1个正确复述词;2)利用二元分类器对复述确认是有效的,精确率达到0.65;3)提取的复述中,有32%在《中文同义词扩展词林》无法查出,有效扩展了传统同义词复述方法。 展开更多
关键词 中文复述 五特征融合 智能识别 二元分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部