期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
大规模多粒度中文复述语料库
被引量:
1
1
作者
安波
《情报工程》
2022年第2期19-33,共15页
[目的/意义]复述是相同语义的不同表达,集中反映了语言的多样性,一直是自然语言处理领域的核心问题。PPDB英文复述数据集在英文自然语言处理的多种任务中得到了应用,推动了英文自然语言处理领域的发展。缺少大规模多粒度中文复述数据集...
[目的/意义]复述是相同语义的不同表达,集中反映了语言的多样性,一直是自然语言处理领域的核心问题。PPDB英文复述数据集在英文自然语言处理的多种任务中得到了应用,推动了英文自然语言处理领域的发展。缺少大规模多粒度中文复述数据集阻碍了复述技术在中文自然语言处理中的应用,是亟待解决的问题。[方法/过程]本文实现了一个针对多源数据的复述抽取系统,并抽取构建了一个大规模中文复述数据集,该数据集具有规模大、质量高的特点,且包含复述短语、复述模板和复述句三种粒度的复述文本。[结果/结论]自动评估和人工评估的结果表明,我们抽取的中文复述数据具有较高的文本多样性和语义一致性。
展开更多
关键词
中文
复述
复述
识别
复述
抽取
下载PDF
职称材料
一种句词五特征融合模型的复述研究
2
作者
何贤江
何维维
左航
《四川大学学报(工程科学版)》
EI
CAS
CSCD
北大核心
2012年第6期127-132,共6页
为解决中文同义词词林无法用做上下文相关的复述语料问题,提出了一种词汇级复述方法。在中文大语料库环境下,根据给定的上下文,提取复述目标词和复述候选词;建立词、句融合的分层概率统计模型,给出了计算句、词复述相似度的5项特征值,...
为解决中文同义词词林无法用做上下文相关的复述语料问题,提出了一种词汇级复述方法。在中文大语料库环境下,根据给定的上下文,提取复述目标词和复述候选词;建立词、句融合的分层概率统计模型,给出了计算句、词复述相似度的5项特征值,用以训练二元分类器,并对候选复述词进行筛选。实验结果证明:1)基于大语料库数据挖掘,获取候选复述词提取方法具有实用价值,每个目标词给定的上下文句子中获取3.1个正确复述词;2)利用二元分类器对复述确认是有效的,精确率达到0.65;3)提取的复述中,有32%在《中文同义词扩展词林》无法查出,有效扩展了传统同义词复述方法。
展开更多
关键词
中文
复述
五特征融合
智能识别
二元分类
下载PDF
职称材料
题名
大规模多粒度中文复述语料库
被引量:
1
1
作者
安波
机构
中国社会科学院民族学与人类学研究所
出处
《情报工程》
2022年第2期19-33,共15页
基金
国家自然科学基金面上项目“知识增强的中文复述识别关键技术研究”(62076233)
社科院2022创新工程青年学者资助计划项目(2022MZSQN001)。
文摘
[目的/意义]复述是相同语义的不同表达,集中反映了语言的多样性,一直是自然语言处理领域的核心问题。PPDB英文复述数据集在英文自然语言处理的多种任务中得到了应用,推动了英文自然语言处理领域的发展。缺少大规模多粒度中文复述数据集阻碍了复述技术在中文自然语言处理中的应用,是亟待解决的问题。[方法/过程]本文实现了一个针对多源数据的复述抽取系统,并抽取构建了一个大规模中文复述数据集,该数据集具有规模大、质量高的特点,且包含复述短语、复述模板和复述句三种粒度的复述文本。[结果/结论]自动评估和人工评估的结果表明,我们抽取的中文复述数据具有较高的文本多样性和语义一致性。
关键词
中文
复述
复述
识别
复述
抽取
Keywords
Chinese paraphrase
paraphrase detection
paraphrase extraction
分类号
G35 [文化科学—情报学]
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种句词五特征融合模型的复述研究
2
作者
何贤江
何维维
左航
机构
四川大学计算机学院
出处
《四川大学学报(工程科学版)》
EI
CAS
CSCD
北大核心
2012年第6期127-132,共6页
基金
四川省科技平台支撑计划资助项目(JCPT2011-7)
文摘
为解决中文同义词词林无法用做上下文相关的复述语料问题,提出了一种词汇级复述方法。在中文大语料库环境下,根据给定的上下文,提取复述目标词和复述候选词;建立词、句融合的分层概率统计模型,给出了计算句、词复述相似度的5项特征值,用以训练二元分类器,并对候选复述词进行筛选。实验结果证明:1)基于大语料库数据挖掘,获取候选复述词提取方法具有实用价值,每个目标词给定的上下文句子中获取3.1个正确复述词;2)利用二元分类器对复述确认是有效的,精确率达到0.65;3)提取的复述中,有32%在《中文同义词扩展词林》无法查出,有效扩展了传统同义词复述方法。
关键词
中文
复述
五特征融合
智能识别
二元分类
Keywords
Chinese paraphrase
five-feature
intelligent identification
binary classification
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
大规模多粒度中文复述语料库
安波
《情报工程》
2022
1
下载PDF
职称材料
2
一种句词五特征融合模型的复述研究
何贤江
何维维
左航
《四川大学学报(工程科学版)》
EI
CAS
CSCD
北大核心
2012
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部