-
题名基于大规模真实文本的数值知识元挖掘研究
被引量:19
- 1
-
-
作者
肖洪
薛德军
-
机构
中国学术期刊(光盘版)电子杂志社
-
出处
《计算机工程与应用》
CSCD
北大核心
2008年第30期150-152,222,共4页
-
文摘
探讨了从海量文献中挖掘知识元的背景,并详述了从海量年鉴文本中抽取宏观数值知识元的基本流程和各主要环节的算法,并重点对数值知识元主体抽取的效果进行了分析,实验结果表明在特定领域内知识元挖掘要达到实用水平是可行的。
-
关键词
真实文本
文本挖掘
数值知识元
自动编辑
-
Keywords
realistic corpora
text mining
numeric knowledge element
automated editing
-
分类号
TP398.1
[自动化与计算机技术—计算机应用技术]
-
-
题名数值信息抽取研究进展综述
被引量:10
- 2
-
-
作者
吴超
郑彦宁
化柏林
-
机构
中国科学技术信息研究所
北京大学信息管理系
-
出处
《中国图书馆学报》
CSSCI
北大核心
2014年第2期107-119,共13页
-
文摘
通过对数值信息抽取文献的调研,先从文献类型、学科领域、高频关键词三个方面进行定量分析,从抽取数据源、抽取对象、抽取方法与技术、结果评价和应用等方面对当前数值信息抽取研究进行了梳理和总结。研究发现当前对于数值信息抽取的研究具有五个特点:抽取数据源以新闻语料、Web网页为主,抽取对象以基数类数值信息和数量类数值信息为主,抽取方法以基于规则的方法为主,抽取结果评价指标比较单一,但应用领域较为广泛。图4。表3。参考文献56。
-
关键词
数值信息
数值知识元
数值信息抽取
命名实体识别
-
Keywords
numerical information. numeric knowledge element. numerical information extraction. Named entityrecognition.
-
分类号
G350
[文化科学—情报学]
-