-
题名基于统计与正文特征的中文网页正文抽取研究
被引量:16
- 1
-
-
作者
周佳颖
朱珍民
高晓芳
-
机构
中国科学院计算技术研究所
湘潭大学信息工程学院
首都师范大学计算机科学联合研究院
-
出处
《中文信息学报》
CSCD
北大核心
2009年第5期80-85,共6页
-
基金
国家"十一五"863计划资助项目(2006AA01Z112)
-
文摘
该文提出了一种基于统计与正文特征的网页正文抽取方法。该方法继承了统计方法的优点,同时利用正文特征克服了原有基于统计的方法无法抽取多正文体网页的缺陷。源于多正文体在网页的DOM树中对应着正文区域下的多棵具有相似特征的正文子树,该文首先基于统计的方法获取一条正文路径,然后学习该路径的正文特征识别正文区域和子树主干,最后根据区域及该主干具有的正文特征进而得到完整的正文。实验表明该方法抽取单正文和多正文的精确率分别为94%和91%。
-
关键词
计算机应用
中文信息处理
正文抽取
单正文体
多正文体
-
Keywords
computer application
Chinese information processing
content extraction
single-body documents
multibody documents
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多特征融合的网页正文信息抽取
被引量:4
- 2
-
-
作者
刘利
戴齐
尹红风
贾真
胡万亭
-
机构
西南交通大学信息科学与技术学院
-
出处
《计算机应用与软件》
CSCD
北大核心
2014年第7期47-49,77,共4页
-
基金
国家自然科学基金项目(61152001
61170111)
中国科学院自动化研究所复杂系统管理与控制重点实验室开放课题(20110102)
-
文摘
当今主流网页分为单正文体网页和多正文体网页。这些网页的正文信息都具有多个正文特征。想要准确定位正文信息所在位置,可以从其所具有的多个特征和网页设计者的设计习惯着手。鉴于此,融合这些特征提出一种基于多特征融合的网页正文信息抽取方法。实验结果表明,该方法对单正文体网页和多正文体网页的正文抽取具有较高的准确率和通用性,很好地适应了风格多样的网页。
-
关键词
单正文体
多正文体
多特征
信息抽取
-
Keywords
Single text body
Muhiple text body
Heterogeneous features
Information extraction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-