-
题名基于布局特征与语言特征的网页主要内容块发现
被引量:8
- 1
-
-
作者
韩先培
刘康
赵军
-
机构
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2008年第1期15-21,共7页
-
基金
国家自然科学基金资助项目(60673042)
北京市自然科学基金资助项目(4052027
4073043)
-
文摘
本文综合分析了网页内容块各方面的特征,提出了一个联合使用布局特征和语言特征的网页主要内容块发现方法,有效地解决了以往模型中通用性与高准确率不能共存的缺点。该方法使用网页视觉块树表示网页,对网页内容块的布局特征和语言特征分别建立了独立的分类器,然后组合这两个分类器来进行网页内容块分类。实验结果表明,在保持非噪音块召回率在90%以上的同时,组合分类器的准确率达到85%,比只使用布局特征的分类器提高5个百分点,比只使用语言特征的分类器提高15个百分点;在5个站点上的分类结果表明组合分类器在不同站点上性能稳定,具有良好的通用性。
-
关键词
计算机应用
中文信息处理
网页清理
主要内容块发现
网页切分
布局特征
语言特征
-
Keywords
computer application
Chinese information processing
webpage cleaning
content block detection
webpage segment
layout feature
language feature
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-