期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于布局特征与语言特征的网页主要内容块发现 被引量:8
1
作者 韩先培 刘康 赵军 《中文信息学报》 CSCD 北大核心 2008年第1期15-21,共7页
本文综合分析了网页内容块各方面的特征,提出了一个联合使用布局特征和语言特征的网页主要内容块发现方法,有效地解决了以往模型中通用性与高准确率不能共存的缺点。该方法使用网页视觉块树表示网页,对网页内容块的布局特征和语言特征... 本文综合分析了网页内容块各方面的特征,提出了一个联合使用布局特征和语言特征的网页主要内容块发现方法,有效地解决了以往模型中通用性与高准确率不能共存的缺点。该方法使用网页视觉块树表示网页,对网页内容块的布局特征和语言特征分别建立了独立的分类器,然后组合这两个分类器来进行网页内容块分类。实验结果表明,在保持非噪音块召回率在90%以上的同时,组合分类器的准确率达到85%,比只使用布局特征的分类器提高5个百分点,比只使用语言特征的分类器提高15个百分点;在5个站点上的分类结果表明组合分类器在不同站点上性能稳定,具有良好的通用性。 展开更多
关键词 计算机应用 中文信息处理 网页清理 主要内容发现 网页切分 布局特征 语言特征
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部