摘要
针对特定的网站或网页中抽取出用户感兴趣的信息这一问题,分析现有去噪技术的优缺点,提出了一种基于统计学特征和DOM树的Web页面去噪方法。该方法首先对原始网页进行预处理,然后分析网页的统计学特征,结合启发式的抽取规则,对网页进行去噪。实验证实该方法在较少人为干预的基础上能达到较好的抽取效果。
In view of extracting the user interested information from specific websites or web pages,this paper proposes an approach of eliminating web page noise based on statistical characteristics and DOM tree after analyzing the advantages and disadvantages of existing web page noise eliminating algorithms.After pre-processing to the original pages,the approach analyzes their statistical characteristics combining with heuristic extraction rules to remove the noise in the web pages.Experiment shows that the approach achieves better retrieval results with relatively little human intervention.
出处
《重庆理工大学学报(自然科学)》
CAS
2011年第1期54-58,共5页
Journal of Chongqing University of Technology:Natural Science
基金
重庆市科技攻关项目(CSTC
2010AC6074)
重庆交通大学研究生教育创新基金资助项目
重庆交通大学实验教学改革与研究基金资助项目(SYJ200922)
关键词
DOM
统计学特征
信息检索
DOM
statistical characteristics
information retrieval