一种基于统计学特征和DOM树的网页去噪技术被引量：2

Approach of Eliminating Web Page Noise Based on Statistical Characteristics and DOM tree

下载PDF

导出

摘要针对特定的网站或网页中抽取出用户感兴趣的信息这一问题,分析现有去噪技术的优缺点,提出了一种基于统计学特征和DOM树的Web页面去噪方法。该方法首先对原始网页进行预处理,然后分析网页的统计学特征,结合启发式的抽取规则,对网页进行去噪。实验证实该方法在较少人为干预的基础上能达到较好的抽取效果。 In view of extracting the user interested information from specific websites or web pages,this paper proposes an approach of eliminating web page noise based on statistical characteristics and DOM tree after analyzing the advantages and disadvantages of existing web page noise eliminating algorithms.After pre-processing to the original pages,the approach analyzes their statistical characteristics combining with heuristic extraction rules to remove the noise in the web pages.Experiment shows that the approach achieves better retrieval results with relatively little human intervention.

作者何友全徐澄徐小乐唐华姣

机构地区重庆交通大学信息科学与工程学院重庆交通大学管理学院

出处《重庆理工大学学报（自然科学）》 CAS 2011年第1期54-58,共5页 Journal of Chongqing University of Technology：Natural Science

基金重庆市科技攻关项目(CSTC 2010AC6074) 重庆交通大学研究生教育创新基金资助项目重庆交通大学实验教学改革与研究基金资助项目(SYJ200922)

关键词 DOM 统计学特征信息检索 DOM statistical characteristics information retrieval

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1SODERLAND S. Learning information extraction rules for semi-structured and free text [ J]. Journal of Machine Learning, 1999,34( 1 ) :2332 -2721. 被引量：1
2CHANG Chia hui, KAYED M, GI RGIS M R, et al. A survey Of Web information extraction systems [ J ]. IEEE Trans. on Knowledge and Data Engineering, 2006, 18 (10) :14112-14281. 被引量：1
3杨少华,林海略,韩燕波.针对模板生成网页的一种数据自动抽取方法(英文)[J].软件学报,2008,19(2):209-223. 被引量：45
4Lin S H, Ho J M. Discovering Informative Content Blocks from web Documents [ C ]// Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data mining. [S. l. ] :[s. n. ] ,2002:588 - 593. 被引量：1
5Wong,W, Fu A W. Finding Structure and Characteris- tics of web Documents for Classification [ C ]// ACM SIGMOD Workshop on Researeh Issues in Data Mining and Knowledge Discovery. [ S. l. ] : [ s. n. ], 2000 : 96 - 105. 被引量：1
6Embley D W, Jiang Y, Ng Y K. Record-boundary discovery in Web documents [C]//ACM SIGMOD Record. [S. l. ]: [s. n. ], 1999:467 -478. 被引量：1
7Chakrabarti S, Joshi M,Tawde V. Enhanced topic distillation using text, markup tags, and hyperlinks [ C ]//Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval. [S. l. ] :[s. n. ] ,2001:208 -216. 被引量：1
8Htmlparser [ EB/OL]. [ 2010 - 03 - 09 ]. http ://html-parser. sourceforge, net/. 被引量：1

二级参考文献12

1Chang CH, Kayed M, Girgis MR, Shaalan K. A survey of Web information extraction systems. IEEE Trans. on Knowledge and Data Engineering, 2006,18(10): 1411-1428. 被引量：1
2Gold ME. Language identification in the limit. Information and Control, 1967,10(5):447-474. 被引量：1
3Laender AHF, Ribeiro-Neto BA, da Silva AD, Teixeira JS. A brief survey of Web data extraction tools. SIGMOD Record, 2002,31 (2):84-93. 被引量：1
4Arasu A, Hector GM. Extracting structured data from Web pages. In: Proc. of the ACM SIGMOD Int'l Conf. on Management of Data. San Diego: ACM Press, 2003. 337-348. 被引量：1
5EXALG datasets, http://infolab.stanford.edu/-arvind/extract/ 被引量：1
6TBDW v1.02, http://daisen.cc.kyushu-u.ac.jp/TBDW/testbed/ 被引量：1
7Zhao HK, Meng WY, Wu ZH, Raghavan V, Yu C. Fully automatic wrapper generation for search engines. In: Proc. of the 14th Int'l Conf. on World Wide Web (WWW 2005). Chiba: ACM Press, 2005.66-75. 被引量：1
8Simon K, Lausen G. VIPER: Augmenting automatic information extraction with visual perceptions. In: Proc. of the ACM CIKM Int'l Conf. on Information and Knowledge Management. Bremen: ACM Press, 2005. 381-388. 被引量：1
9Crescenzi V, Mecca G, Meraldo P. RoadRunner: Towards automatic data extraction from large Web sites. In: Proc. of the 27th Int'l Conf. on Very Large Data Bases (VLDB 2001). Roma: Morgan Kaufmann Publishers, 2001. 109-118. 被引量：1
10Wang JY, Lochovsky FH. Data extraction and label assignment for Web databases. In: Proc. of the 12th Int'l World Wide Web Conf. (WWW 2003). Budapest: ACM Press, 2003. 187-196. 被引量：1

共引文献44

1赵靖,王侨文,管马周,单传佳.自动提取布局结构相似网页的结构化信息[J].安徽科技学院学报,2010,24(6):37-42. 被引量：1
2李舒晨,刘云,李勇.网络舆情分析中网页信息预处理方案的实现[J].电脑与电信,2008(10):30-33. 被引量：2
3耿焕同,宋庆席,何宏强.一种基于视觉分块的Web信息抽取方法研究[J].情报理论与实践,2009,32(3):106-109. 被引量：4
4陈治昂,周知予,李大学.一种基于模板的快速网页文本自动抽取算法[J].计算机应用研究,2009,26(7):2646-2649. 被引量：11
5张彦超,刘云,李勇,沈波.基于自动生成模板的Web信息抽取技术[J].北京交通大学学报,2009,33(5):40-45. 被引量：13
6周佳颖,朱珍民,高晓芳.基于统计与正文特征的中文网页正文抽取研究[J].中文信息学报,2009,23(5):80-85. 被引量：16
7李广建,乔建忠.全自动生成网页信息抽取包装器的主要技术方法研究[J].情报理论与实践,2010,33(1):100-104. 被引量：4
8寇月,李冬,申德荣,于戈,聂铁铮.D-EEM:一种基于DOM树的Deep Web实体抽取机制[J].计算机研究与发展,2010,47(5):858-865. 被引量：17
9赵刚,郭东伟,李丹.基于序列比对的动态Web信息抽取算法[J].吉林大学学报（理学版）,2010,48(3):421-426.
10关冕,马军.针对Web论坛的一种结构化数据自动抽取方法[J].山东大学学报（理学版）,2010,45(5):42-47. 被引量：1

同被引文献38

1张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
2陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11
3袁明轩,张选平,蒋宇,赵仲孟.一种基于同层网页相似性去除网页噪音的方法[J].计算机工程,2006,32(23):61-63. 被引量：3
4谭应伟,莫倩.基于Web的有监督自适应话题追踪系统的设计与实现[J].郑州大学学报（理学版）,2007,39(2):25-29. 被引量：5
5邱立坤,龙志祎,钟华,程葳.层次化话题发现与跟踪方法及系统实现[J].广西师范大学学报（自然科学版）,2007,25(2):157-160. 被引量：11
6骆卫华,于满泉,许洪波.基于多策略优化的分治多层聚类算法的话题发现研究.全国第八届计算语言学联合学术会议(IS-CL-2005)论文集,中国南京,2005:362-368. 被引量：2
7姚天昉,娄德成.汉语语句主题语义倾向分析方法的研究[J].中文信息学报,2007,21(5):73-79. 被引量：78
8http: / / crawler, archive, org/index, html. 被引量：1
9Cat D, Yu S, Wen J R, et at. VIPS: A vision based page segmentation algorithm, MSR-TR-2003-79[R/OL]. Seattle, USA :Microsoft, (2003-11)[2009-02-01]. 被引量：1
10Cai D, Yu S, Wen J R, et al. Extracting content structure for Web pages based on visual representation [C]// Web Technologies and Applications: 5th Asia-Pacific Web Conf. Berlin: Springer, 2003:406-417. 被引量：1

引证文献2

1徐慧,窦子辉,杨林,陈雪.面向终端用户的网页过滤模板动态生成技术研究[J].计算机科学,2012,39(S2):90-93. 被引量：2
2熊志斌,王冬,尹成国.舆情监测技术及应用综述[J].软件,2012,33(12):322-326. 被引量：2

二级引证文献4

1胡乃军,郭志卓,刘青,仇利克.信息发布软件系统模型[J].计算机与现代化,2015(1):61-65.
2王珍.网络舆情监测技术研究及其在高校的应用[J].电脑知识与技术,2016,0(8):42-43. 被引量：1
3王胜.校园网络舆情分析系统的设计研究[J].信息与电脑,2016,28(12):151-152. 被引量：1
4谭文斌,胡俊.新型DWPGT技术在多角色型系统开发中的应用[J].无线互联科技,2019,16(23):132-133.

1储慧琳,张兴明.一种组合式特征选择算法及其在网络流量识别中的应用[J].小型微型计算机系统,2012,33(2):325-329. 被引量：7
2邢超,顾益军,任俊博.藏文文本编码方案的识别算法[J].信息网络安全,2012(12):29-31.
3梁保平,李艺,陈可宙.桂林市NDVI、地表温度的地物特征及相关性研究[J].遥感技术与应用,2012,27(3):429-435. 被引量：17
4春燕,曲珍.藏文文本编码识别方法研究[J].计算机工程与应用,2013,49(1):141-144. 被引量：1
5江林升,朱学芳.一种基于新特征的车牌检测方法[J].计算机工程与应用,2011,47(20):188-190. 被引量：2
6王德刚.基于多特征和SVM的混凝土裂缝图像识别[J].昆明民族干部学院学报,2016,0(2):189-190.
7陈士超,郁滨.面向科技领域的术语自动抽取模型[J].系统工程理论与实践,2013,33(1):230-235. 被引量：2
8阿力木.木拉提,艾孜尔古丽,玉素甫.艾拜都拉.维吾尔语网站识别方法[J].计算机工程与设计,2016,37(5):1417-1420.
9李冀,莫蓉.基于复杂加权网络的服务型制造网络分析[J].机械科学与技术,2012,31(8):1232-1235. 被引量：2
10吴呼玲.基于磨粒特征的矿用减速器磨损状态在线监测方法研究[J].机械传动,2017,41(2):177-180. 被引量：3

重庆理工大学学报（自然科学）

2011年第1期

浏览历史

内容加载中请稍等...

一种基于统计学特征和DOM树的网页去噪技术被引量：2

参考文献8

二级参考文献12

共引文献44

同被引文献38

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种基于统计学特征和DOM树的网页去噪技术 被引量：2

参考文献8

二级参考文献12

共引文献44

同被引文献38

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种基于统计学特征和DOM树的网页去噪技术被引量：2