网页净化及去重研究综述被引量：1

Survey of Web Page Purification and Deduplication Research

下载PDF

导出

摘要随着互联网的快速发展与搜索引擎的广泛使用,网页数据已经成为各种应用与研究的重要数据源之一。然而由于网页的特殊性,它所包含的信息并非都是各种应用所必需,例如:广告,导航条等。它们的存在会对各种应用产生不利影响。此外,网页检索结果中经常出现内容相同的冗余页面的问题。所以在网页数据的应用过程中网页净化、网页去重是一个基础问题,也是目前研究的一个热点问题。所以很有必要对网页净化和网页去重领域进行总结,以便更好地深入研究。从网页净化、去重的必要性出发,对它们进行定义和分类,概述多种网页净化、去重的方法和框架,并对其进行总结。 With the rapidly development of Internet and widely use of search engine, web data became the major source of date for lots of research and web applications. However, due to the particularity of web page, the information it contains is not necessary for variety of applications, such as ad- vertising, navigation bar. They will have adverse effects to variety of applications.In addition, there is another problem that the Web search results often contain redundant pages. Therefore, in the process of pages of data application, page purification and deduplicationis are a basic problem, and it＇s also a hot issue in the present study. Thus it is necessary to sum up fields on the page de-noise anddeduplication, in order to carry out in-depth study better. Firstly, this pa- per gives a brief introduction to the necessity of Web page purification and deduplication. Then, this paper presents a classification hierarchy of the Web page purification methods and Web page deduplication methods, discusses the existing problems and the future directions in the fields. W

作者罗元

机构地区四川大学计算机学院

出处《现代计算机》 2013年第10期3-7,12,共6页 Modern Computer

关键词网页去重网页净化信息检索万维网 Deletion of Duplicated Web Pages Web Page Purification Information Retrieval WW

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献22

1毛先领,何靖,闫宏飞.网页去噪:研究综述[J].计算机研究与发展,2010,47(12):2025-2036. 被引量：18
2Gibson D, Punera K, Tomkins A. The Volume and Evolution of Web Page Templates[C]. In: Proceedings of the 14th Int- Conf on World Wide Web. New York: ACM, 2005:830-839. 被引量：1
3Yi L, Liu B, Li X. Eliminating Noisy in Formation in Web Pages for Data Mining[C]. In: Proceedings of the 9th ACM SIGKDD IntConf on Knowledge Discovery and Data Mining. New York: ACM, 2003:296-305. 被引量：1
4Gupta S, Kaiser G, Neistadt D, et al. DOM-Based Content Extraction of HTML Documents [C]. In: Proceedings of the 12th Int Conf on World Wide Web. New York: ACM, 2003: 207-214. 被引量：1
5宋睿华,马少平,陈刚,李景阳.一种提高中文搜索引擎检索质量的HTML解析方法[J].中文信息学报,2003,17(4):19-26. 被引量：20
6Cai D, Yu S, Wen J R, et al. Extracting Content Structure for Web Pages Based on Visual Representation[C]. In: Proceed- ings of Web Technologies and Applications: 5th Asia-Pacific Web Conf. Berlin: Springer, 2003:406-417. 被引量：1
7LIU W, Meng X, et al. Vision-Based Web Data Records Extraction[C]. In: Proceedings of the 9th Int Workshop on the Web and Databases(WebDB 2006). New York: ACM, 2006: 61-70. 被引量：1
8孙桂煌,刘发升.基于正文特征的网页正文信息提取方法[J].现代计算机,2008,14(9):34-38. 被引量：5
9宋明秋,张瑞雪,吴新涛,李文立.网页正文信息抽取新方法[J].大连理工大学学报,2009,49(4):594-597. 被引量：20
10孔胜.王字.一种基于正文特征的新闻网页抽取方法.大连理工大学学报.2010(29):122-125. 被引量：1

二级参考文献82

1封化民,刘飚,刘艳敏,方勇,宋国森.含有位置坐标树的Web页面分析和内容提取框架[J].清华大学学报（自然科学版）,2005,45(S1):1767-1771. 被引量：8
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
3荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：22
4王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
5张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
6常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
7王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12
8吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
9袁明轩,张选平,蒋宇,赵仲孟.一种基于同层网页相似性去除网页噪音的方法[J].计算机工程,2006,32(23):61-63. 被引量：3
10许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11

共引文献103

1蔡国民,王雅琳.搜索引擎的相关排序算法分析与优化[J].吉首大学学报（自然科学版）,2006,27(5):17-19. 被引量：4
2谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
3姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
4曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
5徐慧,窦子辉,杨林,陈雪.面向终端用户的网页过滤模板动态生成技术研究[J].计算机科学,2012,39(S2):90-93. 被引量：2
6谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2
7陈磊,冯玉珉.一种基于网页自动分类的分类查询搜索引擎[J].电脑与信息技术,2004,12(6):47-51.
8宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
9张春元,康耀红.基于示例的Web信息自动获取系统的设计与实现[J].计算机应用,2005,25(B12):55-57.
10陈再良,凌力,周强.dPageRank——一种改进的分布式PageRank算法[J].计算机应用,2006,26(1):21-24. 被引量：7

同被引文献3

1谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2
2熊忠阳,牙漫,张玉芳.基于网页正文结构和特征串的相似网页去重算法[J].计算机应用,2013,33(2):554-557. 被引量：11
3薛剑,吕立,孙咏,王丹妮.应用语义相似的海量网页文本去重策略研究[J].小型微型计算机系统,2016,37(6):1143-1147. 被引量：2

引证文献1

1符于江.网页去重中的关键词和特征串提取[J].电子技术与软件工程,2016(17):28-29. 被引量：1

二级引证文献1

1谢志豪,杨贤.网络内容的去重算法与语义量化研究[J].现代计算机,2024,30(17):1-6.

1毛先领,何靖,闫宏飞.网页去噪:研究综述[J].计算机研究与发展,2010,47(12):2025-2036. 被引量：18
2陈善根,朱士芬.计算机网络安全防范措施研究[J].电脑迷,2016,0(10):157-158.
3王素华.请个靓“钮”到你家[J].中学生电脑,2003(7):36-36.
4spikal fwcn.利用FIREWORKS创建按钮和导航条[J].移动信息．新网络,2002(1):75-76.
5张兴军.网页制作跟我来之怎样建立超级链接[J].电脑界（应用文萃）,2000(2):105-106.
6王楠.XML在Web数据挖掘中的应用[J].科技创新导报,2009,6(7):11-11. 被引量：1
7王跃文.浅析自由软件[J].内蒙古科技与经济,2008(11):48-49.
8李杏彩.嵌入式系统浅探[J].电脑知识与技术,2007(8):793-793.
9符于江.网页去重中的关键词和特征串提取[J].电子技术与软件工程,2016(17):28-29. 被引量：1
10河天.巧制导航条[J].信息技术教育,2001(3):62-63.

现代计算机

2013年第10期

浏览历史

内容加载中请稍等...

网页净化及去重研究综述被引量：1

参考文献22

二级参考文献82

共引文献103

同被引文献3

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

网页净化及去重研究综述 被引量：1

参考文献22

二级参考文献82

共引文献103

同被引文献3

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

网页净化及去重研究综述被引量：1