一个增量搜集中国W eb的系统模型及其实现被引量：7

System model of incremental spider for the Chinese web and its implementation

导出

摘要针对中国W eb的高效增量搜集,设计试验考察了网页的短期变化规律,估算出增量搜集需要的最小搜集能力。提出一个通用的增量式搜集系统模型和它的性能准则,该模型阐明了增量搜集的运行原理。针对该模型,结合北大天网增量搜集系统的开发经验,讨论了它的性能瓶颈并给出解决方案。对增量搜集的两类目标——变化网页和新网页,探讨了相应的搜集策略。介绍了该模型的实现和性能状况。该文的工作为增量搜集系统的设计和实现提供了一个成功的模型。 This paper is aimed at efficient incremental information collection from the Chinese web. The experiments were first designed and performed to inspect how pages were evolved in a short period. Based on the results, a general system model was established for incremental spiders. Then the latent performance bottle-necks in implementation were deeply analyzed, with corresponding solutions supplied. Besides, two particular approaches were put forward to efficiently collect updated or newly-born pages in this mo...

作者孟涛闫宏飞王继民

机构地区北京大学计算机科学技术系

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2005年第S1期1882-1886,共5页 Journal of Tsinghua University(Science and Technology)

基金国家自然科学基金重点资助项目(60435020) 教育部博士点基金项目(20030001076)

关键词增量式网页搜集系统模型中国Web 实现策略 incremental spider web crawling system model the Chinese web implementation strategies

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Broder A Z,Najork M,Janet L,et al.Efficient URL caching for world wide web crawling[].Proc th Int World Wide Web Conference.2003 被引量：1
2Cho J,Garcia-Molina H.Estimating frequency of change[].A CM Transactions on Internet Technology.2003 被引量：1
3Brian E Brewington,george cybenko.How dynamic is the web?[].Proc th Int World Wide Web Conference.2000 被引量：1
4Bharat K,Broder A,Dean J,et al.A comparison of techniques to find mirrored hosts on the WWW[].J ournal of the American Society for Information Science.2000 被引量：1
5Jenny Edwards,Kevin McCurley,John Tomlin.An adaptive model for optimizing performance of an incremental web crawler[].Proc th International World Wide Web Conference.2002 被引量：1
6Cho J,Garcia-Molina H.The evolution of the web and implications for an incremental crawler[].Proc of th International Conference on Very Large Databases.2000 被引量：1
7MENG Tao,YAN Hongfei,WANG Jimin,et al.The evolution of link-attributes for pages and its implications on web crawling[].In the Proceedings of the IEEE WIC ACM International Conference on Web Intelligence.2004 被引量：1
8Cho J,Garcia-Molina H.Synchronizing a database to improve freshness[].Proc of the ACM SIGMOD International Conference on Management of Data.2000 被引量：1

同被引文献43

1余丹.关于查全率和查准率的新认识[J].西南民族大学学报（人文社会科学版）,2009,30(2):283-285. 被引量：15
2刘玉莲,周春楠,张强.网页搜集系统的动态可配置性的研究与实现[J].信息技术,2004,28(7):73-75. 被引量：1
3赫枫龄,左万利.利用超链接信息改进网页爬行器的搜索策略[J].吉林大学学报（信息科学版）,2005,23(1):59-63. 被引量：8
4李丹,吴建平,崔勇,徐恪.互联网名字空间结构及其解析服务研究[J].软件学报,2005,16(8):1445-1455. 被引量：24
5孟涛,闫宏飞,王继民.Web网页信息变化的时间局部性规律及其验证[J].情报学报,2005,24(4):398-406. 被引量：8
6肖明忠,闵博楠,王佳聪,代亚非.一个实用的针对URL的哈希函数[J].小型微型计算机系统,2006,27(3):538-541. 被引量：3
7孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22
8程菲,汪建海,罗键.增量更新Crawler进行Web收集方法研究[J].计算机工程与科学,2006,28(12):28-30. 被引量：2
9张元丰,董守斌,张凌,陈晓志.基于Map/Reduce的网页消重并行算法[J].广西师范大学学报（自然科学版）,2007,25(2):153-156. 被引量：2
10BAEKCHEOL J. KILNAM C. DNS resolution with renewal using piggyback [EB/OL]. 2008 (2003-12-23). http:// www2003.org/cdrom/paper/poster/p330/p330. jang. htm. 被引量：1

引证文献7

1黄连恩,张燕,李晓明.互联网上信息报道的最早发布时间检测[J].计算机科学与探索,2009,3(1):51-59. 被引量：3
2王颖.主控网状通信策略在web搜集系统中的应用及模拟分析[J].中小企业管理与科技,2009(1):250-251.
3吴翠雁,黄建波,李浩,袁华.基于主动哈希和多级缓存的域名解析策略[J].广西师范大学学报（自然科学版）,2009,27(1):205-208. 被引量：1
4曾文,湛腾西.网络视频爬虫系统的设计与实现[J].中国科技信息,2010(15):96-99. 被引量：2
5杨颂,欧阳柳波.基于Heritrix的面向电子商务网站增量爬虫研究[J].软件导刊,2010,9(7):38-39. 被引量：6
6吴代文,詹海生.西安市数字方志全文检索系统的设计与实现[J].计算机技术与发展,2011,21(10):121-124. 被引量：1
7杨眉.网页更新预测算法研究现状[J].软件导刊,2013,20(4):57-59. 被引量：2

二级引证文献15

1张燕,黄连恩,林武.一种基于领域的历史网页检索算法[J].计算机应用研究,2010,27(1):56-59.
2朱敏,罗省贤.基于Heritrix的面向特定主题的聚焦爬虫研究[J].计算机技术与发展,2012,22(2):65-68. 被引量：7
3张皓,周学广.基于网页去噪Hash的增量式网络爬虫研究[J].舰船电子工程,2014,34(2):86-90. 被引量：2
4李卫,王文贤.QVOD资源爬行系统的研究与实现[J].信息网络安全,2014(2):81-85. 被引量：1
5孟庆浩,王晶,沈奇威.基于Heritrix的增量式爬虫设计与实现[J].电信技术,2014(9):97-101. 被引量：6
6朱艳洁.大数据背景下学生信息集成管理研究[J].课程教育研究,2015,0(1):9-10. 被引量：2
7阚杰.作者单位署名重点实验室的著录格式探讨[J].中国科技期刊研究,2015,26(3):286-290. 被引量：1
8陈宇,孟凡龙,刘培玉,朱振方.基于 Regex 网页去噪 Hash 比对的网络爬虫无登陆微博采集技术[J].山东师范大学学报（自然科学版）,2015,30(3):14-17. 被引量：1
9耿瑞,李石君,尹为民.基于主题相关性和时间因素的改进PageRank算法[J].微电子学与计算机,2015,32(8):158-162. 被引量：1
10孙静,李亚龙,万杰.基于Heritrix与Lucene的地震专业搜索引擎设计[J].地震地磁观测与研究,2016,37(5):172-178. 被引量：1

1深信服获“中国Web安全网关市场领导者”奖项[J].石油工业计算机应用,2011(4):55-55.
2深信服web安全网关获奖[J].网管员世界,2011(21):10-10.
3动态[J].新电脑,2015,0(7):98-98.
4孟涛,闫宏飞,李晓明.一种评价搜索引擎信息覆盖率的模型及其验证[J].电子学报,2003,31(8):1168-1172. 被引量：5
5孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22
6闫宏飞,李晓明.关于中国Web的大小、形状和结构[J].计算机研究与发展,2002,39(8):958-967. 被引量：17
7王圆,蔡增玉,王兴杰.WEB搜索引擎关键技术研究[J].科技资讯,2008,6(23):10-11. 被引量：1
8孙红娜.被忽略的现实[J].网管员世界,2010(14):7-7.
9陈哲.垂直搜索中网页抓取技术的研究[J].科技信息,2009(22). 被引量：5
10杜言琦,马军.基于版块的论坛增量搜集策略[J].中文信息学报,2010,24(3):62-68. 被引量：2

清华大学学报（自然科学版）

2005年第S1期

浏览历史

内容加载中请稍等...

一个增量搜集中国W eb的系统模型及其实现被引量：7

参考文献8

同被引文献43

引证文献7

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

一个增量搜集中国W eb的系统模型及其实现 被引量：7

参考文献8

同被引文献43

引证文献7

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

一个增量搜集中国W eb的系统模型及其实现被引量：7