期刊文献+

DeepWeb可配置聚焦爬虫设计与实现 被引量:3

Design and Implementation of Deep Web Customized Focused Web Crawler
下载PDF
导出
摘要 大数据时代如何精确而有效地抓取用户所需要的数据成为了一个至关重要的问题,提出一种可配置的聚焦网络爬虫框架,基于配置文件的设置,构建一个数据采集精确、可控性强的聚焦网络爬虫。在此基础上改进聚焦爬虫工作流程,实现Deep Web表单自动提交以及Deep Web数据抓取。实验通过高能物理研究所网站与手机腾讯微博的数据爬取以及爬虫在高能物理研究所大数据平台上的实际运行效果说明了爬虫设计的有效性与实用性。 How to capture data from the Internet accurately and efficiently is of utmost significance in Big Data era.In this paper we propose a customized web crawler framework , and by setting up configuration files we can construct a highly accurate and controllable focused web crawler .In addition to this, we implement the Deep Web form submitting and Deep Web data capturing based on the improvement of workflow of the focused crawl -er.Experiments on capturing the data from the IHEP website and mobile Tencent microblog as well as its practi -cal performance on the big data platform of IHEP indicate the effectiveness and practicability of the crawler .
出处 《核电子学与探测技术》 CAS CSCD 北大核心 2014年第3期353-358,共6页 Nuclear Electronics & Detection Technology
关键词 聚焦爬虫 DEEP WEB 大数据 focused web crawler Deep Web Big Data
  • 相关文献

参考文献8

二级参考文献32

  • 1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量:153
  • 2沈贺丹,潘亚楠,邵良杉.关于搜索引擎的研究综述[J].计算机技术与发展,2006,16(4):147-149. 被引量:17
  • 3严莉莉,王倩倩,孟杰,张燕平.基于聚类的个性化元搜索引擎设计[J].计算机技术与发展,2007,17(4):186-188. 被引量:7
  • 4Pinkerton B. Finding what people want: experiences with the web crawler [ C ]//Proceedings of the Second World - Wide Web Conference. Chicago, Illinois : [ s. n. ], 1994. 被引量:1
  • 5Heritrix官方网站[EB/OL].[2011-04].http://crawler.archive.org. 被引量:1
  • 6Guo Q, Guo H, Zhang Z Q, et al. Schema Driven Topic Specific Web Crawling[ C]//DASFAA. [ s. l. ] :[ s. n. ] ,2005. 被引量:1
  • 7Dong H, Hussain F K. Focused Crawling for Automatic Service Discovery, Annotation and Classification in Industrial Digital Ecosystems [ J ]. IEEE Trans on Industrial Electronics, 2011, 58(6) :2106-2116. 被引量:1
  • 8Cormen TH,Leiserson CE.Introduction to Algorithms.2nd ed.,Cambridge:MIT Press,2001.221-252. 被引量:1
  • 9Knuth DE.Sorting and Searching,Volume 3 of the Art of Computer Programming.New York:Addison-Wesley,1973.506-549. 被引量:1
  • 10McKenzie BJ,Harries R,Bell T.Selecting a hashing algorithm.Software Practice and Experience,1990,20(2):208-210. 被引量:1

共引文献64

同被引文献27

  • 1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量:153
  • 2微博广告中心.产品介绍[EB/OL].[2015-08-18].http://tui.wei-bo.com/intro/product/sea. 被引量:1
  • 3汪海.[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容[EB/OL].(2013-05-13)[2015-08-20].httP://blog.csdn.net/pleasecallmewhy/article/details/8923067. 被引量:1
  • 4孔森.一看就明白的爬虫入门讲解:基础理论篇[EB/OL].[2015-11-18]http://www.csdn.net/artlcle/20151113/2826205. 被引量:1
  • 5Netty项目组.Netty官方首页[EB/OL].[2015-08-18]httP://hetty.io/. 被引量:1
  • 6李林峰.Netty权威指南[M].北京:电子工业出版社,2014. 被引量:1
  • 7DAREN.MySQI.主从同步部署[EB/OL].[2015-08-18]http://www.1inuxidc.coM/Linux/201212/76276.htm. 被引量:1
  • 8THEJQUERYFOUNDATION.JQuery官网[EB/OL].[2015-08-8].http://jquery.com/. 被引量:1
  • 9PHPl00中文网.JQuery在线手册,CHMl.7[EB/OL].[2015-08-18].http://www.php100.com/manual/jquery/. 被引量:1
  • 10北京求之易数据有限公司.搜迭足球英超联赛首页[EB/OL.].[2015-08-18]. Http://www, sodasoceer, com/dasai/league/133. html. 被引量:1

引证文献3

二级引证文献15

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部