期刊文献+

一种基于Redis的分布式爬虫系统设计与实现 被引量:5

Design and Implementation of a Distributed Crawler System Based on Redis
下载PDF
导出
摘要 随着互联网技术的飞速发展,互联网信息和资源呈指数级爆炸式增长。如何快速有效的从海量的网页信息中获取有价值的信息,用于搜索引擎和科学研究,是一个关键且重要的基础工程。分布式网络爬虫较集中式网络爬虫具有明显的速度与规模优势,能够很好的适应数据的大规模增长,提供高效、快速、稳定的Web数据爬取。本文采用Redis设计实现了一个主从式分布式网络爬虫系统,用于快速、稳定、可拓展地爬取海量的Web资源。系统实现了分布式爬虫的核心框架,可以完成绝大多数Web内容的爬取,并且节点易于拓展,爬取内容可以定制,主从结构使得系统稳定且便于维护。 With the rapid development of Internet technology, the Internet information and resources are expo-nentially explosive growth. How to quickly and effectively obtain valuable information from a large amount of web pages for search engines and scientific research is a key and important infrastructure project. Distributed web crawler has obvious advantages in speed and scale, which can adapt to the massive growth of data, and provide effi-cient, fast and stable Web data crawling. In this paper, Redis is used to design and implement a master-slave distrib-uted network crawler system, which can be used for fast, stable and scalable crawling Web resources. The system realizes the core framework of the distributed crawler, which can complete the crawling of the vast majority of Web content, and the nodes are easy to expand, the crawling content can be customized, and the master-slave structure makes the system stable and easy to maintain.
作者 罗娇敏 耿茜
出处 《软件》 2017年第10期83-87,共5页 Software
基金 湖北省自然科学基金资助项目"面向数字取证的数据约简技术研究"(2015CFB764)
关键词 REDIS 分布式 主从式 爬虫系统 Redis Distribute Master-slave Crawler system
  • 相关文献

参考文献8

二级参考文献43

  • 1吴丽辉,王斌,余智华.一种通用Web信息采集系统的设计与实现[J].计算机工程,2005,31(3):123-124. 被引量:11
  • 2费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量:68
  • 3申德荣,于戈.分布式数据库系统原理与应用[M].北京:机械工业出版社,2011:114-121. 被引量:8
  • 4GammaE HelmR JohnsonR etal 李英军译.设计模式:可复用面向对象软件的基础[M].北京:机械工业出版社,2000.11-15. 被引量:40
  • 5HUSTON S,JOHNSON J,SYYID U.ACE程序员指南:网络与系统编程的实用设计模式[M].马维达.北京:中国电力出版社,2004. 被引量:1
  • 6Global Environment for Network Innovations[EB/OL]. (2006-05-01)[2006-06-20]. http..//www, geni. net/. 被引量:1
  • 7The Research Coordination Working Group, the GENI Planning Group. GENI Research Plan, Version 4.5 of April 23[EB/OL]. (2007-04-23)[2007-05-28]. http://www. geni. net/. 被引量:1
  • 8The GENI Project Office, BBN Technologies. GENI Spiral 10verview[EB/OL].(2008-09-29)[2008-10-03]. http:// www. geni. net/. 被引量:1
  • 9The GENI Project Office, BBN Technologies. Solicitation 2 for GENI Development & Prototyping Proposals[EB/OL]. (2008-12-15)[2008-12-25]. http://www, geni. net/. 被引量:1
  • 10The GENI Project Office, BBN Technologies. GENI System overview[EB/OL]. (2008-12-25)[2009-01-051. http:// www.geni, net/. 被引量:1

共引文献62

同被引文献35

引证文献5

二级引证文献10

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部