一种基于Redis的分布式爬虫系统设计与实现被引量：5

Design and Implementation of a Distributed Crawler System Based on Redis

下载PDF

导出

摘要随着互联网技术的飞速发展,互联网信息和资源呈指数级爆炸式增长。如何快速有效的从海量的网页信息中获取有价值的信息,用于搜索引擎和科学研究,是一个关键且重要的基础工程。分布式网络爬虫较集中式网络爬虫具有明显的速度与规模优势,能够很好的适应数据的大规模增长,提供高效、快速、稳定的Web数据爬取。本文采用Redis设计实现了一个主从式分布式网络爬虫系统,用于快速、稳定、可拓展地爬取海量的Web资源。系统实现了分布式爬虫的核心框架,可以完成绝大多数Web内容的爬取,并且节点易于拓展,爬取内容可以定制,主从结构使得系统稳定且便于维护。 With the rapid development of Internet technology, the Internet information and resources are expo-nentially explosive growth. How to quickly and effectively obtain valuable information from a large amount of web pages for search engines and scientific research is a key and important infrastructure project. Distributed web crawler has obvious advantages in speed and scale, which can adapt to the massive growth of data, and provide effi-cient, fast and stable Web data crawling. In this paper, Redis is used to design and implement a master-slave distrib-uted network crawler system, which can be used for fast, stable and scalable crawling Web resources. The system realizes the core framework of the distributed crawler, which can complete the crawling of the vast majority of Web content, and the nodes are easy to expand, the crawling content can be customized, and the master-slave structure makes the system stable and easy to maintain.

作者罗娇敏耿茜

机构地区南京航空航天大学金城学院信息工程系

出处《软件》 2017年第10期83-87,共5页 Software

基金湖北省自然科学基金资助项目"面向数字取证的数据约简技术研究"(2015CFB764)

关键词 REDIS 分布式主从式爬虫系统 Redis Distribute Master-slave Crawler system

分类号 TP393.07 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1周京晖.集成消息服务和定时通知的分布式内存数据库[J].软件,2013,34(1):89-92. 被引量：21
2刘晓婉,胡燕祝,艾新波.开源中文分词器在web搜索引擎中的应用[J].软件,2013,34(3):80-83. 被引量：12
3郑力明,李晓冬,罗建禄.GENI体系结构研究[J].软件,2013,34(4):59-61. 被引量：3
4黄志敏,曾学文,陈君.一种基于Kademlia的全分布式爬虫集群方法[J].计算机科学,2014,41(3):124-128. 被引量：9
5袁威,薛安荣,周小梅.基于Nutch的分布式爬虫的优化研究[J].无线通信技术,2014,23(3):44-47. 被引量：7
6吴黎兵,柯亚林,何炎祥,刘楠.分布式网络爬虫的设计与实现[J].计算机应用与软件,2011,28(11):176-179. 被引量：11
7范珊珊,李石君.基于优先级队列的分布式多主题爬虫[J].计算机工程与设计,2015,36(6):1630-1636. 被引量：6
8李婷..分布式爬虫任务调度与AJAX页面抓取研究[D].电子科技大学,2015:

二级参考文献43

1吴丽辉,王斌,余智华.一种通用Web信息采集系统的设计与实现[J].计算机工程,2005,31(3):123-124. 被引量：11
2费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
3申德荣,于戈.分布式数据库系统原理与应用[M].北京:机械工业出版社,2011:114-121. 被引量：8
4GammaE HelmR JohnsonR etal 李英军译.设计模式:可复用面向对象软件的基础[M].北京:机械工业出版社,2000.11-15. 被引量：40
5HUSTON S,JOHNSON J,SYYID U.ACE程序员指南:网络与系统编程的实用设计模式[M].马维达.北京:中国电力出版社,2004. 被引量：1
6Global Environment for Network Innovations[EB/OL]. (2006-05-01)[2006-06-20]. http..//www, geni. net/. 被引量：1
7The Research Coordination Working Group, the GENI Planning Group. GENI Research Plan, Version 4.5 of April 23[EB/OL]. (2007-04-23)[2007-05-28]. http://www. geni. net/. 被引量：1
8The GENI Project Office, BBN Technologies. GENI Spiral 10verview[EB/OL].(2008-09-29)[2008-10-03]. http:// www. geni. net/. 被引量：1
9The GENI Project Office, BBN Technologies. Solicitation 2 for GENI Development & Prototyping Proposals[EB/OL]. (2008-12-15)[2008-12-25]. http://www, geni. net/. 被引量：1
10The GENI Project Office, BBN Technologies. GENI System overview[EB/OL]. (2008-12-25)[2009-01-051. http:// www.geni, net/. 被引量：1

共引文献62

1罗宗祥.基于新浪云的微博传播可视化研究[J].软件,2012,33(7):117-119. 被引量：5
2周京晖.数据缓存按需同步的设计与应用[J].软件,2013,34(5):6-11. 被引量：2
3张婷.数据库信息资源内容质量用户满意度模型及实证研究[J].软件,2013,34(12):269-269. 被引量：4
4孙青云,王俊峰,赵宗渠,高梦超.一种基于模拟登录的微博数据采集方案[J].计算机技术与发展,2014,24(3):6-10. 被引量：30
5黄志敏,曾学文,陈君.一种基于Kademlia的全分布式爬虫集群方法[J].计算机科学,2014,41(3):124-128. 被引量：9
6俞忻峰.社交网络挖掘方案研究[J].现代电子技术,2015,38(4):25-29. 被引量：4
7徐治.Visual C++调用MATLAB函数库的混合编程技术[J].软件,2015,36(2):55-58. 被引量：11
8王文军,邓景顺,王静.基于计算思维能力培养的数据库课程群体系构建研究[J].高等教育研究（成都）,2015,32(3):44-47.
9朱应坚,陈雪梅,向勇.专业、理性、应用性——信息通信时代的专业期刊[J].广东通信技术,2015,35(10):2-6.
10马颖,陈素霞.云计算环境下集群式搜索引擎技术研究[J].数字技术与应用,2015,33(11):69-69. 被引量：1

同被引文献35

1梁昌宇,吴强,曾庆凯.分布式计算机动态取证模型[J].计算机应用,2005,25(6):1290-1293. 被引量：3
2魏丽霞,郑家恒.基于网页文本结构的网页去重[J].计算机应用,2007,27(11):2854-2856. 被引量：13
3付少锋,李龙海,焦晓鹏.基于双线性对的匿名否决协议[J].计算机工程,2011,37(22):105-106. 被引量：2
4郑东,赵庆兰,张应辉.密码学综述[J].西安邮电大学学报,2013,18(6):1-10. 被引量：66
5赵庆兰,郑东.对称布尔函数算术Walsh变换的快速算法[J].西安邮电大学学报,2014,19(5):40-45. 被引量：3
6严磊,丁宾,姚志敏,马勇男,郑涛.基于MD5去重树的网络爬虫的设计与优化[J].计算机应用与软件,2015,32(2):325-329. 被引量：10
7万文兵.面向主题搜索的网络爬虫信息采集策略研究[J].软件导刊,2015,14(11):68-70. 被引量：2
8姜燕宁,郝书池.基于部分跨级和集中存储模式的库存配置与选址决策模型[J].公路交通科技,2016,33(11):152-158. 被引量：5
9刘建成,吴保国,陈栋.基于网络爬虫的森林经营知识采集系统研建[J].浙江农林大学学报,2017,34(4):743-750. 被引量：5
10王相军,刘春晓,刁慕言,何建安,顾大勇,史蕾,赵纯中,叶允明,田桢干,李深伟.全球传染病疫情信息自动收集系统的研发[J].中国国境卫生检疫杂志,2017,40(6):431-434. 被引量：7

引证文献5

1董富江,张文学.分布式主题舆情采集与分析系统设计[J].软件导刊,2020,19(11):116-119.
2韩刚,庞龙,罗维,王浩琛.基于属性更新的MSP数据访问控制机制[J].西安邮电大学学报,2021,26(4):53-59. 被引量：3
3丁桥,宋晓骏,余思莹.基于MD5指纹的网页内容去重机制[J].电子技术与软件工程,2021(22):259-260.
4胡学军,李嘉诚.基于Scrapy-Redis的分布式爬取当当网图书数据[J].软件工程,2022,25(10):8-11. 被引量：4
5黎玉香,于伟.分布式网络爬虫系统的基本原理与实现[J].花炮科技与市场,2018,24(4):45-45. 被引量：3

二级引证文献10

1翁绍菲,廖翔宇,祝光仪,范雅静,甘宇健.基于Scrapy的分布式爬虫采集软件的实现[J].电脑知识与技术,2019,15(7Z):73-75.
2陈嘉欣.浅析我国互联网保险风险防控[J].太原城市职业技术学院学报,2020(3):169-171.
3杨珍娜,范九伦,祝剑,韩刚.工业互联网存储设备隐私安全[J].西安邮电大学学报,2022,27(1):35-42. 被引量：2
4姜庆玲,张樊.基于Python与Requests模块的网络图片爬虫程序设计[J].电脑编程技巧与维护,2023(6):59-61.
5祁新雷,周强,田呈亮.云辅助的安全高效非负矩阵分解算法[J].西安邮电大学学报,2023,28(2):91-98.
6姜庆玲,张樊.基于Python和Requests快速获取网页数据的方法研究[J].现代信息科技,2023,7(16):100-103. 被引量：2
7赵鹏,苏楠,于慧霞.基于Scrapy的高性能网站状态批量采集系统[J].中国新通信,2023,25(13):48-50.
8陈美其.移动办公数据安全访问系统的设计与实现[J].办公自动化,2023,28(18):59-61.
9曹培,林永意.基于Scrapy的岗位推荐系统的设计与实现[J].无线互联科技,2023,20(24):75-77. 被引量：1
10邓佳棋,王月波,蒲卿路,李继秀,杨旭.典型测试用例推荐与用例期望结果生成系统[J].计算机测量与控制,2024,32(2):1-6.

1方若鸣.排除诊断要从最严重的疾病开始[J].医师在线,2016,6(3):11-12.
2董石林.智能化技术在机械工程自动化中的应用[J].电脑迷,2017(4). 被引量：4
3吴震宇.移动转售业务场景下redis故障分析[J].中国新通信,2017,19(20):7-9. 被引量：1
4陈波.基于HBASE分布式存储的通用海量日志系统设计方法研究[J].信息通信,2017,30(6):7-9. 被引量：1
5文天乐.面向虚拟现实内容的网络爬虫系统的设计与实现[J].中国高新科技,2017(19):39-41.
6张敬伟,丁志均,杨青,张会兵,张海涛,周娅.异构Redis集群大规模评论数据存储负载均衡设计[J].华东师范大学学报（自然科学版）,2017(5):20-29. 被引量：6
7王张夫.基于nginx和redis架构的高并发框架的设计与研究[J].信息通信,2017,30(2):145-146. 被引量：8
8汤周文.一种基于配置的数据开放接口方案[J].福建电脑,2017,33(6):142-143.
9陈建平.高校重要网页信息采集归档实践探析[J].浙江档案,2017(9):65-65. 被引量：3
10于飞,范世伟,李倩,郝强,姜畔.主从式USV协同定位系统性能分析[J].哈尔滨工业大学学报,2017,49(9):129-135. 被引量：3

软件

2017年第10期

浏览历史

内容加载中请稍等...

一种基于Redis的分布式爬虫系统设计与实现被引量：5

参考文献8

二级参考文献43

共引文献62

同被引文献35

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种基于Redis的分布式爬虫系统设计与实现 被引量：5

参考文献8

二级参考文献43

共引文献62

同被引文献35

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种基于Redis的分布式爬虫系统设计与实现被引量：5