基于Scrapy的分布式爬虫系统的设计与实现被引量：17

Design and Implementation of Distributed Crawler System Based on Scrapy

下载PDF

导出

摘要随着互联网的快速发展,其信息量和相关服务也随之快速增长.如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战.目前国内外一些大型搜索引擎只给用户提供不可制定的搜索服务,而单机的网络爬虫又难当重任,因此可定制性强、信息采集速度快和规模大的分布式网络爬虫便应运而生.通过对原有Scrapy框架的学习和研究,将Scrapy和Redis结合改进原有的爬虫框架,设计并实现了一个基于Scrapy框架下的分布式网络爬虫系统,然后将从安居客、58同城、搜房等网站抓取的二手房信息存入MongoDB中,便于对数据进行进一步的处理和分析.结果表明基于Scrapy框架下的分布式网络爬虫系统同单机网络爬虫系统相比效率更高且更稳定. With the rapid growth of the Internet,the amount of information and related services are growing rapidly.How to capture the information from massive information quickly and accurately is becoming more and more important,so the network crawler is also facing great challenges and opportunities.At present,domestic and foreign large search engines can only provide non-customizable search services for users,and a single-machine web crawler cannot assume the difficult task. Therefore,the distributed web crawler with flexible customization,high information acquisition speed and large scale has come into being.In this paper,through the study of the original Scrapy framework,the original crawler framework is improved by combining Scrapy and Redis,and a distributed crawler system based on Web information Scrapy framework is designed and implemented. The second-hand housing information captured from www. anjuke.com,www.58.com and www.fang. com is stored in Mongo DB,so that the data can be processed and analyzed.The results show that the distributed crawler system based on Scrapy framework is more efficient and stable than the single-machine web crawler system.

作者李代祎谢丽艳钱慎一吴怀广 LI Daiyi;XIE Liyan;QIAN Shenyi;WU Huaiguang.(School of Computer and Communication Engineerring,Zhengzhou University of Light Industry,Zhengzhou 450002,China;Henan School of Administration of Industry and Commerce, Zhengzhou 450002, China)

机构地区郑州轻工业学院计算机与通信工程学院河南省工商行政管理学校

出处《湖北民族学院学报（自然科学版）》 CAS 2017年第3期317-322,共6页 Journal of Hubei Minzu University(Natural Science Edition)

基金国家自然科学基金项目(61672470) 河南省科技攻关项目(162102410076) 河南省重大科技专项(161100110900)

关键词 Scrapy 分布式 Scrapy-Reids 网络爬虫 Mongo DB 数据存储 Scrapy distributed Scrapy-Reids Web crawler MongoDB data storage

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献12

1薛丽敏,吴琦,李骏.面向专用信息获取的用户定制主题网络爬虫技术研究[J].信息网络安全,2017(2):12-21. 被引量：18
2王素华.基于网络爬虫技术的学生信息收集方法[J].电脑迷,2016(3). 被引量：1
3郭涛,黄铭钧.社区网络爬虫的设计与实现[J].智能计算机与应用,2012,2(4):65-67. 被引量：10
4董日壮,郭曙超.网络爬虫的设计与实现[J].电脑知识与技术（过刊）,2014,20(6X):3986-3988. 被引量：10
5李勇,韩亮.主题搜索引擎中网络爬虫的搜索策略研究[J].计算机工程与科学,2008,30(3):4-6. 被引量：37
6黄聪,李格人,罗楚.大数据时代下爬虫技术的兴起[J].计算机光盘软件与应用,2013,16(17):79-80. 被引量：8
7赵鹏程..分布式书籍网络爬虫系统的设计与实现[D].西南交通大学,2014:
8刘学..分布式多媒体网络爬行系统的设计与实现[D].华中科技大学,2012:
9李贤芳..面向作战系统应用的数据分发中间件的研究与设计[D].南京理工大学,2013:
10徐亦璐.基于多线程的网络爬虫设计与实现[J].计算机光盘软件与应用,2011(2):152-152. 被引量：2

二级参考文献79

1陈红英,杨宜民.基于多智能体的网络信息系统的原理与实现[J].微电子学与计算机,2005,22(3):57-59. 被引量：2
2吴友政,赵军,段湘煜,徐波.问答式检索技术及评测研究综述[J].中文信息学报,2005,19(3):1-13. 被引量：48
3孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22
4夏崇镨,康丽.基于叙词表的主题爬虫技术研究[J].现代图书情报技术,2007(5):41-44. 被引量：8
5赵燕,陈晓云,莫明辉,汤勇.基于用户群的智能主题爬虫[J].广西师范大学学报（自然科学版）,2007,25(2):230-233. 被引量：3
6余一娇.Google Linux Cluster的系统结构分析[EB/OL].(2006 -09 -02).http://www.uplooking.com/content/view/229/2/. 被引量：2
7Paterson L.HTML4编程指南[M].徐征,冯文镛,陈晓良,等译.杭州:浙江科学技术出版社,2002:10-45. 被引量：1
8Eichmann D. The RBSE Crawler-Balancing Effective Search Against Web Load[C]// Proc of the 1st Int'l World Wide Web Conf, 1994 : 113-120. 被引量：1
9McBryan O A. GENVL and WWW: Tools for Taming the Web[C]//Proc of the 1st Int'l World Wide Web Conf, 1994 : 70-90. 被引量：1
10Pinkerton B. Finding What People Want: Experiences with the WebCrawler[C]//Proc of the 2nd Int'l World Wide Web Conf,1994. 被引量：1

共引文献119

1项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
2邵云蛟,吴丽莎,张凯,吴屏.一种基于Python的信息安全情报收集工具[J].中国科技纵横,2018,0(13):19-19.
3方东权,吴天吉,李翠霞.“三农”信息资源整合与服务平台的设计与实现[J].中国农学通报,2009,25(4):277-282. 被引量：12
4何毅.基于Web的建筑业主题搜索引擎技术[J].吉林广播电视大学学报,2009(6):126-128.
5刘淑梅,夏亮,许南山.主题搜索引擎网络爬虫搜索策略的研究与实现[J].计算机系统应用,2010,19(3):49-52. 被引量：13
6韩国辉,陈黎,梁时木,唐小棚,王亚强,于中华.Nave Bayes分类器制导的专业网页爬取算法[J].中文信息学报,2010,24(4):32-38. 被引量：3
7何毅.建筑院校主题搜索引擎设计与实现[J].吉林建筑工程学院学报,2010,27(5):114-117.
8汲业,陈燕,杨健,慕蓉.生活服务领域垂直搜索引擎的设计与实现[J].计算机工程,2010,36(24):24-26. 被引量：8
9刘淑梅,夏亮,许南山.Postgresql数据库集群在主题网络爬虫的应用[J].计算机系统应用,2010,19(12):160-163. 被引量：1
10李园伟.面向高校主题搜索引擎的的爬行器设计[J].电脑知识与技术,2011,7(6):3866-3868.

同被引文献82

1范文星.基于Django的网络运维管理系统的设计与实现[J].计算机科学,2012,39(S2):175-177. 被引量：22
2王岩.搜索引擎中网络爬虫技术的发展[J].电信快报（网络与通信）,2008(10):20-22. 被引量：11
3张靖宇,梁久祯.中文网页分布式并行索引的设计与实现[J].微计算机信息,2010,26(15):127-128. 被引量：1
4赵蓉英,许丽敏.文献计量学发展演进与研究前沿的知识图谱探析[J].中国图书馆学报,2010,36(5):60-68. 被引量：518
5漆志辉,杨天奇.网络爬虫性能研究[J].微型机与应用,2011,30(5):72-74. 被引量：3
6胡军伟,秦奕青,张伟.正则表达式在Web信息抽取中的应用[J].北京信息科技大学学报（自然科学版）,2011,26(6):86-89. 被引量：38
7夏光虎,贾宇波,范红丹.分类与预测挖掘在信用风险评估中的应用研究[J].工业控制计算机,2012,25(7):71-72. 被引量：1
8刘保国,林方.贯彻科学发展观与促进电力产业发展[J].工会论坛（山东省工会管理干部学院学报）,2012,18(6):88-90. 被引量：1
9李华勇.计算机数据库存储技术的开发与应用[J].长沙铁道学院学报（社会科学版）,2013,14(2):199-200. 被引量：2
10马杰,魏宁,王霄,王谦诚.基于POI的Android阅读器设计与实现[J].电子技术与软件工程,2013(15):64-64. 被引量：3

引证文献17

1苏健光,赵颖,麦文武,胡宏蕾,庞锐华,陆钊.中药材行情数据的并行爬取方案[J].信息技术与信息化,2018(4):27-30. 被引量：1
2李俊,周玉英,唐志航.基于主题网络爬虫的服装信息采集[J].信息技术与信息化,2018(8):97-99. 被引量：2
3田娟,朱定局,杨文翰.基于大数据平台的企业画像研究综述[J].计算机科学,2018,45(B11):58-62. 被引量：33
4韩贝,马明栋,王得玉.基于Scrapy框架的爬虫和反爬虫研究[J].计算机技术与发展,2019,29(2):139-142. 被引量：24
5党佩,阎光伟.基于WebMagic爬取技术的电力事故信息获取[J].计算机技术与发展,2019,29(6):125-129. 被引量：3
6李培.基于Python的网络爬虫与反爬虫技术研究[J].计算机与数字工程,2019,47(6):1415-1420. 被引量：51
7李光敏,李平,汪聪.基于Scrapy的分布式数据采集与分析——以知乎话题为例[J].湖北师范大学学报（自然科学版）,2019,39(3):1-7. 被引量：5
8周逸,李新,陈远平.一种分布式爬虫系统的设计与应用[J].科研信息化技术与应用,2019,10(1):79-87.
9李世杰,高雅蓉.基于网络爬虫的网络平台用户数据获取与分析[J].计算机与网络,2020,46(1):68-71. 被引量：3
10王海玲,周志彬.基于Scrapy框架的爬虫设计[J].软件导刊,2020,19(4):224-228. 被引量：12

二级引证文献136

1邓子云.基于Scrapy的网站增量式爬取功能的研制与应用[J].湖南工业职业技术学院学报,2022,22(6):25-29.
2姚万勤,宋俊豪.在技术与法律之间:网络爬虫刑法规制的边界[J].法治论坛,2023(1):3-17.
3李望月,刘瑾,陈娜.大数据技术在乡村画像中的应用研究[J].大数据,2020,6(1):99-118. 被引量：6
4黄芳.国际犯罪的国内立法导论[J].法学评论,2000,18(2):39-45. 被引量：12
5郝光兆,杨静,吴迪,生龙.“Python程序设计”课程智能答疑系统的设计与实现[J].电脑知识与技术,2019,15(3):86-88. 被引量：4
6苏艺航,徐海蛟,何佳蕾,杨振宇,王佳鹏.基于Python爬虫的校园数据获取[J].电脑知识与技术,2019,15(6Z):86-88. 被引量：2
7蔡勇.智慧洪泽时空信息云平台关键技术研究与应用[J].江苏科技信息,2019,36(20):41-44. 被引量：2
8徐勤亚,楚士杰.基于Tableau的北京市房屋租赁市场现状分析[J].无线互联科技,2019,16(15):129-130.
9叶文全.基于C#+ScrapySharp+Selenium的数据采集技术研究[J].湖北第二师范学院学报,2019,36(8):44-48. 被引量：2
10尤天琪,冯思毓,周陈雯淑,潘润超.电商数据的爬取及价格模型的建立[J].信息与电脑,2019,0(17):138-140.

1苏健光,赵颖,麦文武,胡宏蕾,庞锐华,陆钊.中药材行情数据的并行爬取方案[J].信息技术与信息化,2018(4):27-30. 被引量：1
2袁毅.影响百度爬虫对网站抓取量的因素[J].计算机与网络,2017,43(22):51-51.
3石宏.如何免费从搜索引擎获取SEO流量[J].计算机与网络,2018,44(5):44-44. 被引量：1
4李德勇.买二手房先付订金，反性能要卖方退回吗？[J].家庭百事通,2018(6):62-62.
5葆婴就“葆婴”、“葆苏康”和“Sense”产品销售渠道发布声明[J].知识经济．中国直销,2018,0(5):13-13.
6真不想读经典作品[J].快乐语文,2018,0(19):94-94.
7叶厚余.开往新时代的高铁[J].中国铁路文艺,2018,0(5):78-78.
8国内国际要闻[J].股市动态分析,2018,0(24):4-4.
9王世纯,许新华,张洪春,黄嘉成.个体差异对Python爬虫获取教育大数据的影响研究[J].中国教育信息化,2018,24(9):79-81. 被引量：2
10彭智鑫.基于Python的深度网络爬虫的设计与实现[J].信息记录材料,2018,19(8):140-141. 被引量：4

湖北民族学院学报（自然科学版）

2017年第3期

浏览历史

内容加载中请稍等...

基于Scrapy的分布式爬虫系统的设计与实现被引量：17

参考文献12

二级参考文献79

共引文献119

同被引文献82

引证文献17

二级引证文献136

相关作者

相关机构

相关主题

浏览历史

基于Scrapy的分布式爬虫系统的设计与实现 被引量：17

参考文献12

二级参考文献79

共引文献119

同被引文献82

引证文献17

二级引证文献136

相关作者

相关机构

相关主题

浏览历史

基于Scrapy的分布式爬虫系统的设计与实现被引量：17