python网络爬虫爬取策略对比分析被引量：7

Comparative Analysis of Crawling Strategies in Python Network

下载PDF

导出

摘要随着网络技术的迅猛发展,网络已经成为信息的载体,网络随处可见,打开网络,大量的信息充斥而来。如何有效提取并利用网络中有价值的信息将会成为未来一个很大的挑战。网络爬虫是一个可以自动提取网页的程序,从万维网上下载网页,提取信息。通常爬取的页面比较多,如何快速有效地爬取页面是关键,该文通过当当网新书畅销排行榜实例来分析对比现有的四种方式,得出结果异步爬虫和scrapy框架爬虫速度最快。 With the rapid development of network technology,the network has become the carrier of information.The network can be seen everywhere.Opening the network,a large number of information flooded.How to effectively extract and utilize valuable information in the network will become a great challenge in the future.Web crawler is a program that can automatically extract web pages,Download Web pages from the World Wide Web and extract information.Usually there are many pages crawled.How to crawl pages quickly and effectively is the key.This paper compares the four existing ways through examples,and finds that asynchronous crawler and scrapy framework crawler are the fastest.

作者翟普 ZHAI Pu(Henan Light Industry Vocational College,Zhengzhou 450008,China)

机构地区河南轻工职业学院

出处《电脑知识与技术》 2020年第1期29-30,34,共3页 Computer Knowledge and Technology

关键词网络爬虫异步爬虫 scrapy框架爬虫 reptiles asynchronous reptiles scrapy framework reptiles

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1齐鹏,李隐峰,宋玉伟.基于Python的Web数据采集技术[J].电子科技,2012,25(11):118-120. 被引量：33
2黄天羽,李芬芬编著..Python语言程序设计冲刺试卷高教版[M].北京:高等教育出版社,2019:313.
3吴永聪.浅谈Python爬虫技术的网页数据抓取与分析[J].计算机时代,2019,0(8):94-96. 被引量：19
4卢星.Python爬虫技术的特性及其应用分析[J].中国新通信,2019,0(15):112-113. 被引量：4

二级参考文献11

1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
2赫特兰.Python基础教程[M].2版.北京:人民邮电出版社,2010. 被引量：1
3丘恩.Python核心编程[M].2版.北京:人民邮电出版社,2008. 被引量：1
4鲁特兹.Python学习手册[M].北京:机械工业出版社,2009. 被引量：1
5刘红梅.脚本语言在数据采集系统中的应用研究[J].电子科技,2009,22(11):72-75. 被引量：3
6桂小林,汪宁波,李文.基于XML的远程教育课件规范化的研究与实现[J].电子科技,2010,23(6):129-131. 被引量：1
7王晶,朱珂,汪斌强.基于信息数据分析的微博研究综述[J].计算机应用,2012,32(7):2027-2029. 被引量：21
8周中华,张惠然,谢江.基于Python的新浪微博数据爬虫[J].计算机应用,2014,34(11):3131-3134. 被引量：62
9刘顺程,岳思颖.大数据时代下基于Python的网络信息爬取技术[J].电子技术与软件工程,2017(21):160-160. 被引量：14
10白雪丽.浅析基于Python爬虫技术的特性及应用[J].山西科技,2018,33(2):53-55. 被引量：18

共引文献52

1张刚生,谢先德.贝壳珍珠层微结构及成因理论[J].矿物岩石,2000,20(1):11-16. 被引量：27
2程秀峰,李重阳,陈莉玥.基于关联规则的高校图书馆微博关注趋势分析[J].图书情报工作,2014,58(8):73-78. 被引量：7
3林晓丽,胡可可,胡青.基于Python的微博用户关系挖掘研究[J].情报杂志,2014,33(6):144-148. 被引量：15
4赵志升,张晓,马腾.Java与Python整合方案的研究与实现[J].网络安全技术与应用,2015(1):146-146. 被引量：2
5吴剑兰.基于Python的新浪微博爬虫研究[J].无线互联科技,2015,12(6):93-94. 被引量：6
6周朝挥,蔡燕霞,鲁国瑞.信牌驱动式Web数据采集模型的应用[J].计算机应用,2016,36(A01):252-256. 被引量：4
7魏占祯,黄鑫,刘丹丹.基于Python的网络协议分析工具的研究与应用[J].北京电子科技学院学报,2016,24(4):61-65.
8杨雄.基于指静脉识别技术的云计算安全身份认证[J].计算机应用与软件,2017,34(10):325-329. 被引量：7
9李旭.Python语言在自动化考卷系统中的应用研究[J].技术与教育,2017,31(4):7-8. 被引量：2
10毛鑫,张小龙,周颖.桌面终端安全管理指标集中监测工具的设计与实现[J].电力信息与通信技术,2018,16(1):56-60.

同被引文献31

1张瑞兴,张翠梅.Cookie和Session机制的初步探讨[J].考试周刊,2008,0(36):170-171. 被引量：3
2姜晗,任翠池,王磊.基于Cookie和Session的身份认证机制的研究与实现[J].中国教育技术装备,2014(4):36-37. 被引量：4
3邹科文,李达,邓婷敏,李嘉振,陈义明.网络爬虫针对“反爬”网站的爬取策略研究[J].电脑知识与技术,2016,0(3):61-63. 被引量：15
4万丽华.在PHP中浅谈Cookie与Session[J].现代工业经济和信息化,2016,6(23):83-84. 被引量：3
5花君林.基于Selenium的Python网络爬虫的实现[J].电脑编程技巧与维护,2017(15):30-31. 被引量：17
6李琳.基于Python的网络爬虫系统的设计与实现[J].信息通信,2017,30(9):26-27. 被引量：32
7严明,郑昌兴.Python环境下的文本分词与词云制作[J].现代计算机,2018,24(23):86-89. 被引量：31
8冯与诘.词云生成系统的构建[J].通讯世界,2019,26(3):190-192. 被引量：11
9王磊,刘晓丹.基于Scrapy的网络爬虫系统框架设计与实现[J].微型电脑应用,2019,35(4):48-50. 被引量：10
10徐博龙.应用Jieba和Wordcloud库的词云设计与优化[J].福建电脑,2019,35(6):25-28. 被引量：20

引证文献7

1李鲲程,费军旗,范春梅.基于Pyspider的网络爬虫架构的分析与优化[J].通信管理与技术,2022(6):9-12.
2王艳,蒋凌迪.基于Python个性化礼物推荐系统的设计与实现[J].信息与电脑,2020,32(22):97-99. 被引量：3
3陶卫卫.Python爬虫的Cookie反爬应对策略研究[J].信息与电脑,2021,33(8):189-192. 被引量：1
4陈一.知识产权保护文本的爬虫与词云研究[J].电脑知识与技术,2021,17(19):118-119. 被引量：1
5单艳,张帆.基于Python的网页信息爬取技术研究[J].电子技术与软件工程,2021(14):238-239. 被引量：5
6张小秋.基于Scrapy框架的网络爬虫分析与抓取实现[J].电脑编程技巧与维护,2022(2):18-19. 被引量：10
7郭冬云.基于语义Web的金融类创新创业网络资源反批量爬取方法[J].计算机应用文摘,2024,40(13):165-168.

二级引证文献20

1郭丽,胡志恒,赵恒谦,张瑞彬,吴瑞翔,高振,肖珂珂.基于网络爬虫的青花瓷文物图像数据集设计与构建[J].科技资讯,2021,19(22):15-18.
2胡庆伟.基于Python的网络数据定时自动采集工具的设计[J].电子技术与软件工程,2021(21):147-148. 被引量：2
3陈小云,陈宇.基于WechatApplet的礼品推荐平台的设计与实现[J].电子技术与软件工程,2021(22):30-31.
4于学斗,柏晓钰.基于Python的城市天气数据爬虫程序分析[J].办公自动化,2022,27(7):10-13. 被引量：10
5龙学磊,田萌,徐英,王虹.网络爬虫在科技文献检索中的应用[J].现代信息科技,2021,5(24):150-152. 被引量：1
6周洁,夏换,刘建义.大数据视域下贵州茶叶销售数据分析及策略研究[J].南方农机,2022,53(11):39-41. 被引量：4
7嵇海波,王凯.大数据背景下高职院校大学生就业系统应用分析[J].信息与电脑,2022,34(9):104-107. 被引量：1
8史媛.基于Scrapy框架爬取豆瓣图书的设计与实现[J].山西电子技术,2022(4):75-77. 被引量：3
9陶思敏.基于JSP的礼物推荐系统的设计与实现[J].信息与电脑,2022,34(15):169-171.
10邹士娇,姜道利.基于B/S模式的药学教学案例管理信息系统设计与实现[J].数字技术与应用,2022,40(12):233-235. 被引量：1

1崔冉.如何有效开展小学语文阅读教学[J].小学生作文辅导（语文园地）,2020,0(1):19-20. 被引量：1
2本刊编揖部.关于杂志及文稿政治质量要求的说明[J].中华眼底病杂志,2020,36(1):14-14.
3由卫娟.凯特周的手袋简史[J].齐鲁周刊,2020,0(1):44-45.
4董丽波.新时期如何创新事业单位人事档案管理[J].兰台内外,2020(3):51-52. 被引量：5
5曹巍,王璞巍,陈晋川,战疆,尤晓东,王秋月.文科学生信息素养与计算思维能力的培养思路研究--以“网页设计”课程建设为例[J].工业和信息化教育,2020,0(2):20-25. 被引量：1
6郭丰,黄潇怡.关注全球互联网治理进程推动网络空间建章立制[J].中国信息安全,2020,0(1):30-33.
7陈秉华.小学语文课堂教学中的语言艺术[J].新一代（理论版）,2020,0(3):70-70.
8陈乃辉.数字病历档案共享研究[J].决策探索,2020(4):90-91. 被引量：3
9葛海波,李彩虹,安文喆,吴昊.一种基于LwM2M协议的智慧农业信息系统设计[J].西安邮电大学学报,2019,24(5):88-94. 被引量：3
10沈国良,翟江涛,戴跃伟.基于Markov模型的HTTP参数排序隐蔽信道检测方法[J].计算机工程,2020,46(2):154-158. 被引量：6

电脑知识与技术

2020年第1期

浏览历史

内容加载中请稍等...

python网络爬虫爬取策略对比分析被引量：7

参考文献4

二级参考文献11

共引文献52

同被引文献31

引证文献7

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

python网络爬虫爬取策略对比分析 被引量：7

参考文献4

二级参考文献11

共引文献52

同被引文献31

引证文献7

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

python网络爬虫爬取策略对比分析被引量：7