基于BeautifulSoup+requests和selenium爬虫网页自动化处理的实现和性能对比被引量：7

Implementation and Performance Comparison of Crawler Web Page Automatic Processing Based on BeautifulSoup+requests and selenium

下载PDF

导出

摘要网络爬虫是一种按照一定的规则,自动地抓取网页信息的程序或者脚本,因此编写特定的网络爬虫可以用来对网页进行自动化处理,从而达到提升工作效率的目的。文章针对同一个任务清单系统,分别使用BeautifulSoup+requests和selenium两种不同的爬虫方法实现了网页自动化处理功能。并且通过对两种方法的实现原理和运行结果进行分析,对两种爬虫方法进行对比。 Web crawler is a program or script that automatically grabs web page information according to certain rules.Therefore,a specific web crawler can be written to process web pages automatically,which provides efficiency improvement.The paper uses two different crawler methods:BeautifulSoup+requests and selenium to implement webpage automatic processing function for the same task list system.By analyzing the implementation principle and operation results of the two methods,the two crawler methods are compared.

作者李晨昊 LI Chenhao(Wuhan Branch of China Mobile Hubei Co.,Ltd.,Wuhan 430000,China)

机构地区中国移动通信集团湖北有限公司武汉分公司

出处《现代信息科技》 2021年第16期10-12,18,共4页 Modern Information Technology

关键词爬虫网页自动化 BeautifulSoup+requests SELENIUM crawler webpage automation BeautifulSoup+requests selenium

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1欧阳元东.基于Python的网站数据爬取与分析的技术实现策略[J].电脑知识与技术,2020,16(13):262-263. 被引量：7
2高艳.基于Selenium框架的大数据岗位数据爬取与分析[J].工业控制计算机,2020,33(2):109-111. 被引量：6
3刘军..基于Selenium的网页自动化测试系统设计与实现[D].华中科技大学,2014:
4沈承放,莫达隆.beautifulsoup库在网络爬虫中的使用技巧及应用[J].电脑知识与技术,2019,15(10):13-16. 被引量：13

二级参考文献10

1熊畅.基于Python爬虫技术的网页数据抓取与分析研究[J].数字技术与应用,2017,35(9):35-36. 被引量：48
2郭丽蓉.基于Python的网络爬虫程序设计[J].电子技术与软件工程,2017(23):248-249. 被引量：60
3魏程程.基于Python的数据信息爬虫技术[J].电子世界,2018,0(11):208-208. 被引量：10
4Kevin.网络爬虫技术原理[J].计算机与网络,2018,44(10):38-40. 被引量：15
5姜文,刘立康.基于Selenium的Web软件自动化测试[J].计算机技术与发展,2018,28(9):47-52. 被引量：25
6吴永聪.浅谈Python爬虫技术的网页数据抓取与分析[J].计算机时代,2019,0(8):94-96. 被引量：19
7樊涛,赵征,刘敏娟.基于Selenium的网络爬虫分析与实现[J].电脑编程技巧与维护,2019(9):155-156. 被引量：17
8刘银波,边静,蔡红梅,王艳.基于Python+Pandas+Matplotlib的学生成绩数据统计与图形输出实现[J].信息与电脑,2019,31(19):43-45. 被引量：8
9张巍.基于Python的车辆检测算法的实现[J].机械管理开发,2019,34(12):258-261. 被引量：4
10左薇,张熹,董红娟,于梦君.主题网络爬虫研究综述[J].软件导刊,2020,19(2):278-281. 被引量：9

共引文献22

1刘子谦,王志强.基于爬虫和文本处理的微博舆情分析系统[J].北京电子科技学院学报,2020(3):31-39. 被引量：5
2任安晶,方慧,王建,崔维帅,谢济阳.基于微信小程序的GIS专业信息查询系统的设计与开发[J].电脑知识与技术,2020,16(5):78-80. 被引量：2
3姚文杰,艾旭升,栾咏红,李良.POS机系统的数据爬虫技术[J].福建电脑,2020,36(4):91-93. 被引量：1
4钟机灵.基于Python网络爬虫技术的数据采集系统研究[J].信息通信,2020(4):96-98. 被引量：28
5温佐承,侯帅.基于Python的网络爬虫设计与实现[J].电脑编程技巧与维护,2020(7):21-23. 被引量：2
6郝海妍,潘萍.Python技术在数据分析中的应用[J].电子技术与软件工程,2020(12):179-181. 被引量：15
7张值铭,杨德刚.基于多线程爬虫和OpenCV的人脸数据集制作方法[J].现代信息科技,2020,4(18):98-103. 被引量：1
8甯文龙,毛红霞.基于Python爬虫技术的51job网站内容爬取[J].信息与电脑,2021,33(4):180-182. 被引量：5
9买买提・许库尔,艾孜尔古丽.现代维吾尔语句子资源库构建研究[J].信息与电脑,2021,33(5):204-207.
10常皓林,刘富豪,乔鑫,李梦婷,高志宇.基于网络药理学的智能化查询平台的研究[J].现代信息科技,2021,5(3):166-170.

同被引文献56

1方联青,左秀然.基于图像识别的编程工具在医院信息化的应用研究[J].中国数字医学,2020,15(1):28-29. 被引量：4
2无.教育部关于加强新时代教育管理信息化工作的通知(教科信函[2021]13号)[J].中华人民共和国教育部公报,2021(4):33-37. 被引量：16
3肖华,张雁云.鸟类鸣声研究[J].生物学通报,2009,44(3):11-13. 被引量：7
4季婷,张雁云.环境噪音对鸟类鸣声的影响及鸟类的适应对策[J].生态学杂志,2011,30(4):831-836. 被引量：22
5何斌,王敏帅.Pywinauto在软件性能测试中的应用[J].计算机与现代化,2014(8):135-138. 被引量：3
6叶锋.Python最新Web编程框架Flask研究[J].电脑编程技巧与维护,2015(15):27-28. 被引量：24
7刘奇飞,沈炜域.基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究[J].情报探索,2018(6):22-27. 被引量：13
8张新月,曹嘉翼,江江,周汉清.企业局域网规划与设计[J].电脑知识与技术,2019,15(1):63-64. 被引量：3
9裴成发,边旭佼.对信息生态链中的信息环境研究[J].兰台世界,2019,0(2):38-42. 被引量：4
10曾健荣,张仰森,郑佳,黄改娟,陈若愚.面向多数据源的网络爬虫实现技术及应用[J].计算机科学,2019,46(5):304-309. 被引量：45

引证文献7

1时春波,李卫东,秦丹阳,张海啸,吴峥嵘.Python环境下利用Selenium与JavaScript逆向技术爬虫研究[J].河南科技,2022,41(10):20-23. 被引量：8
2赵奕霖,沈涛,宋齐军,杜锋,马朝暾.企业网络信息安全自动化防护方案浅析[J].邮电设计技术,2022(9):71-76.
3吴宇,孙凤.基于PyAutoGUI的图形用户界面自动化办公技术研究[J].信息技术与信息化,2022(11):122-125. 被引量：1
4王寒冰.基于数据挖掘的火锅店服务评价改进研究[J].科技视界,2022(31):186-189.
5代子正,鲁程逸,王艳红,潘彬涛.基于Python的商品信息及评论研究[J].内蒙古科技与经济,2024(1):117-120.
6陈凌芳,周雁,王庆娟,林佳皓,谌业恒.基于微信小程序的鸟鸣声识别系统的研究与实现[J].现代计算机,2024,30(4):75-82.
7刘逸凯,吴瑰.融合ChatGPT的智能化Selenium网络爬虫设计与实现[J].现代信息科技,2024,8(14):69-75.

二级引证文献9

1彭莲香,郭星涛.基于HLS协议视频流的分析处理技术探讨[J].工业控制计算机,2023,36(1):62-64. 被引量：4
2周力.基于AES算法的网络通信信息加密传输技术研究[J].长江信息通信,2023,36(1):70-72. 被引量：11
3李强.基于Python的新闻聚合系统网络爬虫研究[J].软件,2023,44(1):168-170.
4杨光,郑思琪.基于大数据的网络信息安全加密系统设计[J].信息与电脑,2023,35(2):235-237. 被引量：2
5黄式敏.基于改进遗传算法的计算机网络通信数据加密方法[J].信息与电脑,2023,35(3):102-104. 被引量：5
6谢凯,代康.基于RSA算法的无线异构通信网络数据加密传输方法[J].长江信息通信,2023,36(8):118-120. 被引量：12
7吕晓龙,王能.RPA在智慧校园应用中的智能识别关键技术研究[J].现代信息科技,2023,7(22):1-4. 被引量：2
8吕新超.Scrapy框架辅助下的Python爬虫系统研究[J].电脑知识与技术,2024,20(7):49-52.
9崔梦银,邓茵,刘满意.Python爬虫技术在学术聚合系统中的应用[J].现代信息科技,2024,8(10):68-74. 被引量：1

1TI.动态位置人员生命体征监测的系统实现方法[J].中国电子商情,2021(7):42-47.
2钟里明,曾广吾.外置注入式婴儿培养箱消毒装置的实现原理及设计[J].医疗装备,2022,35(1):30-32. 被引量：2

现代信息科技

2021年第16期

浏览历史

内容加载中请稍等...

基于BeautifulSoup+requests和selenium爬虫网页自动化处理的实现和性能对比被引量：7

参考文献4

二级参考文献10

共引文献22

同被引文献56

引证文献7

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于BeautifulSoup+requests和selenium爬虫网页自动化处理的实现和性能对比 被引量：7

参考文献4

二级参考文献10

共引文献22

同被引文献56

引证文献7

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于BeautifulSoup+requests和selenium爬虫网页自动化处理的实现和性能对比被引量：7