基于Python的爬虫技术的网站设计与实现被引量：7

Website Design and Implementation of Crawler Technology Based on Python

下载PDF

导出

摘要随着爬虫技术的不断完善,其功能越来越强大,也导致数据窃取问题越来越严重。很多网站都采用了反爬虫技术,因此为了正常获取数据,需要一些反爬虫策略。文章设计和实现面向定向网站的网络爬虫程序,使其能满足不同的性能要求,并阐述了定向网站爬虫的细节和应用环节。爬虫可以针对不同的主题网站分析构造URL并去重,多线程技术让爬虫具备更强大的抓取能力。 With the continuous improvement of crawler technology,more and more powerful functions,and more and more serious data theft problems,many websites have adopted anticrawler technology,so in order to obtain data normally,some anticrawler technology is needed.This paper designs and implements a web crawler program oriented to the directional website,and meets different performance requirements,including the details and applications of the directional website crawler Link.For different theme websites,analyze and construct URL to remove duplication.The multi-threading technology which makes the crawler have more powerful grasping ability.

作者肖新凤张绛丽邓祖民 XIAO Xinfeng;ZHANG Jiangli;DENG Zumin(Guangdong Polytechnic of Environmental Protection Engineering,Foshan 528216,China)

机构地区广东环境保护工程职业学院

出处《现代信息科技》 2020年第14期73-75,78,共4页 Modern Information Technology

基金广东省高职高专云计算与大数据专业委员会2019年度课题(GDYJSKT19-26) 中国职业技术教育学会教学工作委员会2019—2020年度职业教育教学改革课题研究1910110) 广东环境保护工程职业学院质量工程项目(J421320022202) 校企合作项目“环保管家”大数据服务平台建设(JQFW20200109-01)。

关键词 PYTHON 爬虫数据豆瓣读书网 Python crawler data Douban reading website

分类号 TP391.3 [自动化与计算机技术—计算机应用技术] TP391.1 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献5

1王碧瑶.基于Python的网络爬虫技术研究[J].数字技术与应用,2017,35(5):76-76. 被引量：16
2陆树芬.基于Python对网络爬虫系统的设计与实现[J].电脑编程技巧与维护,2019(2):26-27. 被引量：17
3张誉曜,陈媛媛.基于Python下的爬虫综述及应用[J].中国新通信,2019,0(6):98-98. 被引量：7
4唐琳,董依萌,何天宇.基于Python的网络爬虫技术的关键性问题探索[J].电子世界,2018,0(14):32-33. 被引量：6
5李琳.基于Python的网络爬虫系统的设计与实现[J].信息通信,2017,30(9):26-27. 被引量：31

二级参考文献11

1许笑,张伟哲,张宏莉,方滨兴.广域网分布式Web爬虫[J].软件学报,2010,21(5):1067-1082. 被引量：25
2周中华,张惠然,谢江.基于Python的新浪微博数据爬虫[J].计算机应用,2014,34(11):3131-3134. 被引量：61
3于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(2):231-237. 被引量：103
4刘艳平,俞海英,戎沁.Python模拟登录网站并抓取网页的方法[J].微型电脑应用,2015,31(2):58-60. 被引量：16
5姜杉彪,黄凯林,卢昱江,张俊杰,曾志高,刘强.基于Python的专业网络爬虫的设计与实现[J].企业科技与发展,2016(8):17-19. 被引量：31
6钱程,阳小兰,朱福喜.基于Python的网络爬虫技术[J].黑龙江科技信息,2016(36):273-273. 被引量：26
7刘顺程,岳思颖.大数据时代下基于Python的网络信息爬取技术[J].电子技术与软件工程,2017(21):160-160. 被引量：13
8李琳.基于Python的网络爬虫系统的设计与实现[J].信息通信,2017,30(9):26-27. 被引量：31
9郭丽蓉.基于Python的网络爬虫程序设计[J].电子技术与软件工程,2017(23):248-249. 被引量：59
10贾棋然.基于Python专用型网络爬虫的设计及实现[J].电脑知识与技术,2017,13(4X):47-49. 被引量：12

共引文献71

1章蓬伟,贾钰峰,邵小青.基于案例的Python语言程序设计教学[J].学园,2020,13(7):44-45. 被引量：2
2李红.基于python的房屋信息数据分析[J].探索科学,2019,0(3):215-216.
3刘慧,李凤银,禹继国,崔璨,葛睿.基于影评挖掘的电影推荐系统设计与实现[J].电子技术（上海）,2018,47(12):83-86. 被引量：1
4涂辉,王锋,商庆伟.Python3编程实现网络图片爬虫[J].电脑编程技巧与维护,2017(23):21-22. 被引量：10
5聂晶.Python在大数据挖掘和分析中的应用优势[J].广西民族大学学报（自然科学版）,2018,24(1):76-79. 被引量：45
6刘杰,葛晓玢,闻顺杰.基于Python的网络爬虫系统的设计与实现[J].信息与电脑,2018,30(12):92-93. 被引量：4
7崔玉娇,孙结冰,祁晓波,凌强,朱勇.基于Python的51-job数据抓取程序设计[J].无线电通信技术,2018,44(4):416-419. 被引量：6
8张怡华.基于Python的图书馆业务报表自动生成研究[J].智库时代,2018,0(8):260-261.
9高宇,杨小兵.基于聚焦型网络爬虫的影评获取技术[J].中国计量大学学报,2018,29(3):299-303. 被引量：6
10蒲文莹.面向专用信息获取的用户定制主题网络爬虫技术探究[J].电脑编程技巧与维护,2019(1):33-34. 被引量：1

同被引文献52

1金静梅.基于网络爬虫的城市天气服务系统设计与实现[J].办公自动化,2021,26(19):58-59. 被引量：2
2林学民,王炜.集合和字符串的相似度查询[J].计算机学报,2011,34(10):1853-1862. 被引量：35
3敖利民,唐雯,李向红,高翼强,李瑞洲.我国纺织服装产业链面临的问题及对策[J].棉纺织技术,2012,40(4):57-59. 被引量：4
4周艳,李育泽,徐义东.基于MOOC理念的微课资源网站设计[J].现代教育技术,2014,24(1):113-118. 被引量：75
5周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：100
6张明杰.基于网络爬虫技术的舆情数据采集系统设计与实现[J].现代计算机,2015,21(12):72-75. 被引量：9
7王锡良,卿光勇,张铭.利用网络爬虫技术获取天气预报[J].电脑编程技巧与维护,2015(19):18-19. 被引量：8
8唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：142
9卞伟玮,王永超,崔立真,郭伟,李晖,周苗,薛付忠,刘静.基于网络爬虫技术的健康医疗大数据采集整理系统[J].山东大学学报（医学版）,2017,55(6):47-55. 被引量：31
10李琳.基于Python的网络爬虫系统的设计与实现[J].信息通信,2017,30(9):26-27. 被引量：31

引证文献7

1陈锦佳,陶逸帆,崔坤鹏.基于热度的视频推荐网站设计与实现[J].信息与电脑,2021,33(15):195-197.
2阎泽群.基于网络爬虫技术的大数据采集系统设计[J].现代信息科技,2021,5(12):83-86. 被引量：4
3孙泽龙.基于Python的图书网爬虫设计与实现[J].电子制作,2021,29(20):55-57. 被引量：4
4刘萍.基于Python爬虫技术的网页数据抓取方法[J].信息与电脑,2022,34(14):169-171. 被引量：5
5张雁涔.基于网络爬虫技术的企业大数据采集系统设计[J].信息与电脑,2023,35(12):154-156. 被引量：2
6方志坚,程玉,金耀,汤哲冲,徐锦英.基于产业链图谱的服装企业产业链挂链关系挖掘[J].现代纺织技术,2024,32(6):108-115.
7于路遥,宋瑾钰.基于Python的天气信息可视化分析系统的设计与实现[J].软件工程与应用,2022,11(6):1394-1403. 被引量：1

二级引证文献16

1罗可.云点歌系统的Python 爬虫设计和实现[J].现代计算机,2022,28(9):78-81.
2王恒,唐孝国,郭俊亮.基于python的电影评分网页数据爬取[J].黑龙江科学,2022,13(14):48-50. 被引量：1
3边晓南,李楠,夏文君,张洪亮,张雨,王雯.基于大数据技术的高效节水灌溉应用研究[J].人民黄河,2022,44(8):157-162. 被引量：3
4刘恒利,揭圣,詹懿.基于ECharts对食药物质毒性六方位图谱[J].信息技术与信息化,2022(12):39-42.
5吴昊,杨亚仿,谭荣丽.基于C#.net的网页内容获取及应用研究[J].信息与电脑,2022,34(22):48-51. 被引量：1
6杨亚仿,吴昊.网页更新检测的研究与应用[J].信息与电脑,2022,34(23):150-154.
7郝天鹿.基于人物目标检测的水库周边安防系统的设计与实现[J].唐山师范学院学报,2023,45(3):75-78. 被引量：1
8王腾飞,李宏.基于Python预测公共安全事件发展研究[J].中国新通信,2023,25(15):101-103.
9黄梨煜,孙颖,王观,段佳丽.互联网烟草广告和促销信息监测分析[J].首都公共卫生,2023,17(4):210-213.
10朱烨行,赵宝莹,张明杰,魏笑笑,卫昆.基于Scrapy框架的微博用户信息采集系统设计与实现[J].现代信息科技,2023,7(24):41-44.

1张红玉,王辉,邬连学.蓝墨云班课应用于高职数学信息化教学的实践与思考[J].科教导刊（电子版）,2020(21):207-207.
2夏伟.大数据环境下我国政府信息公开的安全风险与应对策略研究[J].好日子,2020(3):18-18.
3叶水勇.移动智能终端安全防护的探究[J].国网技术学院学报,2020,23(3):24-27. 被引量：3
4刘孟飞.金融科技的潜在风险与监管应对[J].南方金融,2020(6):45-55. 被引量：27
5李兆洋,李柏林,罗建桥,欧阳.基于改进SSD模型的高铁扣件定位算法[J].铁道标准设计,2020,64(5):24-29. 被引量：11
6刘国祥.数学文化视角下微专题设计与教学--以“椭圆及其辅圆”教学为例[J].中学数学月刊,2020(9):52-55. 被引量：2
7安雪姣,程彬,齐林.文化创作与制作科技服务的需求场景分析研究——以4个典型领域为例[J].中国商论,2020(18):84-86.
8李烨,张良旭,陈哲.基于某研究院OA系统在线自动归档的研究[J].网络安全技术与应用,2020(8):56-57.
9曾煌尧,李丹丹,马严,丛群.园区网风险账号评估方法[J].浙江大学学报（工学版）,2020,54(9):1761-1767. 被引量：1
10杨杉,肖治华,张成.基于威胁情报和多分类器投票机制的恶意URL检测模型[J].计算机与数字工程,2020,48(8):1969-1974. 被引量：1

现代信息科技

2020年第14期

浏览历史

内容加载中请稍等...

基于Python的爬虫技术的网站设计与实现被引量：7

参考文献5

二级参考文献11

共引文献71

同被引文献52

引证文献7

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于Python的爬虫技术的网站设计与实现 被引量：7

参考文献5

二级参考文献11

共引文献71

同被引文献52

引证文献7

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于Python的爬虫技术的网站设计与实现被引量：7