基于Python网络爬虫技术的数据采集系统研究被引量：28

Research on the python-based web crawler for data collection system

下载PDF

导出

摘要从互联网里采集数据是解决数据来源问题的关键,研究开发基于Python网络爬虫技术的数据采集系统实现了主题数据的自动采集。利用urllib、Beautiful Soup、threading库设计开发了包含数据爬取、异常处理、robots协议管理及多线程管理等模块的系统模型框架。通过具体案例应用,介绍了数据采集过程,相比传统手工数据采集,较大提高了工作效率。 Collecting data from the Internet is the key to solve the problem of data source,The research of data collection system based on python web crawler,which is realizes automatic collection subject data.The system model framework including data crawling,exception handling,robots protocol management and multithreading management is designed and which is using urllib,beautiful soup and threading libraries.The process of data collection is introduced through the application of specific cases.Compared with the traditional manual data collection,there is greatly improved work efficiency.

作者钟机灵 Zhong Jiling(Heyuan Polytechnic,Guangdong Heyuan 517000)

机构地区河源职业技术学院

出处《信息通信》 2020年第4期96-98,共3页 Information & Communications

基金广东省学校德育科研课题(项目编号:2019GXSZ106) 河源市社会发展科技计划项目(项目编号:180703230222407)。

关键词网络爬虫数据采集 Python技术 web crawler data collection python technology

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
3李培.基于Python的网络爬虫与反爬虫技术研究[J].计算机与数字工程,2019,47(6):1415-1420. 被引量：51
4苏国新,苏聿.基于Python的可配置网络爬虫[J].宁德师范学院学报（自然科学版）,2018,30(4):364-368. 被引量：12
5沈承放,莫达隆.beautifulsoup库在网络爬虫中的使用技巧及应用[J].电脑知识与技术,2019,15(10):13-16. 被引量：12

二级参考文献64

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2彭建荣,罗永会.搜索引擎的基本原理及发展趋势[J].电脑知识与技术,2006,1(1):84-85. 被引量：7
3郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13
4陈珂,陈小英,徐科.Hidden Web信息获取[J].计算机时代,2007(5):54-56. 被引量：3
5孙彬,王东,李娟.基于XQuery的Deep Web搜索系统的设计与实现[J].科学技术与工程,2007,7(16):4080-4084. 被引量：2
6EHRIG M, MAEDCHE A. Ontology-focused crawling of Web documents[A]. Proceedings of the 2003 ACM symposium on Applied computing[C], March 2003. 被引量：1
7GUO Q, GUO H, ZHANG ZQ, et al. Schema Driven Topic Specific Web Crawling[A]. DASFAA[C], 2005. 被引量：1
8GRAUPMANN J, BIWER M, ZIMMER C, et al. COMPASS: A Concept-based Web Search Engine for HTML, XML, and Deep Web Data[A]. Proceedings of the 30th VLDB Conference[C],2004. 被引量：1
9QIN JL, ZHOU YL, CHAU M. Building domain-specific web collections for scientific digital libraries: a meta-search enhanced focused crawling method[A]. Proceedings of the 4th ACM/IEEE-CS joint conference on Digital libraries[C], June 2004. 被引量：1
10CHO J , GARCIA - MOLINA H , PAGE L . Efficient crawling through URL ordering[A]. Proceedings of the seventh international conference on World Wide Web 7[C], April 1998. 被引量：1

共引文献251

1刘子谦,王志强.基于爬虫和文本处理的微博舆情分析系统[J].北京电子科技学院学报,2020(3):31-39. 被引量：5
2齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
3姚万勤,宋俊豪.在技术与法律之间:网络爬虫刑法规制的边界[J].法治论坛,2023(1):3-17.
4杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
5张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
6胡宏涛,常佳.基于网络的信息获取技术浅析[J].福建电脑,2006,22(4):60-61. 被引量：4
7李刚,周立柱,郭奇,林玲.领域相关的Web网站抓取方法[J].计算机科学,2007,34(2):137-140. 被引量：5
8孙素芬,罗长寿,张峻峰,于峰,张树亮.农业信息资源整合系统研究与应用[J].安徽农业科学,2007,35(22):6993-6994. 被引量：3
9王迁,王丽娜.对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J].电子知识产权,2007(8):41-43.
10陈军,陈竹敏.基于网页分块的Shark-Search算法[J].山东大学学报（理学版）,2007,42(9):62-66. 被引量：7

同被引文献188

1陈炜,买买提吐尔逊·阿布都拉.现代维吾尔语莎车土语调查及其语音特点分析[J].语言与翻译,2020(1):31-35. 被引量：1
2武新丽,李柔,令狐大智.电子商务用户评价信息有效性研究——基于淘宝服装类商品[J].沿海企业与科技,2019,0(6):8-13. 被引量：4
3刘子谦,王志强.基于爬虫和文本处理的微博舆情分析系统[J].北京电子科技学院学报,2020(3):31-39. 被引量：5
4阿依古再丽·图尔贡.论现代维吾尔动词语义分析构建研究[J].中国新通信,2020,0(1):163-163. 被引量：1
5解志勇,李其蔓.完善网络爬虫行政规制路径提高数字经济治理水平[J].审计观察,2022(3):4-11. 被引量：1
6游星.ID3算法在网络商铺客户稳定性分析中的应用研究[J].广西质量监督导报,2020(10):196-197. 被引量：1
7王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
8吴明礼,施水才.一种结合超链接分析的搜索引擎排序方法[J].计算机工程,2004,30(15):143-145. 被引量：10
9吴涛,张毛迪,陈传波.一种改进的统计与后串最大匹配的中文分词算法研究[J].计算机工程与科学,2008,30(8):79-82. 被引量：7
10周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：91

引证文献28

1居梓俊,邓居旺,孙建振,李东阳,黄翀鹏.基于Python和Hadoop的图书馆实时监控系统设计与实现[J].电脑编程技巧与维护,2020(8):20-22. 被引量：1
2温佐承,贾雪.基于Python的网络爬取[J].电脑编程技巧与维护,2020(12):23-24. 被引量：8
3李艳,丁国强,张庆.网络招聘数据可视化系统的设计与实现[J].信息与电脑,2021,33(1):112-115. 被引量：2
4陈海燕,朱庆华,常莹.基于Python的网页信息爬取技术研究[J].电脑知识与技术,2021,17(8):195-196. 被引量：4
5李文华.基于Python的网络爬虫系统的设计与实现分析[J].内江科技,2021,42(2):58-59. 被引量：9
6买买提・许库尔,艾孜尔古丽.现代维吾尔语句子资源库构建研究[J].信息与电脑,2021,33(5):204-207.
7胡雅丽.基于Python爬取视频的设计与实现[J].通信电源技术,2021,38(3):191-193.
8吴道君.大数据背景python在网络爬虫框架中的应用[J].科学技术创新,2021(21):97-99. 被引量：4
9贺宗平,王正路.一种面向互联网文本数据采集框架的设计[J].电子技术与软件工程,2021(12):187-189. 被引量：4
10邓梦莹,李小根,张富,张子政,李思瑶,段小芳.档案信息数据库建设研究——以少林寺为例[J].河南科技,2021,40(21):15-19. 被引量：3

二级引证文献57

1齐宝森,杜义华.面向特定观点的网络舆情信息有用性排序[J].计算机系统应用,2022,31(12):235-241.
2王慧敏.基于Python的河流界桩图表数据批处理方法研究[J].西部资源,2023(6):83-87.
3邓子云.基于Scrapy的网站增量式爬取功能的研制与应用[J].湖南工业职业技术学院学报,2022,22(6):25-29.
4马辉.Python在校园大数据中的应用研究[J].锋绘,2021(2):419-420.
5黄蓉,毛红霞.基于豆瓣网某系列电影数据采集与可视化分析[J].现代信息科技,2020,4(23):4-7. 被引量：2
6王吉.疫情防控背景下高校毕业生就业一站式服务系统设计分析[J].数字技术与应用,2021,39(5):151-153. 被引量：1
7熊国梁,麦强盛.基于Python的国家社科基金项目爬虫的设计和实现——以贫困为主题的立项信息为例[J].信息与电脑,2021,33(9):181-184.
8郑小波,刘越.广播内容研判与分析的探索及实现[J].电声技术,2021,45(6):76-80. 被引量：1
9王正禹,梁雅丽,曹世超,徐辉.健康中国--基于大数据的可视化分析平台[J].电脑知识与技术,2021,17(20):31-33.
10刘芳艳,蒋晓静.乡村振兴背景下就业、创业市场现状与实现策略——以湖南省高职院校旅游类专业为例[J].岳阳职业技术学院学报,2021,36(4):50-55.

1张阳.论测绘工程中特殊地形的测绘技术[J].名城绘,2020(6):0221-0221.
2熊慧敏,朱莉.全媒体环境下聋人意见领袖传播力提升研究[J].视听,2020(1):195-196.
3王朋,李丹,段向阳.基于M-Bus的远程抄表系统的研究与开发[J].中外企业家,2019,0(34):88-88.
4杨晓蓉,徐诗展,赵棋炯,王励励.带相依辅助信息的分位数自回归模型的经验似然估计[J].高校应用数学学报（A辑）,2020,35(2):141-157. 被引量：2
5王忠成,周华伟,童思友,方云峰,曹国滨.深水海底节点二次定位方法[J].石油地球物理勘探,2020,55(2):242-247. 被引量：12

信息通信

2020年第4期

浏览历史

内容加载中请稍等...

基于Python网络爬虫技术的数据采集系统研究被引量：28

参考文献5

二级参考文献64

共引文献251

同被引文献188

引证文献28

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

基于Python网络爬虫技术的数据采集系统研究 被引量：28

参考文献5

二级参考文献64

共引文献251

同被引文献188

引证文献28

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

基于Python网络爬虫技术的数据采集系统研究被引量：28