基于Python的互联网招聘数据采集技术被引量：2

Data Acquisition Technology of Internet Recruitment

下载PDF

导出

摘要面对招聘网站发布的海量招聘数据,为了利用技术手段从招聘网站采集招聘数据,本文基于Python语言设计爬虫采集技术并实现了面向猎聘、Boss、拉钩等招聘类网站的数据采集,完成了对全部招聘信息及其详情页面的数据爬取。本文采用Scrapy框架实现对定制网站内容的爬取,并采用图像识别技术解决了爬取过程中遇到的验证码问题,最终成功获取50000余条数据。 Facing the massive recruitment data published by recruitment websites,in order to collect recruitment data from recruitment websites by technical means,this paper designs crawler collection technology based on Python language,and realizes data collection for recruitment websites such as Liepin,boss and hook,and crawls all recruitment information and its detailed pages.In this paper,Scrapy framework is used to crawl the content of customized website,and image recognition technology is used to solve the verification code problem encountered in crawling process,and finally more than 50000 pieces of data are successfully obtained.

作者孙暖曹小平刘军 Sun Nuan;Cao Xiaoping;Liu Jun(Chongqing Creation Vocational College,Chongqing 402160,China)

机构地区重庆科创职业学院

出处《信息与电脑》 2020年第18期161-163,共3页 Information & Computer

基金重庆市高等教育教学改革研究项目(项目编号:202182)。

关键词 PYTHON 数据采集爬虫 Scrapy Python data collection spider Scrapy

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1刘杰,葛晓玢,闻顺杰.基于Python的网络爬虫系统的设计与实现[J].信息与电脑,2018,30(12):92-93. 被引量：4
2白雪丽.浅析基于Python爬虫技术的特性及应用[J].山西科技,2018,33(2):53-55. 被引量：18
3花君林.基于Selenium的Python网络爬虫的实现[J].电脑编程技巧与维护,2017(15):30-31. 被引量：17
4艾沛钰,闫丽.基于python的互联网数据爬取与解析的研究与实践[J].信息与电脑,2019,0(17):129-130. 被引量：2
5周中华,张惠然,谢江.基于Python的新浪微博数据爬虫[J].计算机应用,2014,34(11):3131-3134. 被引量：61
6涂小琴.基于Python爬虫的电影评论情感倾向性分析[J].现代计算机（中旬刊）,2017(12):52-55. 被引量：15
7王英杰.基于Python的微博数据爬虫程序设计研究[J].信息与电脑,2018,0(23):93-94. 被引量：8
8李俊丽.基于Linux的python多线程爬虫程序设计[J].计算机与数字工程,2015,43(5):861-863. 被引量：19

二级参考文献34

1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
2TUMASJAN A, SPRENGER T O, SANDNER P G, et al. Predicting elections with Twitter: what 140 characters reveal about political sentiment[C] // Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media. Madison: AAAI Press, 2010, 10: 178-185. 被引量：1
3WELCH M J, SCHONFELD U, HE D, et al. Topical semantics of twitter links[C] // Proceedings of the Fourth ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2011: 327-336. 被引量：1
4CARLISLE J E, PATTON R C. Is social media changing how we understand political engagement? An analysis of Facebook and the 2008 presidential election[J]. Political Research Quarterly, 2013, 66(4): 883-895. 被引量：1
5CUNLIFFE D, MORRIS D, PRYS C. Young bilinguals' language behaviour in social networking sites: the use of welsh on Facebook[J]. Journal of Computer-Mediated Communication, 2013, 18(3): 339-361. 被引量：1
6STRAFLING N, KRAMER N C. Learning together on Facebook et al. The influence of social aspects and personality on the usage of social media for study related exchange [J]. Gruppendynamik und Organisationsberatung, 2013, 44(4): 409-428. 被引量：1
7DUAN J Y, DHOLAKIA N. The reshaping of Chinese consumer values in the social media era: exploring the impact of Weibo [J]. Journal of Macromarketing, 2013, 33(4): 402-403. 被引量：1
8HUANG R, SUN X. Weibo network, information diffusion and implications for collective action in China [J]. Information Communication and Society, 2014, 17(1): 86-104. 被引量：1
9MAZO J. Blocked on Weibo: what gets suppressed on China's version of Twitter (and why) [J]. Survival, 2013, 55(6): 191-192. 被引量：1
10POELL T, de KLOET J, ZENG G, et al. Will the real Weibo please stand up? Chinese online contention and actor-network theory [J]. Chinese Journal of Communication, 2014,7(1): 1-18. 被引量：1

共引文献129

1沈承放,莫达隆,黄文韬.网页数据采集算法及在住户调查中的应用[J].统计与决策,2021(7):52-56. 被引量：5
2朱正国.Python在校园大数据中的应用研究[J].商丘师范学院学报,2020(6):14-17. 被引量：2
3谈帅,唐天琪,高雅.网络众源地理信息获取与整合方法研究[J].现代测绘,2021(2):53-58.
4高云泽,王莉莉,董文睿,冯紫君,胡祖容,赵中楠.基于前后端分离算法的ACM智能管家系统[J].智能计算机与应用,2022,12(3):80-86. 被引量：2
5郭小磊.医药商品评论的情感分析[J].智能计算机与应用,2021,11(11):128-130. 被引量：1
6项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
7童丽萍,李明.风荷载作用下玻璃幕墙结构的受力分析与计算[J].工业建筑,2000,30(4):27-30. 被引量：13
8郭华,陆平.利用python语言对室内热舒适环境进行数据分析[J].建筑与文化,2018(12):54-55. 被引量：2
9阳小兰,刘克刚,钱程,朱福喜.基于账户信用评价的恶意发帖检测系统研究[J].现代电子技术,2016,39(6):53-57.
10王萍,王贺颖.基于新浪微博的冰雹实况信息挖掘[J].计算机与现代化,2016(3):24-29.

同被引文献10

1张显,彭小宁,黄隆华,姚敦红,印东.面向应用型人才培养的程序设计课程教学改革研究[J].电脑知识与技术,2020,16(4):138-140. 被引量：1
2王晓东.Apache POI组件批量操作Excel文件的应用探索[J].金融科技时代,2019,27(6):47-49. 被引量：3
3熊艳秋,严碧波.基于jsoup爬取图书网页信息的网络爬虫技术[J].电脑与信息技术,2019,27(4):61-63. 被引量：10
4赵广辉,李屾,秦珀石,汪朝霞.以赋能为目标的Python程序设计线下“金课”建设[J].计算机教育,2019(11):28-32. 被引量：21
5石凤贵.基于jieba中文分词的中文文本语料预处理模块实现[J].电脑知识与技术,2020,16(14):248-251. 被引量：36
6刘萍,刘瑞文,胡秀丽.基于图书借阅行为的数据预处理方法研究[J].内蒙古科技与经济,2020(19):121-122. 被引量：4
7毛遂,毛红霞.基于51job网站招聘信息的爬取与分析——以Python技术岗位为例[J].网络安全技术与应用,2021(4):47-49. 被引量：5
8马文秀,李焱.基于百度AI的Python程序课程系列案例设计[J].电脑知识与技术,2021,17(19):204-205. 被引量：2
9李国和,吴卫江,赵建辉,张岩,邓橙,史海涛,董丹丹.面向新工科的程序设计综合课程设计研究与实践[J].计算机教育,2021(9):119-122. 被引量：8
10余波,罗莉霞,易晨晖.新工科建设背景下Python程序设计课程教学改革与实践[J].计算机教育,2021(11):80-84. 被引量：20

引证文献2

1高望.基于数据预处理的Python课程教学案例设计研究[J].信息与电脑,2022,34(4):254-256. 被引量：2
2张鹏.基于Jsoup爬虫的BOSS直聘信息爬取[J].无线互联科技,2023,20(2):106-108. 被引量：1

二级引证文献3

1郑志建,俞发仁,魏晓微,赵泳,胡长生.基于Python的职位网站爬取设计与实现[J].计算机与网络,2024,50(1):24-27.
2陈永栓.Python语言在企业战略管理课程教学中的应用研究[J].创新教育研究,2023,11(6):1383-1387.
3沈心雨,赵胜利,吕林黛,钟妤玥.Python在数据分析教学中的应用——以Pandas进行某超市数据预处理为例[J].教育进展,2022,12(8):2861-2867.

1毛尖.毛尖影视随笔三题[J].红豆,2020(9):83-91.

信息与电脑

2020年第18期

浏览历史

内容加载中请稍等...

基于Python的互联网招聘数据采集技术被引量：2

参考文献8

二级参考文献34

共引文献129

同被引文献10

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于Python的互联网招聘数据采集技术 被引量：2

参考文献8

二级参考文献34

共引文献129

同被引文献10

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于Python的互联网招聘数据采集技术被引量：2