基于Scrapy的信息采集与分析被引量：4

Information Collection and Analysis Based on Scrapy

下载PDF

导出

摘要针对携号转网服务背景下电信企业的客户维系和客户精细化服务需求,以及电信运营商对网上不良信息监测和清理的需要,以国内主流社交媒体为主要研究对象,进行网络爬虫策略的研究与实现。文章对基于Python的Scrapy爬虫框架技术进行了分析,设计和实现了基于Scrapy的微博信息采集与分析爬虫,其能按照关键词进行爬取和分析;爬虫使用非关系型数据库MongoDB存储数据、利用Selenium实现模拟登陆、结合Redis数据库存储爬取队列。 In view of the demand of telecommunication enterprise customer maintenance and refined customer service under the background of carrying signal to network service,and telecom operators need to monitor and clean up bad information on the internet,taking domestic mainstream social media as the main research object,this paper studies and implements the strategy of web crawler.This paper analyzes the framework technology of Scrapy crawler based on Python,designs and implements a crawler for microblog information collection and analysis based on Scrapy.The system crawls and analyzes according to keywords,uses non-relational database MongoDB to store data,uses Selenium to realize simulated login,and stores crawling queue with Redis database.

作者谢钢 XIE Gang(Loudi Branch of China Telecom Co.,Ltd.,Loudi 417000,China)

机构地区中国电信股份有限公司娄底分公司

出处《现代信息科技》 2020年第14期96-98,共3页 Modern Information Technology

关键词 Scrapy 爬虫微博 MONGODB Scrapy crawler microblog MongoDB

分类号 TP315 [自动化与计算机技术—计算机软件与理论] TP393.1 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献5

1林红静,黄梦醒.基于微博信息的关键词库爬虫策略[J].海南大学学报（自然科学版）,2016,34(2):112-120. 被引量：3
2陈兴蜀,常天祐,王海舟,赵志龙,张杰.基于微博数据的“新冠肺炎疫情”舆情演化时空分析[J].四川大学学报（自然科学版）,2020,57(2):409-416. 被引量：86
3崔庆才著..Python 3网络爬虫开发实战[M].北京:人民邮电出版社,2018.
4时镇军.互联网不良信息监控在电信运营商的研究与应用[J].江苏通信,2020,36(2):49-52. 被引量：2
5杨迎.基于Python语言的Web数据挖掘与分析研究[J].现代信息科技,2019,3(23):63-65. 被引量：10

二级参考文献25

1李健,曹垚,王宗敏,王广印.融合k-means聚类和Hausdorff距离的散乱点云精简算法[J].武汉大学学报（信息科学版）,2020,45(2):250-257. 被引量：16
2白鹤,汤迪斌,王劲林.分布式多主题网络爬虫系统的研究与实现[J].计算机工程,2009,35(19):13-16. 被引量：20
3丁杰,徐俊刚.IPSMS:一个网络舆情监控系统的设计与实现[J].计算机应用与软件,2010,27(4):188-190. 被引量：21
4齐亚莉,张磊.基于Python的图像搜索系统的设计与实现[J].北京印刷学院学报,2010,18(2):48-51. 被引量：2
5夏天.Ajax站点数据采集研究综述[J].现代图书情报技术,2010(3):52-57. 被引量：10
6孙殿哲,魏海平,陈岩.Nutch中庖丁解牛中文分词的实现与评测[J].计算机与现代化,2010(6):187-190. 被引量：10
7杨振山,蔡建明.空间统计学进展及其在经济地理研究中的应用[J].地理科学进展,2010,29(6):757-768. 被引量：46
8王连喜,蒋盛益,庞观松,吴美玲.微博用户关系挖掘研究综述[J].情报杂志,2012,31(12):91-97. 被引量：27
9张赛,徐恪,李海涛.微博类社交网络中信息传播的测量与分析[J].西安交通大学学报,2013,47(2):124-130. 被引量：68
10胡廉民,张泽斌,徐威迪,黄翰,李英.基于分层结构保留的增量网络爬虫算法[J].计算机应用研究,2013,30(8):2381-2385. 被引量：3

共引文献97

1方玉婵,梁先锋,褚建勋,安彦青,黄婧晔,陈昕悦,刘益东.社交媒体自然灾害传播中的地域舆论感知差异研究:基于“四川凉山州森林火灾事件”的实证分析[J].中国网络传播研究,2021(4):207-233. 被引量：1
2卢功靖,卢林艳,李媛媛,王成军.基于议题类型的临近预测:使用社交媒体预测新冠肺炎疫情确诊人数[J].中国网络传播研究,2021(4):93-117. 被引量：1
3周金连,王静君.早期参与者的力量:对公共事件微博舆情演化周期的研究[J].中国网络传播研究,2021(1):127-152.
4曾志伟,刁明光,王欣鹏,何炳辉.基于口罩评论数据的用户情感趋势与关注分析[J].计算机系统应用,2020,29(12):263-267.
5孙锐,和世华,李祥华,邰先常.基于爬虫技术“雪茄”关注热点的社会化网络及时空演化分析[J].农村经济与科技,2020,31(24):213-216. 被引量：3
6雍龙泉,贾伟,张建科.基于爬虫技术与智能算法的网络舆情监测[J].智能计算机与应用,2021,11(4):35-38. 被引量：3
7郭荣荣,闵素芹.“线上学习”舆情分析与在线教学提升策略[J].中国传媒大学学报（自然科学版）,2020,27(6):48-54. 被引量：2
8姜耀明,李桓.工业建筑设计应在限制中求发展[J].工业建筑,2000,30(4):24-26.
9童丽萍,李明.风荷载作用下玻璃幕墙结构的受力分析与计算[J].工业建筑,2000,30(4):27-30. 被引量：13
10李志晓.微博搜索技术及隐私安全问题的研究[J].电子世界,2016,0(21):58-59.

同被引文献26

1王宏,夏禹,常静静.面向政府采购数据的工程化采集方案设计[J].智能计算机与应用,2020,10(7):170-175. 被引量：2
2焦赛美.网络爬虫技术的研究[J].琼州学院学报,2011,18(5):28-30. 被引量：9
3张云纯.基于TF-IDF和互信息的推荐算法研究[J].计算机时代,2019,0(12):42-46. 被引量：4
4陈黎,马健.基于Scrapy的农业网络空间信息动态监测算法[J].山东农业大学学报（自然科学版）,2020,51(2):253-258. 被引量：8
5王海玲,周志彬.基于Scrapy框架的爬虫设计[J].软件导刊,2020,19(4):224-228. 被引量：12
6郅芬香,王留芳.基于Scrapy框架的数据采集系统设计与实现[J].信息记录材料,2020,21(7):130-132. 被引量：2
7傅晨波,郑永立,周鸣鸣,宣琦.融合用户行为网络信息的个性化餐馆推荐[J].浙江工业大学学报,2020,48(5):574-580. 被引量：3
8董少林,李钟慎.采用Scrapy分布式爬虫技术的微博热点舆情信息获取与分析[J].电脑与信息技术,2020,28(5):23-26. 被引量：3
9冯鸾鸾,李军辉,李培峰,朱巧明.面向国防科技领域的技术和术语语料库构建方法[J].中文信息学报,2020,34(8):41-50. 被引量：19
10任际,曹荠.我国《政府采购法》修订的重点问题[J].中国政府采购,2020(10):17-20. 被引量：2

引证文献4

1张驰庚,金智鹏.正则表达式finditer提取文本数据方法研究[J].信息技术与信息化,2021(5):151-153. 被引量：2
2徐伟,许鹏,陈浩东.基于Scrapy框架的天气数据采集系统设计[J].湖北农机化,2021(13):109-111.
3王宏,王青,张雪梅.融入推荐算法的政采消息通系统设计与实现[J].信息技术,2022,46(4):49-53. 被引量：1
4朱烨行,赵宝莹,张明杰,魏笑笑,卫昆.基于Scrapy框架的微博用户信息采集系统设计与实现[J].现代信息科技,2023,7(24):41-44.

二级引证文献3

1王春波,文雪巍.基于微服务理念校园一体化信息平台的建设[J].河北软件职业技术学院学报,2023,25(2):7-10.
2叶露,潘立,丁昱尹.数据资产质量评价及价值评估技术研究进展[J].中国资产评估,2023(8):50-59. 被引量：3
3张驰庚,金志鹏,李明明.IT高职生人岗知识匹配问题研究——以长三角区域企业对IT知识需求为例[J].教育进展,2021,11(5):1643-1648.

1宋瑜辉,张侠,艾琳,严永兵.基于Mongodb的智能电网大数据存储设计[J].电子制作,2020,28(19):64-67. 被引量：5
2刘木友,魏保华.大数据平台网络技术课程的设计与应用[J].现代信息科技,2020,4(13):97-99.
3胡纪恩.列尾主机电池组延长使用寿命现场数据采集与分析[J].西铁科技,2020(2):55-56.
4刘鸣,袁璐.电信企业合规管理刻不容缓[J].通信企业管理,2020(8):10-13. 被引量：1
5周志刚.基于公共服务背景下档案馆角色定位的思考[J].黑龙江档案,2020(4):121-121.
6满守彪.试析移动互联网时代下电信运营商的竞争优势[J].市场周刊·理论版,2020(17):144-144.
7张海滨(音译),孙巧(译).数据存储在云端有多安全?[J].英语世界,2020,39(8):17-20.
8宋扬.基于微服务及大数据的通号智能维护系统的研发及其应用[J].铁路通信信号工程技术,2020,17(9):45-48.
9贺适.云计算环境下计算机网络安全存储系统设计[J].电子设计工程,2020,28(18):110-113. 被引量：13
10吴志群.古建筑三维模型数据库系统设计[J].科学技术创新,2020(29):114-116. 被引量：2

现代信息科技

2020年第14期

浏览历史

内容加载中请稍等...

基于Scrapy的信息采集与分析被引量：4

参考文献5

二级参考文献25

共引文献97

同被引文献26

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于Scrapy的信息采集与分析 被引量：4

参考文献5

二级参考文献25

共引文献97

同被引文献26

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于Scrapy的信息采集与分析被引量：4