基于Scrapy爬虫框架的领域网站文件爬取被引量：5

Domain Website File Crawling Based on Scrapy Crawler Framework

下载PDF

导出

摘要为了提高航行通告文件下载效率、节省人工资源,文章通过Scrapy爬虫框架,结合自然语言处理中的信息,分类爬取各民航局发布的航行通告文本。首先基于网页数据交互模式将网站分类,结合Selenium自动化测试工具进行网页下载。然后使用朴素贝叶斯算法将网站所有链接进行分类,区分为目标链接以及非目标链接,从而实现提取航行通告文本链接,此分类模型在领域类网站准确率为95.97%。 In order to improve the efficiency of downloading the notice to navigation document and save human resources,the article uses the Scrapy crawler framework combined with the information in natural language processing to classify and crawl the text of navigation notices issued by civil aviation administration.Firstly,web sites are classified based on web data interaction mode,and then web pages are downloaded with Selenium automated testing tool.Then the Naive Bayes algorithm is used to classify all the links of the website into target link and non-target link,so as to extract the text link of the notice of navigation.The accuracy rate of this classification model in the domain website is 95.97%.

作者邹维李廷元 ZOU Wei;LI Tingyuan(School of Computer Science,Civil Aviation Flight University of China,Guanghan 618307,China)

机构地区中国民用航空飞行学院计算机学院

出处《现代信息科技》 2020年第21期6-9,共4页 Modern Information Technology

关键词 Scrapy 爬虫 SELENIUM 朴素贝叶斯 Scrapy crawler Selenium Naive Bayes

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1王芳,张睿,宫海瑞.基于Scrapy框架的分布式爬虫设计与实现[J].信息技术,2019,43(3):96-101. 被引量：14
2余芳,姜云飞.一种基于朴素贝叶斯分类的特征选择方法[J].中山大学学报（自然科学版）,2004,43(5):118-120. 被引量：24
3陈凤兰.基于模糊评价的航行通告质量评估方法[J].科技创新与应用,2020,0(9):134-136. 被引量：3
4田亚琳.关于在机场设施改造期间做好航空情报信息前置的建议[J].民航管理,2017(9):51-53. 被引量：2
5王海玲,周志彬.基于Scrapy框架的爬虫设计[J].软件导刊,2020,19(4):224-228. 被引量：12
6安子建..基于Scrapy框架的网络爬虫实现与数据抓取分析[D].吉林大学,2017:

二级参考文献29

1LEWIS D D. Representation and learning in information retrieval[D]. Maassachusetts: Graduate School of the University of Maassachusetts, 1992. 被引量：1
2LEWIS D D, RINGUETIE M. A comparison of two learning algorithms for text categorization[ M]. Proceedings of SDAIR -94, 3rd Annual Symposium on Document Analysis and Information Retrieval , 1994: 81 - 93. 被引量：1
3YANG Yi-ming, PEDERSEN J O. A comparative study on feature selection in text categorization [ M ]. Proceedings of ICML- 97, 14th International Conference on Machine Learning, 1998. 被引量：1
4SALTON G, BUCKLEY C. Weighting approaches in automatic text retrieval [ J ]. Information Processing and Management, 1988, 24(5) :513 - 523. 被引量：1
5McCALLUM A, NIGAM K. A comparison of event models for Naive Bayes text classification [ M ]. Proceedings of AAAI 98 Workshop on Learning for Text Categorization, 1998. 被引量：1
6CRAVENM, DiPASQUOD, FREITAGD,etal. Leaming to extract symbolic knowledge from the World Wide Web [ M ].Proceedings of the Fifteenth National Conference on Artificial Intellligence (AAAI98), 1998: 509 - 516. 被引量：1
7MitchellTM著曾华军张银奎译.机器学习[M].北京:机械工业出版社,2003.. 被引量：46
8唐中富,姚泽华,钱剑雄,张有忱.基于模糊评价和层次分析法的客运索道安全评价方法研究[J].中国安全科学学报,2008,18(6):152-157. 被引量：38
9王岩.搜索引擎中网络爬虫技术的发展[J].电信快报（网络与通信）,2008(10):20-22. 被引量：11
10何国生.建立航行情报质量监督管理体系探讨[J].中国民用航空,2011(6):53-55. 被引量：3

共引文献49

1李艳,刘信杰,胡学钢.数据挖掘中朴素贝叶斯分类器的应用[J].潍坊学院学报,2007(4):48-50. 被引量：2
2袁方,苑俊英.基于类别核心词的朴素贝叶斯中文文本分类[J].山东大学学报（理学版）,2006,41(3):111-114. 被引量：12
3任喜峰.基于朴素贝叶斯分类的考试成绩监测机制的研究[J].科技信息,2007(1):37-38. 被引量：1
4苑俊英,袁方,刘博.一种基于类别核心词的概念映射方法[J].广西师范大学学报（自然科学版）,2007,25(2):140-144. 被引量：1
5任喜峰.基于朴素贝叶斯分类的考试成绩监测机制研究[J].统计与决策,2007,23(22):163-164. 被引量：4
6庞秀丽,冯玉强,姜维.贝叶斯文本分类中特征词缺失的补偿策略[J].哈尔滨工业大学学报,2008,40(6):956-960. 被引量：5
7陈弋兰.基于朴素贝叶斯分类的图像消噪[J].安庆师范学院学报（自然科学版）,2008,14(3):34-36.
8陈弋兰,王鸣,孙书诚.朴素贝叶斯分类器的误差估计[J].安徽工程科技学院学报（自然科学版）,2008,23(4):48-51. 被引量：4
9苑俊英,陈海山.一种改进的特征选取方法[J].科技信息,2009(4):172-173.
10史瑞芳.贝叶斯文本分类器的研究与改进[J].计算机工程与应用,2009,45(12):147-148. 被引量：12

同被引文献34

1王宏,夏禹,常静静.面向政府采购数据的工程化采集方案设计[J].智能计算机与应用,2020,10(7):170-175. 被引量：2
2熊畅.基于Python爬虫技术的网页数据抓取与分析研究[J].数字技术与应用,2017,35(9):35-36. 被引量：48
3刘石磊.对反爬虫网站的应对策略[J].电脑知识与技术,2017,13(5X):19-21. 被引量：20
4邓世广,王月,马亚伟.基于Python爬虫技术的高精度地震目录更新程序的设计与应用[J].中国地震,2019,35(3):541-549. 被引量：10
5张云纯.基于TF-IDF和互信息的推荐算法研究[J].计算机时代,2019,0(12):42-46. 被引量：4
6宋永生,黄蓉美,王军.基于Python的数据分析与可视化平台研究[J].现代信息科技,2019,3(21):7-9. 被引量：26
7许娟.利用爬虫技术侵犯企业数据知识产权法益的司法解释[J].苏州大学学报（哲学社会科学版）,2020,41(1):47-58. 被引量：27
8秦亚红,普措才仁.基于Scrapy的新闻网页数据抓取设计[J].电子技术与软件工程,2020(4):170-171. 被引量：3
9陈黎,马健.基于Scrapy的农业网络空间信息动态监测算法[J].山东农业大学学报（自然科学版）,2020,51(2):253-258. 被引量：8
10王海玲,周志彬.基于Scrapy框架的爬虫设计[J].软件导刊,2020,19(4):224-228. 被引量：12

引证文献5

1张驰庚,金智鹏.正则表达式finditer提取文本数据方法研究[J].信息技术与信息化,2021(5):151-153. 被引量：2
2王彦雅.基于Python的廊坊市二手房数据爬取及分析[J].电脑知识与技术,2021,17(29):168-170. 被引量：4
3王嘉宝,雒伟群.基于Scrapy框架的电影数据爬取和可视化分析[J].西藏科技,2022(2):64-68. 被引量：6
4王宏,王青,张雪梅.融入推荐算法的政采消息通系统设计与实现[J].信息技术,2022,46(4):49-53. 被引量：1
5朱烨行,赵宝莹,张明杰,魏笑笑,卫昆.基于Scrapy框架的微博用户信息采集系统设计与实现[J].现代信息科技,2023,7(24):41-44. 被引量：2

二级引证文献15

1杨孟姣,杜棋东.基于Python爬虫网站数据分析系统设计与实现[J].计算机时代,2022(11):81-83. 被引量：5
2聂莉娟,方志伟,李瑞霞.基于Scrapy框架的网络爬虫抓取实现[J].软件,2022,43(11):18-20. 被引量：4
3林家业,王啸闻.基于Python的静态网页数据分析与正则提取[J].电脑编程技巧与维护,2023(2):159-161. 被引量：2
4何芳.基于Scrapy的电子商务数据分析系统设计[J].电子技术与软件工程,2022(24):200-204.
5郭婺,郭建,张劲松,石翠萍,刘道森,刘超.基于Python的网络爬虫的设计与实现[J].信息记录材料,2023,24(4):159-162. 被引量：8
6王春波,文雪巍.基于微服务理念校园一体化信息平台的建设[J].河北软件职业技术学院学报,2023,25(2):7-10.
7叶露,潘立,丁昱尹.数据资产质量评价及价值评估技术研究进展[J].中国资产评估,2023(8):50-59. 被引量：4
8余战秋.Python数据采集软件的设计与应用[J].电子技术（上海）,2023,52(7):307-309. 被引量：3
9赵鹏,苏楠,于慧霞.基于Scrapy的高性能网站状态批量采集系统[J].中国新通信,2023,25(13):48-50.
10朱烨行,赵宝莹,张明杰,魏笑笑,卫昆.基于Scrapy框架的微博用户信息采集系统设计与实现[J].现代信息科技,2023,7(24):41-44. 被引量：2

1李卓.电力营销计量装置的安全运行及故障诊断[J].电子乐园,2020(8):422-422.
2武壮.车企舆情正负面识别与预测[J].计算机科学与应用,2021,11(1):121-132.
3张秀萍,李君,袁林,李杨,周辉.基于Datist的地震目录资料自动下载与数据存储[J].防灾减灾学报,2020,36(1):87-91. 被引量：5
4沙静,曾巩俐.自动化测试工具性能优化研究[J].软件,2020,41(11):6-10. 被引量：1
5周超然,赵建平,马太,周欣.基于注意力机制和集成学习的网页黑名单判别方法[J].计算机应用,2021,41(1):133-138. 被引量：2
6陈镭,杨章静,黄璞.基于机器学习的Android恶意软件检测实验[J].实验技术与管理,2020,37(12):94-97. 被引量：5
7成丽娟,祁正华,史俊成.基于区块链的EHR数据安全存储共享方案[J].南京邮电大学学报（自然科学版）,2020,40(4):96-102. 被引量：47
8李洋,韩海燕,谢继武,刚强.基于眼动仪的手机游戏APP图标视觉度提升策略[J].包装工程,2020,41(18):258-263. 被引量：8
9沈雅婷,左志新.商品名称短文本快速有效分类的多基模型框架[J].计算机应用与软件,2021,38(2):185-190. 被引量：1
10吴兴中.关于远传抄表系统在供水行业中的应用探讨[J].信息记录材料,2020,21(10):123-124.

现代信息科技

2020年第21期

浏览历史

内容加载中请稍等...

基于Scrapy爬虫框架的领域网站文件爬取被引量：5

参考文献6

二级参考文献29

共引文献49

同被引文献34

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于Scrapy爬虫框架的领域网站文件爬取 被引量：5

参考文献6

二级参考文献29

共引文献49

同被引文献34

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于Scrapy爬虫框架的领域网站文件爬取被引量：5