网络爬虫实时控制器的设计与实现被引量：1

Design and Implementation of the Real Time Controller for Web Crawlers

下载PDF

导出

摘要针对个性化数据采集,提出一个轻量级网络爬虫框架,该框架包括控制器、下载器、解析器、线程池和代理池等组件。在此框架下,设计一个具有实时处理能力的爬虫控制器,能够自动保存和恢复任务场景。详细介绍爬虫控制器的工作原理和C#实现,并将其应用于站内文章采集。实验结果表明:所提出的爬虫框架是高效易用的,控制器的实时处理能力在实际爬虫开发中非常重要。 Aiming at personalized data collection,a lightweight web crawler framework is proposed,which includes components such as controller,downloader,parser,thread pool,and agent pool.Under the above framework,a crawler controller with real-time processing capabilities is designed,which can automatically save and restore task scene.The working principle and C#implementation of the crawler controller are introduced in detail,and it is applied to the collection of articles within a website.The experimental results show that the crawler frame⁃work proposed in this paper is efficient and easy to use,and the controller’s real-time processing ability is very important in the actual crawler development.

作者李健张克亮 LI Jian;ZHANG Ke-liang(Luoyang Campus,Information Engineering University,Luoyang 471003)

机构地区信息工程大学洛阳校区

出处《现代计算机》 2021年第5期91-96,共6页 Modern Computer

基金国家自然科学基金重大项目:多语言言语数据的获取、标注和分析研究(No.11590771)。

关键词网络爬虫爬虫框架实时控制器 C# Web Crawler Crawler Frameworks Real Time Controller C#

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术（过刊）,2010,0(15):4112-4115. 被引量：135
2詹恒飞,杨岳湘,方宏.Nutch分布式网络爬虫研究与优化[J].计算机科学与探索,2011,5(1):68-74. 被引量：21
3刘磊安,符志强.基于Lucene.net网络爬虫的设计与实现[J].电脑知识与技术（过刊）,2010,16(3X):1870-1871. 被引量：8
4王磊,刘晓丹.基于Scrapy的网络爬虫系统框架设计与实现[J].微型电脑应用,2019,35(4):48-50. 被引量：10
5于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29. 被引量：23
6李健,马延周.支持DOM模板可视化配置的网页抽取方法[J].现代计算机,2018,24(7):56-60. 被引量：4
7林子皓.主题爬虫的设计与实现[J].计算机技术与发展,2014,24(8):99-102. 被引量：7

二级参考文献55

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2张校乾,金玉玲,侯丽波.一种基于Lucene检索引擎的全文数据库的研究与实现[J].现代图书情报技术,2005(2):40-43. 被引量：30
3赫枫龄,左万利.利用超链接信息改进网页爬行器的搜索策略[J].吉林大学学报（信息科学版）,2005,23(1):59-63. 被引量：8
4孙彬,王东,李娟.基于XQuery的Deep Web搜索系统的设计与实现[J].科学技术与工程,2007,7(16):4080-4084. 被引量：2
5Hemovici M, Jacovi M, Maarek Y S, et al. The Shark-Search Algorithm: An Application:Tailored Web Site Mapping[ C ]//Proceedings of the7th international World Wide Web 7 conference. Brisbane, Australia, 1998. 被引量：1
6Joson Rennie, Andrew Kachites McCallum. Using reinforcement learning to spider the web efficiently[ C ]//Proceedings of the 16th International Conference on Machine Learning( ICML - 99 ). Bled, Slovenia, 1999:335 - 343. 被引量：1
7Diligenti M, Coetzee F, Lawrence S, et al. Focused crawling using context graphs. Proceedings of the 26th International Conference on Very Large Database ( VLDB2000), 2000:527 - 534. 被引量：1
8Aggaewal C, A1-Garawif Yup. Intelligent crawling on the World Wide Web with arbitrary predicates[ C ]//Proc of the 10th International WoAd Wide Web Conference. HongKong: [ S n] ,2001. 被引量：1
9Maenehea Ehrig. Ontology-focused crawling of Web documents[ C ]//Proc of ACM Symposium on Applied Computing ,2003. 被引量：1
10Chakrabarti S, Punera K, Subramanyam M. Accelerated Focused Crawling through Online Relevance Feedback [ C ]//Proceedings of the 11 th International Conference on World Wide Web, Hawaii, USA ,2002 : 148 - 159. 被引量：1

共引文献185

1周璐,杨保岑,李伟凡,张秋实.内河航道综合信息服务中助航数据获取的方法研究与应用[J].中国水运（下半月）,2021(2):10-12.
2袁永旭,张淑婷,赵晓婷,金鹏琛.基于爬虫技术的病案管理人才需求现状分析[J].中国病案,2020(9):3-7. 被引量：7
3彭新林,赵辉.恶意网络爬虫行为的刑事规制及其完善[J].刑法论丛,2022(1):217-236.
4饶传平.论数据抓取法律风险的流程化管理[J].东方法学,2023(6):28-42. 被引量：7
5金静梅.基于网络爬虫的城市天气服务系统设计与实现[J].办公自动化,2021,26(19):58-59. 被引量：2
6于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29. 被引量：23
7张睿涵,林振荣,李建民,衷湾.基于主题定制的专利网络爬虫的设计与实现[J].计算机与现代化,2011(7):52-55. 被引量：2
8李志义.网络爬虫的优化策略探略[J].现代情报,2011,31(10):31-35. 被引量：17
9王剑,周国民,丘耘,王健.国家农业科学数据中心站内搜索引擎技术研究[J].中国农学通报,2011,27(30):270-274. 被引量：2
10王鲁荣.基于主题网络爬虫的高校网络信息动态搜索策略研究[J].四川师范大学学报（自然科学版）,2011,34(6):919-921. 被引量：3

同被引文献9

1寿志勤,黄学华,郭亚光,陈正光,许君,汪晓胜.电子政务服务整体绩效评估转型研究——安徽模式的问题检视与重构[J].电子政务,2019,0(10):108-116. 被引量：17
2姚志新,姜伟,王河山,李林.电子政务绩效考核系统设计与应用[J].电子技术与软件工程,2020(6):39-41. 被引量：2
3戴圣良.福建省电子政务绩效评估现状与对策建议[J].发展研究,2020(6):80-85. 被引量：6
4唐满华,柳毅,谭青,刘召栋,刘泉江.省直部门门户网站建设现状及改进建议[J].电子技术与软件工程,2020(12):34-36. 被引量：2
5陈飞,叶春明,陈涛.基于区块链的食品溯源系统设计[J].计算机工程与应用,2021,57(2):60-69. 被引量：41
6吴君楠,欧洋,李琰.基于LAMP的高性能计算用户组织架构管理系统设计与实现[J].计算机工程与科学,2021,43(2):235-241. 被引量：4
7许思特,黄子硕,马振凯,吴斌,刘佳兴,盛韬,戴瑞明,罗力,张天天.基于Node.js与REST风格的医保定点零售药店履约考核系统[J].计算机系统应用,2021,30(2):52-62. 被引量：2
8龙晶晶,黄蕾,苟文昱,孟文浩,李明峰,陈福昌,黄成,何志民,李燕,林惠川.无人机航拍辅助数字乡村微网站的设计与实现[J].计算机与现代化,2021(4):48-52. 被引量：2
9谷葆春.基于爬虫的股票涨停板复盘软件的研究与实现[J].现代计算机,2021,27(7):64-68. 被引量：2

引证文献1

1高凌宇,陈书梅,黄蕾.基于政府网站与政务新媒体考核指标的网站信息监测预警系统的设计[J].现代计算机,2022,28(10):107-111. 被引量：2

二级引证文献2

1李霞.多源数据驱动政府统计监测预警现代化[J].华东科技,2023(7):89-91.
2和朝敦.基于数据融合的互联网网站群信息安全监测系统研究[J].电子设计工程,2024,32(14):159-164.

1徐立,张笑平,李子文,汤淑敏,胡敏.军队护士战创伤救治核心能力需求的质性研究[J].海军医学杂志,2021,42(1):30-32. 被引量：8
2汤岚.教育要敢于直面真实世界的挑战[J].江苏教育,2021(19):78-78.
3董任洵.视频流轮巡成功率的影响因素分析[J].信息与电脑,2021,33(2):12-13.
4张熠程.基于任务型教学法的对外汉字教学设计[J].文教资料,2021(1):194-196.
5陶谦,黄韵.下颌下腺结石的现代治疗策略[J].口腔疾病防治,2021,29(5):289-295. 被引量：1

现代计算机

2021年第5期

浏览历史

内容加载中请稍等...

网络爬虫实时控制器的设计与实现被引量：1

参考文献7

二级参考文献55

共引文献185

同被引文献9

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

网络爬虫实时控制器的设计与实现 被引量：1

参考文献7

二级参考文献55

共引文献185

同被引文献9

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

网络爬虫实时控制器的设计与实现被引量：1