期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

基于多数据源的论文数据爬虫技术的实现及应用被引量：11

Implementation and application of paper data crawler technology based on multiple data sources

下载PDF

导出

摘要在使用单个数据源进行论文数据采集的过程中,存在着数据全面性不足、数据采集速度因网站访问频率限制而受限等问题。针对这些问题,提出了一个基于多数据源的论文数据爬虫技术。首先,以知网、万方数据、维普网、超星期刊四大中文文献服务网站为数据源,针对检索关键词完成列表页数据的爬取与解析;然后通过任务调度策略,去除各数据源之间重复的数据,同时进行任务的均衡;最后采用多线程对各数据源进行论文详情信息的抓取、解析与入库,并构建网页进行检索与展示。实验表明,在单个网页爬取与解析速度相同的情况下,该技术能够更加全面、高效地完成论文信息采集任务,证实了该技术的有效性。 There are many problems in the process of collecting paper data using single data source,such as insufficient data comprehensiveness and limited data collection speed due to website access frequency limitation.Aiming at these problems,this paper proposed a paper data crawling technology for multi-data sources.Firstly,it used the four Chinese document service websites-HowNet,Wanfang Data,Weipu,and Chaoxing as data sources,completed the task of crawling and parsing list page data for the search keywords.Then it used the task scheduling strategy to remove repeated data and balance the tasks.Finally,it used multi-threads for each data source to crawl,parse and store the detail information of the papers,and built a website for search and display.Experiments show that under the same crawling and parsing speed,this technology can complete the paper information collection task more comprehensively and efficiently,which proves the effectiveness of this technology.

作者侯晋升张仰森黄改娟段瑞雪 Hou Jinsheng;Zhang Yangsen;Huang Gaijuan;Duan Ruixue(Institute of Intelligent Information,Beijing Information Science&Technology University,Beijing 100101,China;National Economic Security Early Warning Engineering Beijing Laboratory,Beijing 100044,China)

机构地区北京信息科技大学智能信息处理研究所国家经济安全预警工程北京实验室

出处《计算机应用研究》 CSCD 北大核心 2021年第2期517-521,共5页 Application Research of Computers

基金国家自然科学基金资助项目(61772081) 科技创新服务能力建设—科研基地建设—北京实验室—国家经济安全预警工程北京实验室项目(PXM2018_014224_000010) 国家重点研发计划课题(2018YFB1402901)。

关键词网络爬虫多源数据源多线程信息处理数据展示 Web crawler multiple data source multithreading information processing data demonstration

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1杨超凡,邓仲华,彭鑫,刘斌.近5年信息检索的研究热点与发展趋势综述——基于相关会议论文的分析[J].数据分析与知识发现,2017,1(7):35-43. 被引量：7
2王淑芬,高军礼,邹普,宋海涛.基于Hadoop的广域网分布式主题爬虫系统框架[J].计算机工程与科学,2015,37(4):670-675. 被引量：5
3游丽贞,郭宇春,李纯喜.Ajax引擎的原理和应用[J].微计算机信息,2006,22(02X):205-207. 被引量：154
4邵晓文.多线程并发网络爬虫的设计与实现[J].现代计算机,2019,25(1):97-100. 被引量：9
5杨力.布隆算法在网络爬虫中的应用[J].电子世界,2019,0(3):156-156. 被引量：2
6孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术（过刊）,2010,0(15):4112-4115. 被引量：135
7周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：95
8夏天.Ajax站点数据采集研究综述[J].现代图书情报技术,2010(3):52-57. 被引量：10
9李斌斌,钟鸣宇,刘宇.论文重复发表的实证研究——以CNKI数据库农业经济领域为例[J].情报探索,2018(9):39-44. 被引量：2
10刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：132

二级参考文献160

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2马建平.一稿多投正当性的法理分析及其权利规制[J].现代出版,2012(3):18-21. 被引量：34
3黄新斌.一稿多投:研究概况、概念与成因分析[J].现代出版,2012(5):13-16. 被引量：7
4吴美潮.一稿数投和数稿一投浅析[J].情报杂志,1984,3(3):68-69. 被引量：2
5程焕文.必须坚持杜绝一稿多投和抄袭现象[J].新世纪图书馆,1983(2):86-87. 被引量：6
6王菊香.护理科技期刊作者一稿多投原因调查分析[J].中国科技期刊研究,2004,15(4):427-429. 被引量：21
7余锦,史树明.分布式网页排序算法及其传输模式分析[J].计算机工程与应用,2004,40(29):182-187. 被引量：1
8王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
9曹树基.学术不端行为:概念及惩治[J].社会科学论坛,2005(3):36-40. 被引量：94
10车银超,刘冰.SNMPv3安全机制的实现与性能分析[J].微计算机信息,2005,21(08X):7-9. 被引量：2

共引文献560

1周璐,杨保岑,李伟凡,张秋实.内河航道综合信息服务中助航数据获取的方法研究与应用[J].中国水运（下半月）,2021(2):10-12.
2沈承放,莫达隆,黄文韬.网页数据采集算法及在住户调查中的应用[J].统计与决策,2021(7):52-56. 被引量：5
3彭新林,赵辉.恶意网络爬虫行为的刑事规制及其完善[J].刑法论丛,2022(1):217-236.
4姚万勤,宋俊豪.在技术与法律之间:网络爬虫刑法规制的边界[J].法治论坛,2023(1):3-17. 被引量：1
5饶传平.论数据抓取法律风险的流程化管理[J].东方法学,2023(6):28-42. 被引量：7
6金静梅.基于网络爬虫的城市天气服务系统设计与实现[J].办公自动化,2021,26(19):58-59. 被引量：2
7陈骏,谭庆平,谭雄.ASP.NET AJAX在博客网站中的应用[J].微计算机信息,2008,24(3):215-216. 被引量：4
8陈晨,韩希,邢春晓,张小虎.基于SOA和Ajax的智能报表工具的设计和开发[J].微计算机信息,2008(6):180-182. 被引量：6
9刘么和,熊健民,宋庭新.基于Ajax Web技术的力学测试系统研究[J].华中科技大学学报（城市科学版）,2006,23(z2):36-38.
10刘昊霖.通过XMLHttpRequest对象实现获取门户网站新闻列表[J].硅谷,2009,2(14):37-38.

同被引文献132

1赵坦.数字智能技术在绿色金融中的应用[J].中国金融,2022(S01):87-90. 被引量：3
2张国生.大数据驱动的多视点软件需求规约[J].中国电子科学研究院学报,2020,15(2):147-151. 被引量：2
3宋千里,赖华.采用深度学习的小语种舆情监控方法[J].红外与激光工程,2021,50(S02):156-162. 被引量：2
4陈严波,黄金龙,汪志军,姜斌,程月华,杨浩.基于有向图的蜂群无人机故障影响[J].航空学报,2020(S02):115-121. 被引量：4
5许慧,岳靖川,杜茂康,谭永涛,李杨.基于ISM-AHP的城市复杂公共空间韧性影响因素评价研究[J].风险灾害危机研究,2019,0(2):57-82. 被引量：3
6郁荣,陈剑波,李欣烨,刘敬喜.基于Python语言的ABAQUS前处理程序在内凹蜂窝的应用[J].船舶工程,2020,42(S01):153-156. 被引量：10
7廖凯,雒江涛,张治中.利用正则表达式实现Megaco协议解析[J].通信技术,2008,41(11):81-82. 被引量：1
8刘朋,林泓,高德威.基于内容和链接分析的主题爬虫策略[J].计算机与数字工程,2009,37(1):22-24. 被引量：6
9李玥,刘发升.基于链接分析的HITS算法研究[J].软件导刊,2008,7(11):70-72. 被引量：5
10刘爽,姜春祥,张伟哲,李东,张鸿.基于GNP算法的分布式爬虫调度策略[J].计算机应用研究,2010,27(2):446-449. 被引量：6

引证文献11

1黄玉萍,郑梦飞,谢翔.基于运单及POI数据的快递企业客户发现方法[J].物流技术,2021,40(1):122-127.
2杨松,刘佳欣.基于Python多重解析的图像爬虫的设计与实现[J].工业控制计算机,2021,34(2):99-101. 被引量：3
3吴嘉兴,王玉龙,孙美凤.面向科研统计的机构发表论文数据的爬取——以知网为例[J].软件,2022,43(12):31-35. 被引量：1
4宋健,张超.基于规则过滤的机场网站漏洞自动化检测系统[J].自动化与仪器仪表,2023(4):134-137.
5宋伟,赵利刚,伍志新.基于档案数据挖掘的人才信息主动推荐技术[J].微型电脑应用,2023,39(6):111-113.
6朱镕申,孙川钘,潘虹.基于python的分布式网络反爬虫数据有序性研究[J].计算机仿真,2023,40(5):426-429. 被引量：2
7卫善春.基于数据挖掘的就业需求信息资源采集研究[J].情报科学,2023,41(9):130-137.
8张辉.Web应用漏洞检测系统的研究与设计[J].现代计算机,2024,30(9):100-103.
9许慧,李树秀,邢镔.基于知识图谱的轨道交通运营风险事件智能分析研究[J].铁道标准设计,2024,68(8):34-42.
10陶飞飞,徐佳,徐松阳,唐明伟.基于VSM与HITS融合的扩展主题型爬虫[J].计算机仿真,2024,41(10):222-226.

二级引证文献6

1邱奕超,邹嘉程.浅析旅游大数据的多数据源采集方式[J].数字技术与应用,2024,42(3):161-164.
2熊国梁,麦强盛.基于Python的国家社科基金项目爬虫的设计和实现——以贫困为主题的立项信息为例[J].信息与电脑,2021,33(9):181-184.
3李志涵,伯磊,王雪蓓,路原野,马一然.基于物联网的校园疫情监控系统设计与实现[J].物联网技术,2022,12(2):76-79. 被引量：6
4邓子云.通用的行业网站资讯集成平台的设计与实现[J].工业技术与职业教育,2022,20(2):10-14.
5徐天浩,王子扬,沈浩,孙美凤.万维网动态文档的爬取分析[J].软件,2023,44(3):1-4.
6杨冰倩.基于Python爬虫的影评情感分析与可视化系统设计[J].无线互联科技,2023,20(20):43-45. 被引量：1

1白红涛,彭苗,牛振涛,董得志,李镇东.爬虫技术在分布式能源站负荷预测中的应用[J].科学技术创新,2021(4):62-66. 被引量：2
2史航.基于用户体验的健康信息服务网站设计研究[J].移动信息,2020(8):31-34.
3朱海山,李胜.三维激光扫描技术在隧道竣工测量中的应用[J].地理空间信息,2021,19(1):96-98. 被引量：6
4郭亚军,杨紫楠,杨志顺.面向突发公共卫生事件的大学图书馆应急服务研究——基于我国137家“双一流”大学图书馆网络平台的调查[J].大学图书馆学报,2020,38(5):11-19. 被引量：21
5吴剑云,胥明珠.基于用户画像和视频兴趣标签的个性化推荐[J].情报科学,2021,39(1):128-134. 被引量：23
6王文娟,马方.“深度伪造”违法信息算法传播入罪的困境与破解[J].新闻界,2021(1):64-74. 被引量：6
7张辉,连万民,刘翔,吴立强,王博涵,胡启民,王益敏,田军章.麻醉与围术期医学科数据标注平台的设计与实现[J].中国数字医学,2021,16(1):96-100. 被引量：3

计算机应用研究

2021年第2期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部