期刊文献+
共找到73篇文章
< 1 2 4 >
每页显示 20 50 100
基于微博数据的“新冠肺炎疫情”舆情演化时空分析 被引量:86
1
作者 陈兴蜀 常天祐 +2 位作者 王海舟 赵志龙 张杰 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第2期409-416,共8页
本文依托2020年1月1日至2月29日期间共计6万条新浪微博博文与1.5万条微博热门评论,基于分布式爬虫技术、分布式数据库系统、SnowNLP情感分析模型以及K-Means文本聚类算法,对与“新冠肺炎疫情”相关的话题展开舆情分析,可视化地展现本次... 本文依托2020年1月1日至2月29日期间共计6万条新浪微博博文与1.5万条微博热门评论,基于分布式爬虫技术、分布式数据库系统、SnowNLP情感分析模型以及K-Means文本聚类算法,对与“新冠肺炎疫情”相关的话题展开舆情分析,可视化地展现本次疫情事件中网络舆情的时空演化过程.在时间维度层面,通过文本聚类与情感分析,发现网民对于此次肺炎疫情的态度大致经历了三个阶段,即起伏不定的紧张焦虑期、缓慢攀升的团结振作期以及波动很小的自信平稳期,总体上呈现积极大于消极、正面大于负面的情绪状态.在空间维度层面,通过地理统计分析,发现疫情最严重地区网民评论人数最多,同时情感值也最低. 展开更多
关键词 新浪微博 新冠肺炎疫情 分布式爬虫 情感分析 文本聚类 地理统计分析
下载PDF
对反爬虫网站的应对策略 被引量:19
2
作者 刘石磊 《电脑知识与技术》 2017年第5X期19-21,23,共4页
随着网络的发展和网络爬虫技术的普及,越来越多的个人用户使用了网络爬虫技术从网站获取信息,而过多的网络爬虫会对目标网站的运营造成一定的影响。某些网站为了防止自己的网站不被除搜索引擎以外的网络爬虫访问,使用了一些反爬虫技术... 随着网络的发展和网络爬虫技术的普及,越来越多的个人用户使用了网络爬虫技术从网站获取信息,而过多的网络爬虫会对目标网站的运营造成一定的影响。某些网站为了防止自己的网站不被除搜索引擎以外的网络爬虫访问,使用了一些反爬虫技术。笔者探讨了一些常见的反爬虫措施以及对应用了该类机制的网站的进行爬虫活动的手段和策略。 展开更多
关键词 网络爬虫 反爬虫 反反爬虫 抓取策略 分布式爬虫
下载PDF
基于Scrapy的分布式爬虫系统的设计与实现 被引量:17
3
作者 李代祎 谢丽艳 +1 位作者 钱慎一 吴怀广 《湖北民族学院学报(自然科学版)》 CAS 2017年第3期317-322,共6页
随着互联网的快速发展,其信息量和相关服务也随之快速增长.如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战.目前国内外一些大型搜索引擎只给用户提供不... 随着互联网的快速发展,其信息量和相关服务也随之快速增长.如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战.目前国内外一些大型搜索引擎只给用户提供不可制定的搜索服务,而单机的网络爬虫又难当重任,因此可定制性强、信息采集速度快和规模大的分布式网络爬虫便应运而生.通过对原有Scrapy框架的学习和研究,将Scrapy和Redis结合改进原有的爬虫框架,设计并实现了一个基于Scrapy框架下的分布式网络爬虫系统,然后将从安居客、58同城、搜房等网站抓取的二手房信息存入MongoDB中,便于对数据进行进一步的处理和分析.结果表明基于Scrapy框架下的分布式网络爬虫系统同单机网络爬虫系统相比效率更高且更稳定. 展开更多
关键词 Scrapy 分布式 Scrapy-Reids 网络爬虫 Mongo DB 数据存储
下载PDF
主动获取式的分布式网络爬虫集群方法研究 被引量:14
4
作者 董禹龙 杨连贺 马欣 《计算机科学》 CSCD 北大核心 2018年第B06期428-432,共5页
针对当前分布式网络爬虫方法遇到的处理效率、扩展性、可靠性、任务分配和负载平衡等问题,提出了一种主动获取任务式的分布式网络爬虫方法。该方法在子机节点中加入分控模块,评估节点负载及运行状况,并主动向中控节点申请任务队列。在... 针对当前分布式网络爬虫方法遇到的处理效率、扩展性、可靠性、任务分配和负载平衡等问题,提出了一种主动获取任务式的分布式网络爬虫方法。该方法在子机节点中加入分控模块,评估节点负载及运行状况,并主动向中控节点申请任务队列。在此基础上,结合动态双向优先级任务分配算法,设计了一种具有负载平衡、任务分级分配、节点异常敏捷识别、节点安全退出等特性的分布式网络爬虫模型。实际测试表明,该主动获取式的分布式网络爬虫方法可有效地利用通用平台建立大型分布式爬虫集群。 展开更多
关键词 主动获取 分布式爬虫 负载平衡 爬虫框架 多进程 动态优先级
下载PDF
基于众包的社交网络数据采集模型设计与实现 被引量:14
5
作者 高梦超 胡庆宝 +3 位作者 程耀东 周旭 李海波 杜然 《计算机工程》 CAS CSCD 北大核心 2015年第4期36-40,共5页
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、... 社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。 展开更多
关键词 社交网络 众包模式 分布式计算 信息采集 WEB爬虫 HADOOP分布式文件系统
下载PDF
基于P2P的分布式主题爬虫系统的设计与实现 被引量:6
6
作者 朱学芳 韩占校 《情报学报》 CSSCI 北大核心 2010年第3期402-407,共6页
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程。系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足... 本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程。系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求。实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息。 展开更多
关键词 网络爬虫 对等网络 分布式计算 信息检索 主题爬虫
下载PDF
一种基于Kademlia的全分布式爬虫集群方法 被引量:9
7
作者 黄志敏 曾学文 陈君 《计算机科学》 CSCD 北大核心 2014年第3期124-128,共5页
针对将海量爬虫节点组织成全分布式爬虫集群所遇到的高效、均衡、可靠、可拓展等问题,提出了一种基于Kademlia的全分布式爬虫集群方法。该方法通过改进的Kademlia技术建立起爬虫节点间的底层通信机制。在此基础上,根据Kademlia的异或特... 针对将海量爬虫节点组织成全分布式爬虫集群所遇到的高效、均衡、可靠、可拓展等问题,提出了一种基于Kademlia的全分布式爬虫集群方法。该方法通过改进的Kademlia技术建立起爬虫节点间的底层通信机制。在此基础上,根据Kademlia的异或特性及节点的可用资源情况,设计并实现具有任务划分、异常处理、节点加入退出处理及负载均衡的全分布式爬虫集群模型。在实际网络系统上的实验结果表明,该方法能有效利用海量弱计算终端的计算、存储和带宽资源,构建高效、均衡、可靠、可大规模拓展的全分布式爬虫集群。 展开更多
关键词 KADEMLIA 分布式爬虫 弱计算终端 海量节点 结构化P2P
下载PDF
基于Nutch的分布式爬虫的优化研究 被引量:7
8
作者 袁威 薛安荣 周小梅 《无线通信技术》 2014年第3期44-47,52,共5页
网络爬虫是互联网运行服务的重要组成部分,并为整个互联网、企业内部网和大型门户网站提供搜索和索引。为解决现有爬虫方法在效率方面的问题,本文介绍了Nutch分布式爬虫工作流程及机制,通过分析Hadoop下的Nutch网络爬虫,在Nutch分布式... 网络爬虫是互联网运行服务的重要组成部分,并为整个互联网、企业内部网和大型门户网站提供搜索和索引。为解决现有爬虫方法在效率方面的问题,本文介绍了Nutch分布式爬虫工作流程及机制,通过分析Hadoop下的Nutch网络爬虫,在Nutch分布式爬虫的参数方面、Hadoop的I/O模型和Nutch分布式爬虫小文件问题三个方面做了相关优化。实验结果表明,优化后的网络爬虫能更有效的爬取网络资源,能在较大程度上提升网络爬虫效率。 展开更多
关键词 NUTCH HADOOP 分布式文件系统 分布式爬虫
下载PDF
Scrapy框架下分布式网络爬虫数据采集算法仿真 被引量:3
9
作者 刘多林 吕苗 《计算机仿真》 北大核心 2023年第6期504-508,共5页
为提高数据采集速度、避免重复采集,提出Scrapy框架下分布式网络爬虫数据采集算法。利用搜索引擎、调度器、下载器、数据解析等模块建立Scrapy框架,明确爬虫体系内包括分布式计算与储存两部分;为确保爬虫过程负载均衡,将爬虫速度作为评... 为提高数据采集速度、避免重复采集,提出Scrapy框架下分布式网络爬虫数据采集算法。利用搜索引擎、调度器、下载器、数据解析等模块建立Scrapy框架,明确爬虫体系内包括分布式计算与储存两部分;为确保爬虫过程负载均衡,将爬虫速度作为评价指标,计算节点权重;使用蚁群优化算法,采用伪随机规则,获取智能体的网页转移概率,确定爬取路径,更新每条路径的信息素浓度,根据目标函数距离选取目标解;综合分析数据特征向量,计算链接的主题相似度,将相似度较高的链接放入待爬取集合中,得出数据间的重合度影响因子,避免重复采集,当信息素浓度降到最低时停止爬虫操作,完成采集工作。仿真结果证明,所提方法爬准率与爬全率较高,可提升数据采集速度。 展开更多
关键词 分布式系统 网络爬虫 数据采集 节点权重
下载PDF
基于长短时记忆网络的光伏发电功率预测 被引量:7
10
作者 黄滇玲 迟学斌 +5 位作者 许可 王铁强 时珉 尹瑞 王一峰 王珏 《科研信息化技术与应用》 2019年第2期31-41,共11页
光伏发电系统的输出功率具有波动性和间歇性,其特性影响了电力系统安全、稳定与经济地运行,因此准确预测光伏发电系统的输出功率具有十分重要的意义。目前,光伏出力预测一般使用比较简单的网络,如BP神经网络和SVM等,并且大多数预测的时... 光伏发电系统的输出功率具有波动性和间歇性,其特性影响了电力系统安全、稳定与经济地运行,因此准确预测光伏发电系统的输出功率具有十分重要的意义。目前,光伏出力预测一般使用比较简单的网络,如BP神经网络和SVM等,并且大多数预测的时间级为小时级,而对于分钟级的预测具有一定的难度。光伏出力预测是一个回归问题,而长短时记忆(LSTM)在时间序列上具有良好的处理效果。本文研究影响光伏发电的因素,并从中选取主要因素作为特征,通过构建基于LSTM的深度学习模型来预测光伏发电功率。在不同天气情况下,光伏发电功率的波形具有不同的特征,因此对不同天气类型构建不同的LSTM预测模型。实测数据表明,不同天气类型的LSTM模型具有更忧的性能。 展开更多
关键词 LSTM 光伏发电功率 预测模型 相关性系数
原文传递
分布式Web信息采集系统的设计与实现 被引量:7
11
作者 金岳富 范剑英 冯扬 《哈尔滨理工大学学报》 CAS 北大核心 2010年第1期116-119,123,共5页
Web信息的急剧增长,给信息的有效使用带来了巨大挑战.作为搜索引擎的重要组成部分,Web信息采集扮演着越来越重要的角色.文中从并行性、负载均衡、体系结构以及可扩展性这4个方面详细讨论了分布式Web信息采集系统的设计与实现.经验证,该... Web信息的急剧增长,给信息的有效使用带来了巨大挑战.作为搜索引擎的重要组成部分,Web信息采集扮演着越来越重要的角色.文中从并行性、负载均衡、体系结构以及可扩展性这4个方面详细讨论了分布式Web信息采集系统的设计与实现.经验证,该分布式Web信息采集系统能够实现负载均衡,并具有良好的可扩展性. 展开更多
关键词 分布式系统 WEB信息采集 搜索引擎 信息处理
下载PDF
基于分布式爬虫的微博舆情监督与情感分析系统设计 被引量:1
12
作者 何西远 张岳 张秉文 《现代信息科技》 2024年第5期111-114,119,共5页
互联网的兴起使微博等自媒体平台成为网民表达意见的主要途径。同时,网络舆情的迅速传播使得网民舆论管理成为一个难题。针对传统方法在微博舆情管理上的局限性,文章设计一种基于分布式爬虫的微博舆情监测与情感分析系统,并借助情感分析... 互联网的兴起使微博等自媒体平台成为网民表达意见的主要途径。同时,网络舆情的迅速传播使得网民舆论管理成为一个难题。针对传统方法在微博舆情管理上的局限性,文章设计一种基于分布式爬虫的微博舆情监测与情感分析系统,并借助情感分析和LDA主题提取技术,对热点事件进行分析,帮助政府和企业更好地把握舆情发展动态,捍卫其社会公信力。 展开更多
关键词 网络舆情 分布式爬虫 情感分析 LDA主题提取
下载PDF
基于Hadoop的分布式并行增量爬虫技术研究 被引量:4
13
作者 刘芳云 张志勇 李玉祥 《计算机测量与控制》 2018年第10期269-275,308,共8页
面对多媒体社交网络中在线视频的爆炸式增长,使用单机模式下爬虫提取新视频页面的效率低下,为此,提出一种基于Map/Reduce的并行算法,大大提高了爬虫的效率;但是为了进一步改善数据冗余问题,减少过时页面的更新,改进了一种精度感知增量... 面对多媒体社交网络中在线视频的爆炸式增长,使用单机模式下爬虫提取新视频页面的效率低下,为此,提出一种基于Map/Reduce的并行算法,大大提高了爬虫的效率;但是为了进一步改善数据冗余问题,减少过时页面的更新,改进了一种精度感知增量更新算法,利用监控技术监控网页变化情况,分析网页更新模式,增加新鲜度评估和降维处理,使用混合整数二次规划方法为发生更改的网页制定最优的刷新策略;实验证明,相比单机模式下定期频繁的刷新策略,该并行增量方法以原刷新代价的36.7%获得了79%的信息精确度,爬虫效率提高了167倍。 展开更多
关键词 HADOOP集群 分布式爬虫 并行爬虫 增量爬虫 刷新策略
下载PDF
基于资源感知的分布式爬虫任务调度方法
14
作者 张军 魏继桢 李钰彬 《现代电子技术》 北大核心 2024年第9期86-90,共5页
文中致力于开发一种基于资源感知的分布式爬虫任务调度方法,以优化分布式环境中各节点的系统资源利用,提升爬虫任务的执行效率。该方法通过引入资源感知调度算法和节点优先级管理,实现对节点中CPU、内存、网络等资源的监测,以便均衡调... 文中致力于开发一种基于资源感知的分布式爬虫任务调度方法,以优化分布式环境中各节点的系统资源利用,提升爬虫任务的执行效率。该方法通过引入资源感知调度算法和节点优先级管理,实现对节点中CPU、内存、网络等资源的监测,以便均衡调度爬虫任务,即确保爬虫任务在资源利用率较低的节点上执行,从而有效减轻各个节点之间资源过度占用和不均衡问题。另外,该方法引入的Flask提高了可扩展性,实现了可视化爬虫监控平台。实验结果表明,文中提出的方法在提高爬虫任务执行效率和适应性方面取得了显著效果,为分布式爬虫系统的进一步优化提供了有益指导。 展开更多
关键词 分布式爬虫 任务调度 资源感知 FLASK 数据采集 资源利用率
下载PDF
一种并行Crawler系统中的URL分配算法设计 被引量:1
15
作者 万源 万方 王大震 《计算机工程与应用》 CSCD 北大核心 2006年第A01期117-119,共3页
研究了分布式体系结构下的并行Crawler采集模型,分析了各组件的功能及各Cmwler在并行搜索时,为保证系统的负载均衡而应遵循的基本规则,并提出了一种基于散列(hash)的URL的调度算法。
关键词 分布式crawler 散列算法 URL分配
下载PDF
基于Scrapy框架的分布式网络爬虫系统设计与实现 被引量:5
16
作者 周毅 李威 +2 位作者 何金 程蕾 柳璐 《现代信息科技》 2021年第19期43-46,共4页
针对传统单机网络爬虫抓取效率低、稳定性差、数据量少等问题,文章利用Scrapy框架结合Redis技术,对传统网络爬虫框架进行改进和优化,设计出了分布式非结构化的网络爬虫系统,使采集到的信息能以非结构化形式存储于MongoDB数据库内,实现... 针对传统单机网络爬虫抓取效率低、稳定性差、数据量少等问题,文章利用Scrapy框架结合Redis技术,对传统网络爬虫框架进行改进和优化,设计出了分布式非结构化的网络爬虫系统,使采集到的信息能以非结构化形式存储于MongoDB数据库内,实现对数据信息的实时、有效处理分析。经过实际应用测试,证明基于Scrapy框架的分布式非结构化网络爬虫系统相较于传统单机系统具有更高的效率。 展开更多
关键词 分布式 Scrapy框架 网络爬虫
下载PDF
基于Django的分布式爬虫框架设计与实现 被引量:5
17
作者 赵宸 刘建华 《计算机与数字工程》 2020年第10期2495-2498,共4页
针对分布式爬虫框架性能和功能的优化,提出一种基于Django的分布式爬虫框架设计方法,介绍了爬虫任务队列技术,实现了在爬虫运行过程中随时更新爬虫代码时可自动重新载入并从断点继续执行任务的功能,解决了重新载入过程中数据丢失的问题... 针对分布式爬虫框架性能和功能的优化,提出一种基于Django的分布式爬虫框架设计方法,介绍了爬虫任务队列技术,实现了在爬虫运行过程中随时更新爬虫代码时可自动重新载入并从断点继续执行任务的功能,解决了重新载入过程中数据丢失的问题。实验证明,在分布式环境下,随时更新爬虫代码可以实现自动重新载入运行并且不会丢失数据,相比其他分布式爬虫,该框架可提升爬虫40.7%的运行性能。 展开更多
关键词 分布式 爬虫框架 任务队列 自动重新载入
下载PDF
面向城市大数据的分布式并行获取方法研究 被引量:1
18
作者 张震宇 王婷 +2 位作者 任腾云 赵琳 王纪军 《自动化技术与应用》 2023年第7期119-122,共4页
通过采取高效的分布式网络数据获取方法,结合大数据分析与人工智能技术,能够为传统行业建设与管理提供更加科学精准的分析与预测手段。以江苏省电力建设的投资成本预测为背景,基于主流python语言和分布式爬虫框架scrapy研究深层网络爬虫... 通过采取高效的分布式网络数据获取方法,结合大数据分析与人工智能技术,能够为传统行业建设与管理提供更加科学精准的分析与预测手段。以江苏省电力建设的投资成本预测为背景,基于主流python语言和分布式爬虫框架scrapy研究深层网络爬虫,根据深层网络结构设计爬虫策略并实现并行网络数据抓取系统,大规模获取江苏省各地市的GDP、人口数量、企业分类、社区建设、交通建设等宏观经济数据。通过自然语言处理和正则表达式等技术,对获取到的结构化和非结构化数据进行数据清洗和文本处理,最终实现数据的可视化展示。 展开更多
关键词 分布式计算 大数据 爬虫框架 投资成本
下载PDF
一种高效的分布式爬虫系统负载均衡策略 被引量:5
19
作者 张树涛 谭海波 +1 位作者 陈良锋 吕波 《计算机工程》 CAS CSCD 北大核心 2019年第11期62-67,共6页
传统分布式爬虫系统负载均衡方法仅考虑少量的负载影响因素,未对各爬虫节点负载情况进行全面有效的评估,使得任务量的分配不合理。针对该问题,提出一种面向分布式爬虫系统的高效负载均衡策略。分析影响爬虫节点运行时间的因素,采用BP神... 传统分布式爬虫系统负载均衡方法仅考虑少量的负载影响因素,未对各爬虫节点负载情况进行全面有效的评估,使得任务量的分配不合理。针对该问题,提出一种面向分布式爬虫系统的高效负载均衡策略。分析影响爬虫节点运行时间的因素,采用BP神经网络构建基于多影响因素的非线性分布式爬虫节点运行时间模型。以该模型预测的各子节点运行时间的最小方差为负载均衡策略的目标函数,并利用带约束条件的改进粒子群优化算法求解目标函数,确定负载均衡的任务分配方案。实验结果表明,该负载均衡策略在满足爬虫节点高性能要求的前提下,能有效缩短分布式爬虫系统的运行时间。 展开更多
关键词 分布式爬虫 负载均衡 预测模型 粒子群优化算法 约束条件
下载PDF
基于双缓冲的分布式爬虫调度策略的设计与研究 被引量:4
20
作者 卢照 师军 +1 位作者 张耀午 王琦 《计算机与数字工程》 2022年第8期1686-1690,共5页
互联网的高速发展使得大数据的应用越来越广泛,使得分布式爬虫处于愈来愈重要的地位。目前主流开源爬虫框架在网络通信开销上优化甚少,缺乏一个有效的方案来减少网络开销问题。论文利用对等式架构的爬行器既是任务的消费者又是任务的生... 互联网的高速发展使得大数据的应用越来越广泛,使得分布式爬虫处于愈来愈重要的地位。目前主流开源爬虫框架在网络通信开销上优化甚少,缺乏一个有效的方案来减少网络开销问题。论文利用对等式架构的爬行器既是任务的消费者又是任务的生产者,提出了任务尽量在本地执行的优化方向。基于双缓冲技术实现的大粒度任务动态负载均衡策略,能有效地降低通信频次,基于高速缓存原理的URL判重方案,以“空间换时间”的方式,有效地提升爬虫URL判重性能。实验结果表明,该策略具有良好的扩展性、鲁棒性,能使分布式系统的性能优势得到更为充分的发挥。 展开更多
关键词 分布式爬虫 动态负载均衡 Scrapy-Redis 双缓冲机制
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部