期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
分布式搜索引擎系统效能建模与评价 被引量:6
1
作者 张伟哲 张宏莉 +1 位作者 许笑 何慧 《软件学报》 EI CSCD 北大核心 2012年第2期253-265,共13页
针对分布式搜索引擎系统效能建模与评估问题,通过对当前分布式搜索引擎系统的建模与分类,扩展了能耗与网络开销的成本模型;对5种构建搜索引擎系统的设计方案,从系统成本、系统规模和查询响应时间等角度进行了详尽的理论分析与评价.由此... 针对分布式搜索引擎系统效能建模与评估问题,通过对当前分布式搜索引擎系统的建模与分类,扩展了能耗与网络开销的成本模型;对5种构建搜索引擎系统的设计方案,从系统成本、系统规模和查询响应时间等角度进行了详尽的理论分析与评价.由此发现,由广域网分布式采集系统和多机群索引系统组成的半广域网搜索引擎系统相对于其他系统具有相对较高的效能,同时能够较好地兼顾用户的服务质量. 展开更多
关键词 分布式搜索引擎 效能建模 分布式采集 分布式索引 半广域网搜索引擎
下载PDF
基于GNP算法的分布式爬虫调度策略 被引量:5
2
作者 刘爽 姜春祥 +2 位作者 张伟哲 李东 张鸿 《计算机应用研究》 CSCD 北大核心 2010年第2期446-449,共4页
针对分布式搜索引擎的任务调度及负载均衡问题,提出了基于GNP算法的分布式爬虫调度策略和负载均衡的方法。利用网络距离预估取代大规模的网络距离测量,不仅提高了系统的响应速度,还减少了系统对广域网造成的压力。通过在广域网上部署爬... 针对分布式搜索引擎的任务调度及负载均衡问题,提出了基于GNP算法的分布式爬虫调度策略和负载均衡的方法。利用网络距离预估取代大规模的网络距离测量,不仅提高了系统的响应速度,还减少了系统对广域网造成的压力。通过在广域网上部署爬虫节点,构建分布式搜索引擎,应用该调度策略进行实验,验证了系统性能有较大提高。 展开更多
关键词 分布式爬虫 任务调度 负载均衡 网络测量 全局网络定位
下载PDF
基于互联网的爬虫程序研究
3
作者 郭银芳 韩凯 +2 位作者 郭峰明 王国升 李雪萌 《计算机应用文摘》 2022年第2期73-75,102,共4页
随着互联网的飞速发展,大数据成为互联网技术行业的流行词汇。如今,想要获取大量的数据,爬虫无疑是非常便利的工具。文章介绍了爬虫的原理以及网页的分析方法,对Scrapy框架进行了介绍﹐并用Scrapy对网站进行了数据的爬取,最后利用数据... 随着互联网的飞速发展,大数据成为互联网技术行业的流行词汇。如今,想要获取大量的数据,爬虫无疑是非常便利的工具。文章介绍了爬虫的原理以及网页的分析方法,对Scrapy框架进行了介绍﹐并用Scrapy对网站进行了数据的爬取,最后利用数据可视化工具对数据进行处理,以便更加直观地对数据进行分析。文章以拉勾网为爬虫对象,在爬虫的过程中,总结了爬虫遇到的问题和解决办法。此外,文章利用Scrapy框架对程序进行了优化,提升了爬取效率。 展开更多
关键词 聚焦爬虫 搜索策略 scrapy框架 全站爬取 分布式爬取
下载PDF
广域网分布式Web爬虫 被引量:25
4
作者 许笑 张伟哲 +1 位作者 张宏莉 方滨兴 《软件学报》 EI CSCD 北大核心 2010年第5期1067-1082,共16页
分析了广域网分布式Web爬虫相对于局域网爬虫的诸多优势,提出了广域网分布式Web爬虫的3个核心问题:Web划分、Agent协同和Agent部署.围绕这3个问题,对目前学术界和商业界出现的多种实现方案和策略进行了全面的综述,深入讨论了研究中遇到... 分析了广域网分布式Web爬虫相对于局域网爬虫的诸多优势,提出了广域网分布式Web爬虫的3个核心问题:Web划分、Agent协同和Agent部署.围绕这3个问题,对目前学术界和商业界出现的多种实现方案和策略进行了全面的综述,深入讨论了研究中遇到的问题与挑战,并论述了广域网分布式Web爬虫的评价模型.最后,对未来的研究方向进行了总结. 展开更多
关键词 搜索引擎 广域网分布式爬虫 Web划分 AGENT协同 Agent部署
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部