-
题名分布式搜索引擎系统效能建模与评价
被引量:6
- 1
-
-
作者
张伟哲
张宏莉
许笑
何慧
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《软件学报》
EI
CSCD
北大核心
2012年第2期253-265,共13页
-
基金
国家自然科学基金(61173145)
国家重点基础研究发展计划(973)(G2011CB302605)
+1 种基金
国家高技术研究发展计划(863)(2010AA012504
2011AA010705)
-
文摘
针对分布式搜索引擎系统效能建模与评估问题,通过对当前分布式搜索引擎系统的建模与分类,扩展了能耗与网络开销的成本模型;对5种构建搜索引擎系统的设计方案,从系统成本、系统规模和查询响应时间等角度进行了详尽的理论分析与评价.由此发现,由广域网分布式采集系统和多机群索引系统组成的半广域网搜索引擎系统相对于其他系统具有相对较高的效能,同时能够较好地兼顾用户的服务质量.
-
关键词
分布式搜索引擎
效能建模
分布式采集
分布式索引
半广域网搜索引擎
-
Keywords
distributed search engine
productivity modeling
distributed crawling
distributed indexing
half- WAN-based search engine
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于GNP算法的分布式爬虫调度策略
被引量:5
- 2
-
-
作者
刘爽
姜春祥
张伟哲
李东
张鸿
-
机构
哈尔滨工业大学计算机科学与技术学院
国家计算机网络应急技术处理协调中心黑龙江分中心
国家计算机网络应急技术处理协调中心
-
出处
《计算机应用研究》
CSCD
北大核心
2010年第2期446-449,共4页
-
基金
国家"973"重点基础研究发展计划资助项目(G2005CB321806)
国家自然科学基金资助项目(60703014)
+1 种基金
高等学校博士学科点专项科研基金资助课题(20070213044)
哈尔滨工业大学优秀青年教师培养计划(HITQNJS.2007.034)
-
文摘
针对分布式搜索引擎的任务调度及负载均衡问题,提出了基于GNP算法的分布式爬虫调度策略和负载均衡的方法。利用网络距离预估取代大规模的网络距离测量,不仅提高了系统的响应速度,还减少了系统对广域网造成的压力。通过在广域网上部署爬虫节点,构建分布式搜索引擎,应用该调度策略进行实验,验证了系统性能有较大提高。
-
关键词
分布式爬虫
任务调度
负载均衡
网络测量
全局网络定位
-
Keywords
distributed crawling
scheduling strategies
load balancing
network measurement
GNP( global network positioning )
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名基于互联网的爬虫程序研究
- 3
-
-
作者
郭银芳
韩凯
郭峰明
王国升
李雪萌
-
机构
太原学院
-
出处
《计算机应用文摘》
2022年第2期73-75,102,共4页
-
基金
太原学院大学生创新创业训练计划项目(TYX2021020)。
-
文摘
随着互联网的飞速发展,大数据成为互联网技术行业的流行词汇。如今,想要获取大量的数据,爬虫无疑是非常便利的工具。文章介绍了爬虫的原理以及网页的分析方法,对Scrapy框架进行了介绍﹐并用Scrapy对网站进行了数据的爬取,最后利用数据可视化工具对数据进行处理,以便更加直观地对数据进行分析。文章以拉勾网为爬虫对象,在爬虫的过程中,总结了爬虫遇到的问题和解决办法。此外,文章利用Scrapy框架对程序进行了优化,提升了爬取效率。
-
关键词
聚焦爬虫
搜索策略
scrapy框架
全站爬取
分布式爬取
-
Keywords
focused crawler
search strategy
scratch framework
whole station crawling
distributed crawling
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名广域网分布式Web爬虫
被引量:25
- 4
-
-
作者
许笑
张伟哲
张宏莉
方滨兴
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《软件学报》
EI
CSCD
北大核心
2010年第5期1067-1082,共16页
-
基金
国家自然科学基金No.60703014
国家重点基础研究发展计划(973)No.G2005CB321806
+4 种基金
国家高技术研究发展计划(863)No.2009AA01Z437
高等学校博士学科点专项科研基金No.20070213044
中国博士后科学基金No.20070410263
黑龙江省博士后资助No.LBH-Z07108
哈尔滨工业大学优秀青年教师培养计划No.HITQNJS.2007.034~~
-
文摘
分析了广域网分布式Web爬虫相对于局域网爬虫的诸多优势,提出了广域网分布式Web爬虫的3个核心问题:Web划分、Agent协同和Agent部署.围绕这3个问题,对目前学术界和商业界出现的多种实现方案和策略进行了全面的综述,深入讨论了研究中遇到的问题与挑战,并论述了广域网分布式Web爬虫的评价模型.最后,对未来的研究方向进行了总结.
-
关键词
搜索引擎
广域网分布式爬虫
Web划分
AGENT协同
Agent部署
-
Keywords
search engine
WAN-based distributed crawling
Web partition
agent collaboration
agent deployment
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-