摘要
分析传统搜索引擎分配任务的方式及存在的问题,根据垂直搜索引擎的特点,提出一种比传统方法粒度更细的任务分配方式——网站划分。该分配方式将较大规模的网站切分为若干较小规模的子集,并将子集交给若干爬虫节点并行抓取,以加快爬虫系统的整体获取速率,作为对传统方法的有效优化。将网站划分算法应用于样本数据集,验证其有效性。
In allusion to the problem of traditional search engines' task allocating methods,a new fine-grained method called Web site partition is presented,which is as an effective optimization of the traditional method adopted by vertical search engines.This method divides large-scale Web sites into a number of smaller subsets,so that several crawlers can parallel crawl each subset in order to accelerate the overall downloading progress.The proposed algorithm is proved to be effective against the sample data sets.
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第8期275-277,共3页
Computer Engineering
基金
国家自然科学基金资助项目(60703014)
国家"973"计划基金资助项目(G2005CB321806)
高等学校博士学科点专项科研基金资助项目(20070213044)
哈尔滨工业大学优秀青年教师培养计划基金资助项目(HITQNJS2007034)
关键词
垂直搜索引擎
任务分配
网站划分
爬虫
vertical search engine
task allocation
Web site partition
crawler