期刊文献+

面向垂直搜索引擎的Web站点划分方案 被引量:4

Web Site Partition Scheme for Vertical Search Engine
下载PDF
导出
摘要 分析传统搜索引擎分配任务的方式及存在的问题,根据垂直搜索引擎的特点,提出一种比传统方法粒度更细的任务分配方式——网站划分。该分配方式将较大规模的网站切分为若干较小规模的子集,并将子集交给若干爬虫节点并行抓取,以加快爬虫系统的整体获取速率,作为对传统方法的有效优化。将网站划分算法应用于样本数据集,验证其有效性。 In allusion to the problem of traditional search engines' task allocating methods,a new fine-grained method called Web site partition is presented,which is as an effective optimization of the traditional method adopted by vertical search engines.This method divides large-scale Web sites into a number of smaller subsets,so that several crawlers can parallel crawl each subset in order to accelerate the overall downloading progress.The proposed algorithm is proved to be effective against the sample data sets.
出处 《计算机工程》 CAS CSCD 北大核心 2010年第8期275-277,共3页 Computer Engineering
基金 国家自然科学基金资助项目(60703014) 国家"973"计划基金资助项目(G2005CB321806) 高等学校博士学科点专项科研基金资助项目(20070213044) 哈尔滨工业大学优秀青年教师培养计划基金资助项目(HITQNJS2007034)
关键词 垂直搜索引擎 任务分配 网站划分 爬虫 vertical search engine task allocation Web site partition crawler
  • 相关文献

参考文献5

  • 1Cho J.Parallel Crawlers[Z].(2002-05-11).http://www2002.org/ CDROM/refereed/108/. 被引量:1
  • 2Karger D,Lehman E,Leighton T,et al.Consistent Hashing and Random Trees:Distributed Caching Protocols for Relieving Hot Spots on the World Wide Web[C]//Proc.of STOC'97.New York,NY,USA:ACM Press,1997. 被引量:1
  • 3Chakrabarti S,Berg M,Dom B.Focused Crawling:a New Approach to Topic-specific Web Resource Discovery[J].Computer Networks,1999,31(11):1623-1640. 被引量:1
  • 4Davison B D.Topical Locality in the Web[C]//Proceedings of the 23rd Annual International Conference on Research and Development in Information Retrieval.New York,NY,USA:ACM Press,2000. 被引量:1
  • 5李晓明,闫宏飞,王继民著..搜索引擎 原理、技术与系统[M].北京:科学出版社,2005:248.

同被引文献14

引证文献4

二级引证文献7

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部