期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
Nutch分布式网络爬虫研究与优化 被引量:21
1
作者 詹恒飞 杨岳湘 方宏 《计算机科学与探索》 CSCD 2011年第1期68-74,共7页
Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引。介绍了Nu... Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引。介绍了Nutch基于Hadoop下的分布式网络爬虫工作机制,指出其不足之处,并提出了改进方案,从而使网络爬虫能够更加高效地利用网络资源来抓取网络数据。经过实验测试,证明了此方案比原方案更加高效。 展开更多
关键词 Nutch搜索引擎 网络爬虫 弹性抓取机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部