-
题名Nutch分布式网络爬虫研究与优化
被引量:21
- 1
-
-
作者
詹恒飞
杨岳湘
方宏
-
机构
国防科学技术大学计算机学院
国防科学技术大学信息中心
-
出处
《计算机科学与探索》
CSCD
2011年第1期68-74,共7页
-
基金
湖南省自然科学基金No.07555084
广东省科技计划项目No.2009B080701031~~
-
文摘
Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引。介绍了Nutch基于Hadoop下的分布式网络爬虫工作机制,指出其不足之处,并提出了改进方案,从而使网络爬虫能够更加高效地利用网络资源来抓取网络数据。经过实验测试,证明了此方案比原方案更加高效。
-
关键词
nutch搜索引擎
网络爬虫
弹性抓取机制
-
Keywords
nutch
Web crawler
flexible crawling
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名Nutch中网页排序效果的改进方法
被引量:6
- 2
-
-
作者
潘涛
梁正友
-
机构
广西大学计算机与电子信息学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第13期42-44,共3页
-
基金
广西自然科学基金资助项目(桂科自0832059)
-
文摘
Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的Nutch具有更高的查询结果准确率和中文网页排序效果。
-
关键词
nutch搜索引擎
MAPREDUCE模型
PAGERANK算法
JE中文分词器
-
Keywords
nutch search engine
MapReduce model
PageRank algorithm
JE Chinese word segmentation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名Nutch中PageRank的并行实现
被引量:4
- 3
-
-
作者
梁正友
潘涛
-
机构
广西大学计算机与电子信息学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2010年第20期4354-4356,4409,共4页
-
基金
广西科学基金项目(桂科自0832059)
-
文摘
针对目前Nutch搜索引擎中没有实现PageRank计算的缺憾,在分析和研究经典PageRank算法的基础上,通过设置控制站外与站内链接的比重因子对该算法进行了改进。利用MapReduce处理大数据集的优势,在Nutch机群系统上设计并实现了基于MapReduce的PageRank分布式并行算法。实验结果表明,处理的数据量越大,机群中的节点越多,计算PageRank的效率越高;另外,该分布式并行算法具有较好的可扩展性。
-
关键词
nutch搜索引擎
PAGERANK算法
MAPREDUCE模型
机群
并行计算
-
Keywords
nutch search engine PageRank algorithm MapReduce model compute clusters parallel computation
-
分类号
TP338.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于Nutch的个性化搜索引擎的研究与探讨
被引量:3
- 4
-
-
作者
严春来
-
机构
攀枝花学院数学与计算机学院
-
出处
《电脑编程技巧与维护》
2014年第4期4-5,共2页
-
文摘
提出了一个基于Nutch开源搜索引擎扩展和改进的解决方案。在Nutch+Lucene+Tomcat+Sqlsever架构框架下用户进行个性化资源采集配置从而获得一个定向数据采集的搜索引擎。
-
关键词
nutch搜索引擎
定向数据采集
个性化
-
Keywords
nutch Search Engine, Collection of data directed
Personalized
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于开源搜索引擎Nutch的研究与实现
- 5
-
-
作者
王然
程晓荣
-
机构
华北电力大学控制与计算机工程学院
-
出处
《电脑编程技巧与维护》
2015年第19期20-20,54,共2页
-
文摘
Nutch是一个Java实现的开源搜索引擎。对开源搜索引擎Nutch存在的中文分词和页面排序问题进行分析,给出了改进方法。结合Paoding分词算法对Nutch中文分词器进行改进,利用Page Rank排序算法改进了Nutch评分机制。
-
关键词
nutch搜索引擎
中文分词
PAGE
Rank算法
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Nutch的XML网站全文搜索引擎实现
被引量:5
- 6
-
-
作者
吴敏琦
丁岳伟
-
机构
上海理工大学计算机工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第15期95-96,107,共3页
-
文摘
普通搜索引擎的网页抓取程序只能理解常见HTML标签,无法对XML网站的内容做有效解析。该文建立一个包含动态自定义标签的纯XML网站,提出借助XSL样式信息帮助网页抓取程序理解XML网页标签含义的方案,实现了基于Nutch的XML网站全文搜索引擎。
-
关键词
XML信息检索
可扩展样式表语言转换
基于nutch的搜索引擎
-
Keywords
XML information retrieval
eXtensible Stylesheet Language Transformations(XSLT)
search engine based on nutch
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-