-
题名基于数据挖掘的主题种子站点提取器的研究
被引量:6
- 1
-
-
作者
胡晟
季志远
程晓荣
-
机构
华北电力大学控制与计算机工程学院
-
出处
《软件》
2013年第2期56-57,64,共3页
-
文摘
近年来,主题搜索引擎由于其在主题上的高相关性,使搜索结果的查准率得到了极大的提高,然而由于受到主题爬虫的限制,可选的种子站点的有效数量较少,使得搜索反馈的结果的数量不够多,直接影响到了搜索引擎的查全率。本文为解决这个问题,结合元搜索引擎的优势,提出一种通过多搜索引擎来为主题爬虫提供种子站点的方法,并通过计算相关度,更有效地去除噪音链接,使得种子站点的相关性得到保障,最后通过Nutch1.2的主题爬虫功能,验证了本种子站点提取器能够高效地获得大量相关度较高的种子站点。
-
关键词
WEB信息检索
数据挖掘
主题搜索
-
Keywords
Web Information Retrieval
Data Mining
topic-focus search
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-