期刊文献+

MatchLink:一种主题爬行方法

MatchLink:A Focused Crawling Method
下载PDF
导出
摘要 为了在浩如烟海的Web信息中更快地找到用户关心的信息,提出了一种主题爬行方法——MatchLink,它通过文档向量模型来评估网页链接的主题相关度,通过朴素贝叶斯算法和多层分类的方法计算链接所在网页的主题相关度,并根据这2个相关度优先下载主题相关的页面,实验表明其结果好于BestFirst和BreadthFirst。 How to find what a user wants in tremendous amount of Web information is a great challenge to web search engine. By focusing downloading web pages on a given domain, focused crawlers can save a great deal of works and improve the quality of the information they provide. We put forward a method of focused crawling MatchLink. It uses document vector model to evaluate topic relevance of the anchor and uses Naive Bayes algorithm and multilayer classification method to compute the topic relevance of the web page containing the anchor. According to these two relevancies, topic relevant web pages have prior claim to be downloaded. Experiment shows that the result is better than BestFirst and BreadthFirst.
出处 《北京工业大学学报》 EI CAS CSCD 北大核心 2007年第11期1227-1232,共6页 Journal of Beijing University of Technology
关键词 主题爬行器 文档向量模型 朴素贝叶斯 search engines document handling Naive Bayes methods
  • 相关文献

参考文献8

  • 1朱华宇,孙正兴,张福炎.一个基于向量空间模型的中文文本自动分类系统[J].计算机工程,2001,27(2):15-17. 被引量:45
  • 2CRAVEN M, DIPASQUO D, FREITAG D, et al. Learning to construct knowledge bases from the world wide web[J]. Artificial Intelligence, 2000, 118: 69-113. 被引量:1
  • 3CHAKRABARTI S, VAN DEN BERG M, DOM B. Focused crawling: a new approach to topic-specific web resource discovery[J]. Computer Networks, 1999, 31(11-16): 1623-1640. 被引量:1
  • 4PORTER M F. An algorithm for suffix stripping[J]. Program, 1980, 14(3) : 130-137. 被引量:1
  • 5ALTINGOVDE I S, ULUSOY O. Exploiting interclass rules for focused crawling[J]. IEEE Intelligent Systems Archive, 2004, 19(6): 66-73. 被引量:1
  • 6CHO J, GARCIA-MOLINA H, PAGE L. Efficient crawling through URL ordering[J]. Computer Networks, 1998, 30(1- 7) : 161-172. 被引量:1
  • 7DILIGENTI M, COETZEE F M, LAWRENCE S, et al. Focused crawling using context graphs[C/OL] //The 26th International Conference on Very Large Databases. [ S. l. ] : [ s. n. ], 2000, [2006 - 05 - 05 ]. http://clgiles. ist. psu. edu/papers/ VLDB-2000- focused- crawling. pdf. 被引量:1
  • 8MOCALLUM A, NIGAM K, RENNIE J, et al. A machine learning approach to building domain-specific search engines[C/ OL]//The 6th International Joint Conference on Artificial Intelligence. [ S. l. ] : [ s. n. ]. 1999 [ 2006 - 05 - 01 ]. http: //www. kamalnigam. com/papers/cora-ijcai99. pdf. 被引量:1

二级参考文献7

  • 1邹涛.基于WWW的信息发现技术研究(博士学位论文)[M].南京:南京大学,1999.. 被引量:1
  • 2邹涛,博士学位论文,1999年 被引量:1
  • 3Yang Y,Information Retrieval J,1999年 被引量:1
  • 4Yang Y,INRT J,1998年 被引量:1
  • 5吴立德,大规模中文文本处理,1997年,7页 被引量:1
  • 6陈世福,人工智能与知识工程,1997年,391页 被引量:1
  • 7Yang Y,ACM Transactions on Information Systems,1994年 被引量:1

共引文献44

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部