期刊文献+

一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例 被引量:5

下载PDF
导出
摘要 以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。
出处 《软件导刊》 2010年第5期47-49,共3页 Software Guide
  • 相关文献

参考文献2

二级参考文献10

共引文献8

同被引文献17

  • 1曹红,袁津生.林业主题搜索引擎研究[J].计算机应用,2004,24(B12):321-323. 被引量:8
  • 2吴金红,张玉峰,王翠波.面向主题的网络竞争情报采集系统[J].现代图书情报技术,2006(12):54-57. 被引量:18
  • 3Brin S., Page L., 1998. The anatomy of a large-scale hypertexual Web search engine. See: B. Furht. Proc. of the 7th World Web Conference, Brisbane [sn]. 30 (1): 107-117. 被引量:1
  • 4Cho J., Garciam H., Page L., 1998. Efficient crawling through URL ordering. See: Computer Networks and ISDN Systems. 30 (17): 161-172. 被引量:1
  • 5Debra P., HouBen G., Kornatzky Y. et al., 1994. Information retrieval in distributed hypertexts. See: M. Diligenti. Proc. of the 4th Riao Conference, NewYork. 23 (25): 481-491. 被引量:1
  • 6Hersovicim, Jacovim, Maarekys, 1998. The Shark-Search algorithm: an application tailored Web sitemapping. See: H. Philip. Proc. of the 7th International World Wide Web Conference, Brisbane [sn]. 2 (10): 65-74. 被引量:1
  • 7Hersovici M,Jacovi M,Maarek Y,et a1. The shark-search algorithm an application:Tailored web site mapping[EB/OL].http://www7.scu.edu.au/1849/coml849.htm,2010. 被引量:1
  • 8Srinivasan E,Menczer F,Pant G. A general evaluation framework for topical crawlers[J].Information Retrieval,2005,(03):417-447. 被引量:1
  • 9Hersovici M,Jacovi M,Maarek Y,et al. The sharksearch algorithm an application:Tailored web site mapping[EB/OL] (2010)[2013-05-01]. http://www7.scu.edu.au/1849/com1849. htm,2010. 被引量:1
  • 10唐崇忻.面向华文教育主题的专业搜索引擎的研究与设计[J].晋图学刊,2007(6):38-41. 被引量:1

引证文献5

二级引证文献8

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部