基于Heritrix的网页内容过滤抓取

Web Content Filtering Grab Based on Heritrix

下载PDF

导出

摘要在深入研究开源网页爬虫——Heritrix系统框架和源代码的基础上,对其搜索内容和范围增加过滤处理功能。这些功能扩展的实现是通过面向对象分析与设计技术,定义类对Heritrix中相关的类进行继承。在校园网范围内运行Heritrix进行网页收集实验。实验结果表明,新增的过滤功能运行有效。 On the basis of in-depth study of the system framework of Web-Crawler, Heritrix and its source code, adds the filtering functions on its target contents as well as the search scope. Realizes the function expansion through object-oriented analysis and design techniques, and constructs some classes that inherit the related classes in Heritrix. Makes Website collection experiment by runnning Hertrix in the campus network, and the result shows that the newly additional functions run well.

作者陈锦伟徐勇

机构地区肇庆学院数学与信息计算科学学院

出处《现代计算机》 2012年第14期18-22,共5页 Modern Computer

关键词垂直搜索引擎网络爬虫 HERITRIX 内容过滤 Vertical Search Engine Web-Crawlers Heritrix Content Filtering

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Web Search Engine. http://en.wikipedia.org/wiki/Web_search engine. 被引量：1
2搜索引擎.http://baike.baidu.corn/view/1154.htm. 被引量：3
3Krol C.Specialization Comes to Search[J]. BtoB,2005,90(5):19. 被引量：1
4田野.垂直搜索火热为哪般[J].中国计算机用户,2005(37):11-11. 被引量：2
5黄蔚,刘忠,刘全.RL_Spider:一种自主垂直搜索引擎网络爬虫[J].计算机应用与软件,2011,28(12):183-187. 被引量：2
6罗立宏,陈志.基于语义分析的垂直搜索网络蜘蛛[J].计算机工程与设计,2008,29(18):4662-4665. 被引量：8
7张瑞.城市公交专题搜索引擎的实现[J].电脑知识与技术（过刊）,2010,0(30):8476-8477. 被引量：1
8白万民,苏希乐.Heritrix在垂直搜索引擎中的应用[J].计算机时代,2011(9):7-9. 被引量：7
9赵思佳,尹婷.基于规则引擎的个性化主题网页爬虫的研究[J].计算机技术与发展,2011,21(3):56-59. 被引量：3
10Web Crawler. http://en.wikipedia.org/wiki/Web_crawler. 被引量：1

二级参考文献33

1田野.垂直搜索火热为哪般[J].中国计算机用户,2005(37):11-11. 被引量：2
2刘伟.Java规则引擎——Drools的介绍及应用[J].微计算机应用,2005,26(6):717-721. 被引量：37
3邹娟,周经野,邓成.一种基于语义分析的中文特征值提取方法[J].计算机工程与应用,2005,41(36):164-166. 被引量：6
4陆宜梅.Web搜索技术现状分析[J].沈阳大学学报,2006,18(2):34-36. 被引量：6
5潘以锋.基于Lucene的网站全文检索系统的开发[J].广西教育学院学报,2006(5):63-66. 被引量：7
6钱兵,王永成,高凯.面向搜索引擎的自然语言理解的设计与实现[J].计算机应用研究,2006,23(12):260-262. 被引量：9
7Chakrabarti S,vail den Berg M.Dom B.Focused crawling:a new approach to topic-specific Web rcsource discovery[J].Computer Networks,1999,31(11-16):1623-1640. 被引量：1
8De Bra P M E,Post R D J.Information retrieval in the World-Wide web:making client-bated searching feasible[J].Computer Networks and ISDN Systems,1995,27(2):183-192. 被引量：1
9Phalp K T,Hendersonb P,Wahersb R J,et al.RolEnact:role-based enactable models of business processes[J].Information and Software Technology,1998,40(3):123-133. 被引量：1
10希顿,李纯,童兆丰,等.网络机器人Java编程指南[M].北京:电子工业出版社,2002. 被引量：1

共引文献19

1罗立宏,陈志.基于语义分析的垂直搜索网络蜘蛛[J].计算机工程与设计,2008,29(18):4662-4665. 被引量：8
2王琦,张戈,何婧.基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现[J].计算机时代,2010(2):12-14. 被引量：6
3陈诚.基于云计算的智慧城市垂直搜索技术研究[J].软件产业与工程,2012(4):24-30.
4刘丹,崔阳.基于B2B垂直搜索的网页信息抽取系统研究[J].计算机技术与发展,2013,23(2):153-156.
5韩文津.搜索引擎技木下的网络作品版权侵叔问题研究[J].决策与信息（下旬）,2013(1):118-118.
6刘高军,夏景隆.基于Heritrix的网络爬虫研究与应用[J].软件导刊,2013,12(5):123-125. 被引量：4
7赵永鑫,雷霖.Heritrix在电子信息垂直搜索平台中的应用[J].成都大学学报（自然科学版）,2013,32(2):156-158. 被引量：2
8陈莉莉,张丽,刘正龙.搜索引擎中基于状态的Ajax动态网页提取研究[J].计算机应用与软件,2013,30(7):217-220. 被引量：9
9王聪睿,张翠肖.一种基于本体的垂直搜索引擎系统模型[J].河北省科学院学报,2013,30(2):49-53.
10李晓红,张硕.借助互联网优化翻译[J].河北联合大学学报（社会科学版）,2013,13(6):146-148. 被引量：4

1胡辉,胡松,陈伽,蔡映雪,陈军,蔡昭权.网页内容过滤的关键技术分析[J].信息与电脑,2016,28(7):138-139.
2严灿勋,刘慧敏,宋兰.基于C#正则表达式的英汉翻译对抽取[J].科技信息,2011(26):1-2. 被引量：1
3曹海燕.网页爬虫系统的设计[J].中国科技博览,2015,0(5):226-226. 被引量：1
4花艳.面向对象分析与设计技术(OOA&D)及统一建模语言(UML)在产品结构管理中的应用[J].气象水文海洋仪器,2002,19(1):43-47. 被引量：1
5金指环GoldTach Pro2.2 Build 5006[J].新电脑,2004(6):112-112.
6飘零雪.MyIE2无法浏览某论坛的解决[J].电脑爱好者,2004(12).
7SonicWALL推出新一代网页内容过滤订制服务CFS 2.0[J].广东电脑与电讯,2003(08M):73-74.
8为上网行为把关[J].网管员世界,2008(2):6-6.
9Douglas Toombs,高斌(译者).八个非常酷的完整版免费资源——这里有我们为你的USB工具包最新收录的足以产生非凡效果的免费软件[J].Windows IT Pro Magazine（国际中文版）,2008(1):40-45.
10Before.网页广告巧替换[J].网友世界,2005(17):33-33.

现代计算机

2012年第14期

浏览历史

内容加载中请稍等...

基于Heritrix的网页内容过滤抓取

参考文献10

二级参考文献33

共引文献19

相关作者

相关机构

相关主题

浏览历史