MatchLink：一种主题爬行方法

MatchLink:A Focused Crawling Method

下载PDF

导出

摘要为了在浩如烟海的Web信息中更快地找到用户关心的信息,提出了一种主题爬行方法——MatchLink,它通过文档向量模型来评估网页链接的主题相关度,通过朴素贝叶斯算法和多层分类的方法计算链接所在网页的主题相关度,并根据这2个相关度优先下载主题相关的页面,实验表明其结果好于BestFirst和BreadthFirst。 How to find what a user wants in tremendous amount of Web information is a great challenge to web search engine. By focusing downloading web pages on a given domain, focused crawlers can save a great deal of works and improve the quality of the information they provide. We put forward a method of focused crawling MatchLink. It uses document vector model to evaluate topic relevance of the anchor and uses Naive Bayes algorithm and multilayer classification method to compute the topic relevance of the web page containing the anchor. According to these two relevancies, topic relevant web pages have prior claim to be downloaded. Experiment shows that the result is better than BestFirst and BreadthFirst.

作者蒋宗礼鲁国相

机构地区北京工业大学计算机学院

出处《北京工业大学学报》 EI CAS CSCD 北大核心 2007年第11期1227-1232,共6页 Journal of Beijing University of Technology

关键词主题爬行器文档向量模型朴素贝叶斯 search engines document handling Naive Bayes methods

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1朱华宇,孙正兴,张福炎.一个基于向量空间模型的中文文本自动分类系统[J].计算机工程,2001,27(2):15-17. 被引量：45
2CRAVEN M, DIPASQUO D, FREITAG D, et al. Learning to construct knowledge bases from the world wide web[J]. Artificial Intelligence, 2000, 118: 69-113. 被引量：1
3CHAKRABARTI S, VAN DEN BERG M, DOM B. Focused crawling: a new approach to topic-specific web resource discovery[J]. Computer Networks, 1999, 31(11-16): 1623-1640. 被引量：1
4PORTER M F. An algorithm for suffix stripping[J]. Program, 1980, 14(3) : 130-137. 被引量：1
5ALTINGOVDE I S, ULUSOY O. Exploiting interclass rules for focused crawling[J]. IEEE Intelligent Systems Archive, 2004, 19(6): 66-73. 被引量：1
6CHO J, GARCIA-MOLINA H, PAGE L. Efficient crawling through URL ordering[J]. Computer Networks, 1998, 30(1- 7) : 161-172. 被引量：1
7DILIGENTI M, COETZEE F M, LAWRENCE S, et al. Focused crawling using context graphs[C/OL] //The 26th International Conference on Very Large Databases. [ S. l. ] : [ s. n. ], 2000, [2006 - 05 - 05 ]. http://clgiles. ist. psu. edu/papers/ VLDB-2000- focused- crawling. pdf. 被引量：1
8MOCALLUM A, NIGAM K, RENNIE J, et al. A machine learning approach to building domain-specific search engines[C/ OL]//The 6th International Joint Conference on Artificial Intelligence. [ S. l. ] : [ s. n. ]. 1999 [ 2006 - 05 - 01 ]. http: //www. kamalnigam. com/papers/cora-ijcai99. pdf. 被引量：1

二级参考文献7

1邹涛.基于WWW的信息发现技术研究（博士学位论文）[M].南京：南京大学,1999.. 被引量：1
2邹涛，博士学位论文，1999年被引量：1
3Yang Y，Information Retrieval J，1999年被引量：1
4Yang Y，INRT J，1998年被引量：1
5吴立德，大规模中文文本处理，1997年，7页被引量：1
6陈世福，人工智能与知识工程，1997年，391页被引量：1
7Yang Y，ACM Transactions on Information Systems，1994年被引量：1

共引文献44

1杨丽华,李保林.邮件过滤系统中预处理方法的研究与实现[J].湖北汽车工业学院学报,2007,21(3):40-43. 被引量：2
2马建斌,滕桂法,李滢,赵洋.TSVM在电子邮件作者身份分类技术上的应用[J].河北工业大学学报,2005,34(z1):124-126.
3贝雨馨,崔荣一.文本分类中特征项权重的计算方法[J].延边大学学报（自然科学版）,2004,30(3):202-204. 被引量：9
4高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
5谭浩,贾自艳,史忠植.新闻专题的高效组织和生成新方法[J].科技导报,2004,22(7):48-51.
6许勇,宋柔.基于HMM的百科辞典文本中句子的知识点分类[J].计算机工程与应用,2005,41(4):35-37. 被引量：5
7李凡,林爱武,陈国社.一种基于VSM文本分类系统的设计与实现[J].华中科技大学学报（自然科学版）,2005,33(3):53-55. 被引量：19
8谭汉松,杨盛.电子邮件过滤新方法的研究与实现[J].微型电脑应用,2005,21(4):15-16.
9谭汉松,杨盛.电子邮件过滤新方法的研究与实现[J].微机发展,2005,15(5):152-154. 被引量：1
10包金龙.基于向量空间模型的信息检索系统的设计[J].情报杂志,2005,24(7):44-45. 被引量：16

1李春旺.基于OSS的主题搜索引擎设计与实现[J].现代图书情报技术,2007(1):49-52. 被引量：1
2李晓亚,赫枫龄,左万利.基于网页分块技术主题爬行器的实现[J].吉林大学学报（理学版）,2007,45(6):959-965. 被引量：4
3朱红斌,蔡郁.基于支持向量机的多层分类入侵检测系统研究[J].丽水学院学报,2008,30(2):54-57.
4高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
5孙钢,张彬,郭军.一种多层分类的入侵检测系统[J].计算机工程与应用,2003,39(26):24-27. 被引量：1
6徐川龙,顾勤龙,姚明海.一种基于三维加速度传感器的人体行为识别方法[J].计算机系统应用,2013,22(6):132-135. 被引量：32
7徐炳雪,史建华,钱俊臣,赵玉铎,倪健.基于加速度传感器的人体行为识别系统的设计与实现[J].电脑开发与应用,2014,27(12):55-57. 被引量：1
8李巍,孙涛,叶苑苑,李雄飞,李楠.基于冰冻结构的XML文档聚类研究[J].吉林大学学报（信息科学版）,2009,27(6):611-618. 被引量：1
9计算机软件[J].中国学术期刊文摘,2008,14(6):174-177.
10李巍,孙涛,陈建孝,罗梓恒,李雄飞.基于加权余弦相似度的XML文档聚类研究[J].吉林大学学报（信息科学版）,2010,28(1):68-76. 被引量：10

北京工业大学学报

2007年第11期

浏览历史

内容加载中请稍等...

MatchLink：一种主题爬行方法

参考文献8

二级参考文献7

共引文献44

相关作者

相关机构

相关主题

浏览历史