-
题名支持向量机在化学主题爬虫中的应用
被引量:8
- 1
-
-
作者
祝宇
夏诏杰
聂峰光
郭力
-
机构
中国科学院过程工程研究所多相反应实验室
中国科学院研究生院
-
出处
《计算机与应用化学》
CAS
CSCD
北大核心
2006年第4期329-332,共4页
-
基金
国家自然科学基金资助项目(20273076)
-
文摘
爬虫是搜索引擎的重要组成部分,它沿着网页中的超链接自动爬行,搜集各种资源。为了提高对特定主题资源的采集效率,文本分类技术被用来指导爬虫的爬行。本文把基于支持向量机的文本自动分类技术应用到化学主题爬虫中,通过SVM 分类器对爬行的网页进行打分,用于指导它爬行化学相关网页。通过与基于广度优先算法的非主题爬虫和基于关键词匹配算法的主题爬虫的比较,表明基于SVM分类器的主题爬虫能有效地提高针对化学Web资源的采集效率。
-
关键词
支持向量机(SVM)
化学主题爬虫
文本分类
搜索引擎
-
Keywords
support vector machine, chemistry focused crawler, text categorization, search engine
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名化学主题网络爬虫的设计和实现
被引量:6
- 2
-
-
作者
夏诏杰
梁春燕
郭力
-
机构
中国科学院过程工程所多相实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第10期204-205,229,共3页
-
基金
国家自然科学基金资助项目(编号:20273076)
-
文摘
由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。
-
关键词
主题爬虫
主题搜索引擎
化学主题网络爬虫
Widrow-Hoff
分类器
-
Keywords
focused crawler,topic search engine,chemistry focused crawler,Widrow-Hoff classifier
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-