期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于单类别文档分类的主题爬虫
被引量:
3
1
作者
方加沛
黄战
《计算机工程与应用》
CSCD
北大核心
2010年第16期63-66,共4页
主题爬虫设计中关于主题的确立可以采用手工设置关键词集的方法也可以采用构造分类器的方法。前者易于实现,但是依赖于专家的经验,具有关键词缺漏和权值量化不精确的缺点;而后者的主要缺点在于难以获取具有代表性的反例训练样本。针对...
主题爬虫设计中关于主题的确立可以采用手工设置关键词集的方法也可以采用构造分类器的方法。前者易于实现,但是依赖于专家的经验,具有关键词缺漏和权值量化不精确的缺点;而后者的主要缺点在于难以获取具有代表性的反例训练样本。针对上述情况,提出了一种基于单类别文档分类的主题爬虫,同时还将分类作用于超链接的anchor text。实验结果充分证明了该主题爬虫的可行性。
展开更多
关键词
搜索引擎
主题爬虫
单类别文档分类
信息提取
下载PDF
职称材料
题名
基于单类别文档分类的主题爬虫
被引量:
3
1
作者
方加沛
黄战
机构
暨南大学计算机科学系
出处
《计算机工程与应用》
CSCD
北大核心
2010年第16期63-66,共4页
基金
国家自然科学基金(No.60773083)~~
文摘
主题爬虫设计中关于主题的确立可以采用手工设置关键词集的方法也可以采用构造分类器的方法。前者易于实现,但是依赖于专家的经验,具有关键词缺漏和权值量化不精确的缺点;而后者的主要缺点在于难以获取具有代表性的反例训练样本。针对上述情况,提出了一种基于单类别文档分类的主题爬虫,同时还将分类作用于超链接的anchor text。实验结果充分证明了该主题爬虫的可行性。
关键词
搜索引擎
主题爬虫
单类别文档分类
信息提取
Keywords
manually
or
constructing
a
class
ifier.Although
the
former
can
be
easily
implemented
it
depends
on
the
expert's
experience
and
has
disadvantages
about
leaks
of
keywords
and
imprecise
quantification
of
the
keyword's
weight.The
major
defect
of
the
later
is
that
it
is
difficult
to
acquire
typical
negative
training
examples.To
solve
these
problems
a
focused
crawler
based
on
one
class
document
classification
is
proposed.The
classification
can
act
on
not
only
the
content
of
the
web
document
but
also
the
hyper-link's
anchor
text.The
result
of
the
experiments
shows
that
the
proposed
focused
crawler
is
feasible.Key
words:search
engine
focused
crawler
one
-
class
document
classification
information
extraction
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于单类别文档分类的主题爬虫
方加沛
黄战
《计算机工程与应用》
CSCD
北大核心
2010
3
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部