期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
用户定制主题聚焦爬虫的设计与实现
被引量:
8
1
作者
闵钰麟
黄永峰
《计算机工程与设计》
北大核心
2015年第1期17-21,共5页
传统的聚焦爬虫在主题未知或者缺少相应训练集的情况下无法完成主题爬行。为让聚焦爬虫具有更好的主题适应性,提出基于聚类算法的自适应主题模型,指导聚焦爬虫在只有少量相同主题(主题未知)初始url的情况下完成主题爬行。通过对初始页...
传统的聚焦爬虫在主题未知或者缺少相应训练集的情况下无法完成主题爬行。为让聚焦爬虫具有更好的主题适应性,提出基于聚类算法的自适应主题模型,指导聚焦爬虫在只有少量相同主题(主题未知)初始url的情况下完成主题爬行。通过对初始页面聚类得到主题中心向量,寻找相关网页更新主题中心位置;基于best-first策略实现url排序;基于该模型实现用户定制主题聚焦爬虫。通过对比实验验证了使用该模型的爬虫具有较高的收获比(havest rate)。
展开更多
关键词
聚焦爬虫
K-MEANS
best-first策略
自
适应
主题
模型
用户定制
主题
爬虫
下载PDF
职称材料
题名
用户定制主题聚焦爬虫的设计与实现
被引量:
8
1
作者
闵钰麟
黄永峰
机构
清华大学电子工程系信息认知与智能系统研究所
清华大学信息科学与技术国家实验室
出处
《计算机工程与设计》
北大核心
2015年第1期17-21,共5页
基金
国家863高技术研究发展计划基金项目(2012AA011004)
清华大学自主科研基金项目(20111081023)
国家基金委前瞻计划基金项目(61161140454)
文摘
传统的聚焦爬虫在主题未知或者缺少相应训练集的情况下无法完成主题爬行。为让聚焦爬虫具有更好的主题适应性,提出基于聚类算法的自适应主题模型,指导聚焦爬虫在只有少量相同主题(主题未知)初始url的情况下完成主题爬行。通过对初始页面聚类得到主题中心向量,寻找相关网页更新主题中心位置;基于best-first策略实现url排序;基于该模型实现用户定制主题聚焦爬虫。通过对比实验验证了使用该模型的爬虫具有较高的收获比(havest rate)。
关键词
聚焦爬虫
K-MEANS
best-first策略
自
适应
主题
模型
用户定制
主题
爬虫
Keywords
focused crawler
k-meansl best-first strategy
adaptive topic model
user customized topic focused crawler
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
用户定制主题聚焦爬虫的设计与实现
闵钰麟
黄永峰
《计算机工程与设计》
北大核心
2015
8
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部