期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
用户定制主题聚焦爬虫的设计与实现 被引量:8
1
作者 闵钰麟 黄永峰 《计算机工程与设计》 北大核心 2015年第1期17-21,共5页
传统的聚焦爬虫在主题未知或者缺少相应训练集的情况下无法完成主题爬行。为让聚焦爬虫具有更好的主题适应性,提出基于聚类算法的自适应主题模型,指导聚焦爬虫在只有少量相同主题(主题未知)初始url的情况下完成主题爬行。通过对初始页... 传统的聚焦爬虫在主题未知或者缺少相应训练集的情况下无法完成主题爬行。为让聚焦爬虫具有更好的主题适应性,提出基于聚类算法的自适应主题模型,指导聚焦爬虫在只有少量相同主题(主题未知)初始url的情况下完成主题爬行。通过对初始页面聚类得到主题中心向量,寻找相关网页更新主题中心位置;基于best-first策略实现url排序;基于该模型实现用户定制主题聚焦爬虫。通过对比实验验证了使用该模型的爬虫具有较高的收获比(havest rate)。 展开更多
关键词 聚焦爬虫 K-MEANS best-first策略 适应主题模型 用户定制主题爬虫
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部