期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
面向主题爬取的多粒度URLs优先级计算方法 被引量:1
1
作者 陈竹敏 马军 +1 位作者 韩晓晖 雷景生 《中文信息学报》 CSCD 北大核心 2009年第3期31-38,共8页
垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法;对... 垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法;对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法。在此基础上,提出基于上述方法的主题爬取算法。实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法。 展开更多
关键词 计算机应用 中文信息处理 主题爬取 优先级计算 网页分块 相关度计算
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部