期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于爬虫的智能爬行算法研究 被引量:5
1
作者 侯美静 崔艳鹏 胡建伟 《计算机应用与软件》 北大核心 2018年第11期215-219,277,共6页
为了提高漏洞巡检的效率,过滤掉大部分结构相似的网页,提出一种智能爬行算法。对爬取过程中URL去重,丢弃重复的URL;计算两个URL对应页面的相似度值,具体是将页面解析成DOM树,根据节点的位置、DOM树的深度以及深度相同的节点数量,将权重... 为了提高漏洞巡检的效率,过滤掉大部分结构相似的网页,提出一种智能爬行算法。对爬取过程中URL去重,丢弃重复的URL;计算两个URL对应页面的相似度值,具体是将页面解析成DOM树,根据节点的位置、DOM树的深度以及深度相同的节点数量,将权重分配给每个节点,再根据给定的公式计算网页的相似度;以相似度为基础,使用聚合式层次聚类思想将具有相似结构的网页聚为一组,每组只留下一个网页,达到去除大部分结构相似的网页的目的。实验结果表明,该智能爬行算法可以有效地减少结构相似的网页,提高漏洞巡检系统的巡检效率。 展开更多
关键词 爬虫 智能爬行算法 url去重 相似度 聚类
下载PDF
基于Scrapy框架的校园搜索引擎设计 被引量:1
2
作者 马威 《科技创新与应用》 2020年第14期84-85,共2页
近年来随着数字化校园建设进度的加快,高校校园网站中的信息不断增加。校园网用户量和问题数量的增加导致查找和索引信息变得困难,用户搜索服务的准确率得不到保障。文章基于Scrapy框架对校园搜索引擎进行设计,利用URL去重策略来提升校... 近年来随着数字化校园建设进度的加快,高校校园网站中的信息不断增加。校园网用户量和问题数量的增加导致查找和索引信息变得困难,用户搜索服务的准确率得不到保障。文章基于Scrapy框架对校园搜索引擎进行设计,利用URL去重策略来提升校园信息的查询效率,使搜索结果达到满意期望值。 展开更多
关键词 搜索引擎 Scrapy框架 url去重
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部