-
题名基于爬虫的智能爬行算法研究
被引量:5
- 1
-
-
作者
侯美静
崔艳鹏
胡建伟
-
机构
西安电子科技大学网络与信息安全学院
-
出处
《计算机应用与软件》
北大核心
2018年第11期215-219,277,共6页
-
文摘
为了提高漏洞巡检的效率,过滤掉大部分结构相似的网页,提出一种智能爬行算法。对爬取过程中URL去重,丢弃重复的URL;计算两个URL对应页面的相似度值,具体是将页面解析成DOM树,根据节点的位置、DOM树的深度以及深度相同的节点数量,将权重分配给每个节点,再根据给定的公式计算网页的相似度;以相似度为基础,使用聚合式层次聚类思想将具有相似结构的网页聚为一组,每组只留下一个网页,达到去除大部分结构相似的网页的目的。实验结果表明,该智能爬行算法可以有效地减少结构相似的网页,提高漏洞巡检系统的巡检效率。
-
关键词
爬虫
智能爬行算法
url去重
相似度
聚类
-
Keywords
Crawler
Intelligent crawling algorithm
url deduplication
Similarity
Clustering
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于Scrapy框架的校园搜索引擎设计
被引量:1
- 2
-
-
作者
马威
-
机构
广东技术师范大学电子与信息学院
-
出处
《科技创新与应用》
2020年第14期84-85,共2页
-
文摘
近年来随着数字化校园建设进度的加快,高校校园网站中的信息不断增加。校园网用户量和问题数量的增加导致查找和索引信息变得困难,用户搜索服务的准确率得不到保障。文章基于Scrapy框架对校园搜索引擎进行设计,利用URL去重策略来提升校园信息的查询效率,使搜索结果达到满意期望值。
-
关键词
搜索引擎
Scrapy框架
url去重
-
Keywords
search engine
Scrapy framework
url deduplication
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-