期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
定题搜索引擎Robot的设计与算法 被引量:9
1
作者 龙宇巍 王永成 许欢庆 《计算机仿真》 CSCD 2004年第4期69-72,76,共5页
定题搜索引擎将信息检索限定在特定主题领域 ,提供特定主题的信息检索服务 ,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat2 .0 2版 ,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关... 定题搜索引擎将信息检索限定在特定主题领域 ,提供特定主题的信息检索服务 ,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat2 .0 2版 ,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关信息的搜索及网页相关度分析。该文分析了传统定题搜索算法的优缺点 ,提出了基于反向链接结合超链文本分析的定题搜索算法。文章还对基于内容的网页相关度分析算法进行了详细的论述。对比搜索实验表明系统有着较好的性能 。 展开更多
关键词 定题搜索 搜索引擎 ROBOT 相关度分析 爬行算法 信息检索
下载PDF
有效的爬行Ajax页面的网络爬行算法 被引量:5
2
作者 李华波 吴礼发 +2 位作者 赖海光 郑成辉 黄康宇 《电子科技大学学报》 EI CAS CSCD 北大核心 2013年第1期115-120,共6页
Ajax页面的生成和页面导航需要执行客户端的JavaScript代码,传统网络爬行算法无法获取Ajax页面全部内容。分析了Ajax的工作方式,阐述了爬行Ajax网页所面临的主要问题,提出并实现了一种有效爬行Ajax页面的网络爬行算法。该算法可控制客... Ajax页面的生成和页面导航需要执行客户端的JavaScript代码,传统网络爬行算法无法获取Ajax页面全部内容。分析了Ajax的工作方式,阐述了爬行Ajax网页所面临的主要问题,提出并实现了一种有效爬行Ajax页面的网络爬行算法。该算法可控制客户端浏览器动态生成页面内容和完成页面导航,为爬行过的页面分配标识编号并生成相应静态页面。实验结果表明,提出的算法所爬行的Ajax页面数量明显多于传统方法,同时,采用的双重消重策略可有效减少算法的时间耗费。 展开更多
关键词 AJAX 爬行算法 消重策略 搜索引擎
下载PDF
基于网页内容块策略的主题爬行 被引量:2
3
作者 吴晓平 张长利 朱丽娜 《计算机工程与应用》 CSCD 北大核心 2008年第9期143-146,共4页
因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。Web主题信息搜索系统(网络蜘蛛)是主题搜索引擎的最主要的部分,它的任务是将搜集到的符合要求的Web页面返回给用户或保存... 因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。Web主题信息搜索系统(网络蜘蛛)是主题搜索引擎的最主要的部分,它的任务是将搜集到的符合要求的Web页面返回给用户或保存在索引库中。Web上的信息资源如此广泛,如何全面而高效地搜集到感兴趣的内容是网络蜘蛛的研究重点。提出了基于网页分块技术的主题爬行,实验结果表明,相对于其它的爬行算法,提出的算法具有较高的效率、爬准率、爬全率及穿越隧道的能力。 展开更多
关键词 定题搜索 主题爬行 搜索引擎 爬行算法 相关度分析
下载PDF
主题爬行策略与算法研究综述 被引量:1
4
作者 张立杰 《图书情报工作》 CSSCI 北大核心 2011年第18期112-115,40,共5页
主题爬行是专业搜索引擎的基础,爬行策略与爬行算法是主题爬行技术的核心,通过分析主题爬行的基本原理,对爬行策略与爬行算法进行分类比较,展示爬行策略与爬行算法的研究进展及当前研究热点,为主题爬行技术的进一步研究提供参考。
关键词 搜索引擎 主题爬行 爬行策略 爬行算法
原文传递
基于网页分块技术的主题爬行
5
作者 张忠元 王洪肖 《中国高新技术企业》 2008年第16期122-122,138,共2页
因特网的迅速发展对网上信息的查找与发现提出了巨大的挑战。本文提出了面向主题的主题爬行器的研究。主题搜索技术将信息检索限定在特定主题领域,提供特定主题的信息检索服务,是新一代搜索引擎的发展方向之一。本系统介绍了一种对网页... 因特网的迅速发展对网上信息的查找与发现提出了巨大的挑战。本文提出了面向主题的主题爬行器的研究。主题搜索技术将信息检索限定在特定主题领域,提供特定主题的信息检索服务,是新一代搜索引擎的发展方向之一。本系统介绍了一种对网页自动分块的方法,实现了一个定题搜索系统Crawler,它可以实现在web上爬行下载主题相关网页。 展开更多
关键词 定题搜索 主题爬行 搜索引擎 爬行算法 相关度分析
下载PDF
Deep Web爬虫爬行策略研究 被引量:13
6
作者 郑冬冬 崔志明 《计算机工程与设计》 CSCD 北大核心 2006年第17期3154-3158,共5页
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供... 如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的DeepWeb爬虫,它可以自动发现和下载DeepWeb页面。由于DeepWeb惟一“入口点”是查询接口,DeepWeb爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。 展开更多
关键词 DEEP WEB DEEP WEB爬虫 查询选择 查询效能 适应性爬行算法
下载PDF
基于爬虫的智能爬行算法研究 被引量:5
7
作者 侯美静 崔艳鹏 胡建伟 《计算机应用与软件》 北大核心 2018年第11期215-219,277,共6页
为了提高漏洞巡检的效率,过滤掉大部分结构相似的网页,提出一种智能爬行算法。对爬取过程中URL去重,丢弃重复的URL;计算两个URL对应页面的相似度值,具体是将页面解析成DOM树,根据节点的位置、DOM树的深度以及深度相同的节点数量,将权重... 为了提高漏洞巡检的效率,过滤掉大部分结构相似的网页,提出一种智能爬行算法。对爬取过程中URL去重,丢弃重复的URL;计算两个URL对应页面的相似度值,具体是将页面解析成DOM树,根据节点的位置、DOM树的深度以及深度相同的节点数量,将权重分配给每个节点,再根据给定的公式计算网页的相似度;以相似度为基础,使用聚合式层次聚类思想将具有相似结构的网页聚为一组,每组只留下一个网页,达到去除大部分结构相似的网页的目的。实验结果表明,该智能爬行算法可以有效地减少结构相似的网页,提高漏洞巡检系统的巡检效率。 展开更多
关键词 爬虫 智能爬行算法 URL去重 相似度 聚类
下载PDF
爬行虫算法设计与程序实现 被引量:14
8
作者 杜亚军 严兵 宋亮 《计算机应用》 CSCD 北大核心 2004年第1期33-35,共3页
爬行虫算法是搜索引擎探讨的热点。通过分析现有爬行虫算法设计和程序实现的主要方式 ,权衡其利弊 ,总结出一个适合于中小型网站网页下载的爬行虫算法。并使用jBuider8.0工具实现了该算法。通过实验分析 ,该程序下载的网页数的速度为 18... 爬行虫算法是搜索引擎探讨的热点。通过分析现有爬行虫算法设计和程序实现的主要方式 ,权衡其利弊 ,总结出一个适合于中小型网站网页下载的爬行虫算法。并使用jBuider8.0工具实现了该算法。通过实验分析 ,该程序下载的网页数的速度为 1882 4 2个网页 /分和 4 1.92 74 .5 9KB/秒。 展开更多
关键词 爬行算法 爬行虫程序 搜索引擎
下载PDF
基于AJAX应用程序的爬行测试算法
9
作者 高秀慧 高建华 《计算机工程与设计》 CSCD 北大核心 2014年第2期493-498,共6页
为了解决AJAX技术带来的测试新问题,针对流行的爬行算法进行了改进。通过捕获用户界面的状态以及改变状态的转换条件,从而推导出状态流程图。利用推导出的状态流程图,提出使用K最短路径算出多条最短路径作为测试集;设计合并测试路径的... 为了解决AJAX技术带来的测试新问题,针对流行的爬行算法进行了改进。通过捕获用户界面的状态以及改变状态的转换条件,从而推导出状态流程图。利用推导出的状态流程图,提出使用K最短路径算出多条最短路径作为测试集;设计合并测试路径的方法缩减测试集,减少测试集的生成,并同时保证测试覆盖率。通过结合实例,在不同位置注入故障的方法对算法进行了数据分析,分析结果表明该方法的可行性和实用性,为AJAX应用程序的测试提供了更有效的解决途径。 展开更多
关键词 AJAX应用程序 自动化测试 测试路径 爬行捕获算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部