期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
9
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
定题搜索引擎Robot的设计与算法
被引量:
9
1
作者
龙宇巍
王永成
许欢庆
《计算机仿真》
CSCD
2004年第4期69-72,76,共5页
定题搜索引擎将信息检索限定在特定主题领域 ,提供特定主题的信息检索服务 ,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat2 .0 2版 ,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关...
定题搜索引擎将信息检索限定在特定主题领域 ,提供特定主题的信息检索服务 ,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat2 .0 2版 ,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关信息的搜索及网页相关度分析。该文分析了传统定题搜索算法的优缺点 ,提出了基于反向链接结合超链文本分析的定题搜索算法。文章还对基于内容的网页相关度分析算法进行了详细的论述。对比搜索实验表明系统有着较好的性能 。
展开更多
关键词
定题搜索
搜索引擎
ROBOT
相关度分析
爬行
算法
信息检索
下载PDF
职称材料
有效的爬行Ajax页面的网络爬行算法
被引量:
5
2
作者
李华波
吴礼发
+2 位作者
赖海光
郑成辉
黄康宇
《电子科技大学学报》
EI
CAS
CSCD
北大核心
2013年第1期115-120,共6页
Ajax页面的生成和页面导航需要执行客户端的JavaScript代码,传统网络爬行算法无法获取Ajax页面全部内容。分析了Ajax的工作方式,阐述了爬行Ajax网页所面临的主要问题,提出并实现了一种有效爬行Ajax页面的网络爬行算法。该算法可控制客...
Ajax页面的生成和页面导航需要执行客户端的JavaScript代码,传统网络爬行算法无法获取Ajax页面全部内容。分析了Ajax的工作方式,阐述了爬行Ajax网页所面临的主要问题,提出并实现了一种有效爬行Ajax页面的网络爬行算法。该算法可控制客户端浏览器动态生成页面内容和完成页面导航,为爬行过的页面分配标识编号并生成相应静态页面。实验结果表明,提出的算法所爬行的Ajax页面数量明显多于传统方法,同时,采用的双重消重策略可有效减少算法的时间耗费。
展开更多
关键词
AJAX
爬行
算法
消重策略
搜索引擎
下载PDF
职称材料
基于网页内容块策略的主题爬行
被引量:
2
3
作者
吴晓平
张长利
朱丽娜
《计算机工程与应用》
CSCD
北大核心
2008年第9期143-146,共4页
因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。Web主题信息搜索系统(网络蜘蛛)是主题搜索引擎的最主要的部分,它的任务是将搜集到的符合要求的Web页面返回给用户或保存...
因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。Web主题信息搜索系统(网络蜘蛛)是主题搜索引擎的最主要的部分,它的任务是将搜集到的符合要求的Web页面返回给用户或保存在索引库中。Web上的信息资源如此广泛,如何全面而高效地搜集到感兴趣的内容是网络蜘蛛的研究重点。提出了基于网页分块技术的主题爬行,实验结果表明,相对于其它的爬行算法,提出的算法具有较高的效率、爬准率、爬全率及穿越隧道的能力。
展开更多
关键词
定题搜索
主题
爬行
搜索引擎
爬行
算法
相关度分析
下载PDF
职称材料
主题爬行策略与算法研究综述
被引量:
1
4
作者
张立杰
《图书情报工作》
CSSCI
北大核心
2011年第18期112-115,40,共5页
主题爬行是专业搜索引擎的基础,爬行策略与爬行算法是主题爬行技术的核心,通过分析主题爬行的基本原理,对爬行策略与爬行算法进行分类比较,展示爬行策略与爬行算法的研究进展及当前研究热点,为主题爬行技术的进一步研究提供参考。
关键词
搜索引擎
主题
爬行
爬行
策略
爬行
算法
原文传递
基于网页分块技术的主题爬行
5
作者
张忠元
王洪肖
《中国高新技术企业》
2008年第16期122-122,138,共2页
因特网的迅速发展对网上信息的查找与发现提出了巨大的挑战。本文提出了面向主题的主题爬行器的研究。主题搜索技术将信息检索限定在特定主题领域,提供特定主题的信息检索服务,是新一代搜索引擎的发展方向之一。本系统介绍了一种对网页...
因特网的迅速发展对网上信息的查找与发现提出了巨大的挑战。本文提出了面向主题的主题爬行器的研究。主题搜索技术将信息检索限定在特定主题领域,提供特定主题的信息检索服务,是新一代搜索引擎的发展方向之一。本系统介绍了一种对网页自动分块的方法,实现了一个定题搜索系统Crawler,它可以实现在web上爬行下载主题相关网页。
展开更多
关键词
定题搜索
主题
爬行
搜索引擎
爬行
算法
相关度分析
下载PDF
职称材料
Deep Web爬虫爬行策略研究
被引量:
13
6
作者
郑冬冬
崔志明
《计算机工程与设计》
CSCD
北大核心
2006年第17期3154-3158,共5页
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供...
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的DeepWeb爬虫,它可以自动发现和下载DeepWeb页面。由于DeepWeb惟一“入口点”是查询接口,DeepWeb爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。
展开更多
关键词
DEEP
WEB
DEEP
WEB爬虫
查询选择
查询效能
适应性
爬行
算法
下载PDF
职称材料
基于爬虫的智能爬行算法研究
被引量:
5
7
作者
侯美静
崔艳鹏
胡建伟
《计算机应用与软件》
北大核心
2018年第11期215-219,277,共6页
为了提高漏洞巡检的效率,过滤掉大部分结构相似的网页,提出一种智能爬行算法。对爬取过程中URL去重,丢弃重复的URL;计算两个URL对应页面的相似度值,具体是将页面解析成DOM树,根据节点的位置、DOM树的深度以及深度相同的节点数量,将权重...
为了提高漏洞巡检的效率,过滤掉大部分结构相似的网页,提出一种智能爬行算法。对爬取过程中URL去重,丢弃重复的URL;计算两个URL对应页面的相似度值,具体是将页面解析成DOM树,根据节点的位置、DOM树的深度以及深度相同的节点数量,将权重分配给每个节点,再根据给定的公式计算网页的相似度;以相似度为基础,使用聚合式层次聚类思想将具有相似结构的网页聚为一组,每组只留下一个网页,达到去除大部分结构相似的网页的目的。实验结果表明,该智能爬行算法可以有效地减少结构相似的网页,提高漏洞巡检系统的巡检效率。
展开更多
关键词
爬虫
智能
爬行
算法
URL去重
相似度
聚类
下载PDF
职称材料
爬行虫算法设计与程序实现
被引量:
14
8
作者
杜亚军
严兵
宋亮
《计算机应用》
CSCD
北大核心
2004年第1期33-35,共3页
爬行虫算法是搜索引擎探讨的热点。通过分析现有爬行虫算法设计和程序实现的主要方式 ,权衡其利弊 ,总结出一个适合于中小型网站网页下载的爬行虫算法。并使用jBuider8.0工具实现了该算法。通过实验分析 ,该程序下载的网页数的速度为 18...
爬行虫算法是搜索引擎探讨的热点。通过分析现有爬行虫算法设计和程序实现的主要方式 ,权衡其利弊 ,总结出一个适合于中小型网站网页下载的爬行虫算法。并使用jBuider8.0工具实现了该算法。通过实验分析 ,该程序下载的网页数的速度为 1882 4 2个网页 /分和 4 1.92 74 .5 9KB/秒。
展开更多
关键词
爬行
虫
算法
爬行
虫程序
搜索引擎
下载PDF
职称材料
基于AJAX应用程序的爬行测试算法
9
作者
高秀慧
高建华
《计算机工程与设计》
CSCD
北大核心
2014年第2期493-498,共6页
为了解决AJAX技术带来的测试新问题,针对流行的爬行算法进行了改进。通过捕获用户界面的状态以及改变状态的转换条件,从而推导出状态流程图。利用推导出的状态流程图,提出使用K最短路径算出多条最短路径作为测试集;设计合并测试路径的...
为了解决AJAX技术带来的测试新问题,针对流行的爬行算法进行了改进。通过捕获用户界面的状态以及改变状态的转换条件,从而推导出状态流程图。利用推导出的状态流程图,提出使用K最短路径算出多条最短路径作为测试集;设计合并测试路径的方法缩减测试集,减少测试集的生成,并同时保证测试覆盖率。通过结合实例,在不同位置注入故障的方法对算法进行了数据分析,分析结果表明该方法的可行性和实用性,为AJAX应用程序的测试提供了更有效的解决途径。
展开更多
关键词
AJAX应用程序
自动化测试
测试路径
爬行
捕获
算法
下载PDF
职称材料
题名
定题搜索引擎Robot的设计与算法
被引量:
9
1
作者
龙宇巍
王永成
许欢庆
机构
上海交通大学计算机系
出处
《计算机仿真》
CSCD
2004年第4期69-72,76,共5页
基金
国家 8 63项目资 (2 0 0 2AA1190 5 0 )
文摘
定题搜索引擎将信息检索限定在特定主题领域 ,提供特定主题的信息检索服务 ,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat2 .0 2版 ,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关信息的搜索及网页相关度分析。该文分析了传统定题搜索算法的优缺点 ,提出了基于反向链接结合超链文本分析的定题搜索算法。文章还对基于内容的网页相关度分析算法进行了详细的论述。对比搜索实验表明系统有着较好的性能 。
关键词
定题搜索
搜索引擎
ROBOT
相关度分析
爬行
算法
信息检索
Keywords
Focused crawling
Robot,Search engine
Crawling algorithm
Relevance analysis
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
有效的爬行Ajax页面的网络爬行算法
被引量:
5
2
作者
李华波
吴礼发
赖海光
郑成辉
黄康宇
机构
解放军理工大学指挥信息系统学院
出处
《电子科技大学学报》
EI
CAS
CSCD
北大核心
2013年第1期115-120,共6页
基金
江苏省自然科学基金(BK2010132)
文摘
Ajax页面的生成和页面导航需要执行客户端的JavaScript代码,传统网络爬行算法无法获取Ajax页面全部内容。分析了Ajax的工作方式,阐述了爬行Ajax网页所面临的主要问题,提出并实现了一种有效爬行Ajax页面的网络爬行算法。该算法可控制客户端浏览器动态生成页面内容和完成页面导航,为爬行过的页面分配标识编号并生成相应静态页面。实验结果表明,提出的算法所爬行的Ajax页面数量明显多于传统方法,同时,采用的双重消重策略可有效减少算法的时间耗费。
关键词
AJAX
爬行
算法
消重策略
搜索引擎
Keywords
Ajax
crawling algorithm
replicas-detecting policy
search engine
分类号
TP393.08 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于网页内容块策略的主题爬行
被引量:
2
3
作者
吴晓平
张长利
朱丽娜
机构
沈阳炮兵学院基础部计算机实验中心
出处
《计算机工程与应用》
CSCD
北大核心
2008年第9期143-146,共4页
文摘
因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。Web主题信息搜索系统(网络蜘蛛)是主题搜索引擎的最主要的部分,它的任务是将搜集到的符合要求的Web页面返回给用户或保存在索引库中。Web上的信息资源如此广泛,如何全面而高效地搜集到感兴趣的内容是网络蜘蛛的研究重点。提出了基于网页分块技术的主题爬行,实验结果表明,相对于其它的爬行算法,提出的算法具有较高的效率、爬准率、爬全率及穿越隧道的能力。
关键词
定题搜索
主题
爬行
搜索引擎
爬行
算法
相关度分析
Keywords
topic-specific search
topic crawling
search engine
crawling algorithm
correlation analysis
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
主题爬行策略与算法研究综述
被引量:
1
4
作者
张立杰
机构
新疆大学经济与管理学院
出处
《图书情报工作》
CSSCI
北大核心
2011年第18期112-115,40,共5页
文摘
主题爬行是专业搜索引擎的基础,爬行策略与爬行算法是主题爬行技术的核心,通过分析主题爬行的基本原理,对爬行策略与爬行算法进行分类比较,展示爬行策略与爬行算法的研究进展及当前研究热点,为主题爬行技术的进一步研究提供参考。
关键词
搜索引擎
主题
爬行
爬行
策略
爬行
算法
Keywords
search engine topic crawling crawling policy crawling algorithm
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于网页分块技术的主题爬行
5
作者
张忠元
王洪肖
机构
吉林大学
出处
《中国高新技术企业》
2008年第16期122-122,138,共2页
文摘
因特网的迅速发展对网上信息的查找与发现提出了巨大的挑战。本文提出了面向主题的主题爬行器的研究。主题搜索技术将信息检索限定在特定主题领域,提供特定主题的信息检索服务,是新一代搜索引擎的发展方向之一。本系统介绍了一种对网页自动分块的方法,实现了一个定题搜索系统Crawler,它可以实现在web上爬行下载主题相关网页。
关键词
定题搜索
主题
爬行
搜索引擎
爬行
算法
相关度分析
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Deep Web爬虫爬行策略研究
被引量:
13
6
作者
郑冬冬
崔志明
机构
苏州大学智能信息处理及应用研究所
出处
《计算机工程与设计》
CSCD
北大核心
2006年第17期3154-3158,共5页
基金
教育部高校博士学科点科研基金项目(20040285016)
江苏省高技术研究基金项目(BG2005019)。
文摘
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的DeepWeb爬虫,它可以自动发现和下载DeepWeb页面。由于DeepWeb惟一“入口点”是查询接口,DeepWeb爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。
关键词
DEEP
WEB
DEEP
WEB爬虫
查询选择
查询效能
适应性
爬行
算法
Keywords
deep web
deep web crawler
query selection
query efficiency
adaptive algorithm
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于爬虫的智能爬行算法研究
被引量:
5
7
作者
侯美静
崔艳鹏
胡建伟
机构
西安电子科技大学网络与信息安全学院
出处
《计算机应用与软件》
北大核心
2018年第11期215-219,277,共6页
文摘
为了提高漏洞巡检的效率,过滤掉大部分结构相似的网页,提出一种智能爬行算法。对爬取过程中URL去重,丢弃重复的URL;计算两个URL对应页面的相似度值,具体是将页面解析成DOM树,根据节点的位置、DOM树的深度以及深度相同的节点数量,将权重分配给每个节点,再根据给定的公式计算网页的相似度;以相似度为基础,使用聚合式层次聚类思想将具有相似结构的网页聚为一组,每组只留下一个网页,达到去除大部分结构相似的网页的目的。实验结果表明,该智能爬行算法可以有效地减少结构相似的网页,提高漏洞巡检系统的巡检效率。
关键词
爬虫
智能
爬行
算法
URL去重
相似度
聚类
Keywords
Crawler
Intelligent crawling algorithm
URL deduplication
Similarity
Clustering
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
爬行虫算法设计与程序实现
被引量:
14
8
作者
杜亚军
严兵
宋亮
机构
西华大学计算机科学与工程系
出处
《计算机应用》
CSCD
北大核心
2004年第1期33-35,共3页
文摘
爬行虫算法是搜索引擎探讨的热点。通过分析现有爬行虫算法设计和程序实现的主要方式 ,权衡其利弊 ,总结出一个适合于中小型网站网页下载的爬行虫算法。并使用jBuider8.0工具实现了该算法。通过实验分析 ,该程序下载的网页数的速度为 1882 4 2个网页 /分和 4 1.92 74 .5 9KB/秒。
关键词
爬行
虫
算法
爬行
虫程序
搜索引擎
Keywords
crawler's algorithm
crawler's program
search engine
分类号
TP393.04 [自动化与计算机技术—计算机应用技术]
TP301.6 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
基于AJAX应用程序的爬行测试算法
9
作者
高秀慧
高建华
机构
上海师范大学计算机科学与工程系
出处
《计算机工程与设计》
CSCD
北大核心
2014年第2期493-498,共6页
基金
国家自然科学基金项目(61073163)
上海市科委基金项目(09220503000)
上海市引进技术的吸收与创新计划基金项目(2010CH-014)
文摘
为了解决AJAX技术带来的测试新问题,针对流行的爬行算法进行了改进。通过捕获用户界面的状态以及改变状态的转换条件,从而推导出状态流程图。利用推导出的状态流程图,提出使用K最短路径算出多条最短路径作为测试集;设计合并测试路径的方法缩减测试集,减少测试集的生成,并同时保证测试覆盖率。通过结合实例,在不同位置注入故障的方法对算法进行了数据分析,分析结果表明该方法的可行性和实用性,为AJAX应用程序的测试提供了更有效的解决途径。
关键词
AJAX应用程序
自动化测试
测试路径
爬行
捕获
算法
Keywords
AJAX application
automatic testing
XPath
crawling algorithm
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
定题搜索引擎Robot的设计与算法
龙宇巍
王永成
许欢庆
《计算机仿真》
CSCD
2004
9
下载PDF
职称材料
2
有效的爬行Ajax页面的网络爬行算法
李华波
吴礼发
赖海光
郑成辉
黄康宇
《电子科技大学学报》
EI
CAS
CSCD
北大核心
2013
5
下载PDF
职称材料
3
基于网页内容块策略的主题爬行
吴晓平
张长利
朱丽娜
《计算机工程与应用》
CSCD
北大核心
2008
2
下载PDF
职称材料
4
主题爬行策略与算法研究综述
张立杰
《图书情报工作》
CSSCI
北大核心
2011
1
原文传递
5
基于网页分块技术的主题爬行
张忠元
王洪肖
《中国高新技术企业》
2008
0
下载PDF
职称材料
6
Deep Web爬虫爬行策略研究
郑冬冬
崔志明
《计算机工程与设计》
CSCD
北大核心
2006
13
下载PDF
职称材料
7
基于爬虫的智能爬行算法研究
侯美静
崔艳鹏
胡建伟
《计算机应用与软件》
北大核心
2018
5
下载PDF
职称材料
8
爬行虫算法设计与程序实现
杜亚军
严兵
宋亮
《计算机应用》
CSCD
北大核心
2004
14
下载PDF
职称材料
9
基于AJAX应用程序的爬行测试算法
高秀慧
高建华
《计算机工程与设计》
CSCD
北大核心
2014
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部