期刊文献+
共找到84篇文章
< 1 2 5 >
每页显示 20 50 100
主题爬虫的搜索策略研究 被引量:26
1
作者 刘汉兴 刘财兴 《计算机工程与设计》 CSCD 北大核心 2008年第12期3160-3162,3166,共4页
主题爬虫收集主题相关信息时,需要评价网页的主题相关度,并优先爬取相关度较高的网页,在决定了搜索路径的同时也决定了主题爬虫的搜索效率。针对不同的网页评价算法,对现有的主题爬虫的搜索策略进行分类,指出了各类搜索策略的特点和优缺... 主题爬虫收集主题相关信息时,需要评价网页的主题相关度,并优先爬取相关度较高的网页,在决定了搜索路径的同时也决定了主题爬虫的搜索效率。针对不同的网页评价算法,对现有的主题爬虫的搜索策略进行分类,指出了各类搜索策略的特点和优缺点,总结了能够提高主题爬虫搜索效率的几方面内容。 展开更多
关键词 主题爬虫 搜索策略 页面评价 搜索引擎 优化
下载PDF
定题搜索引擎Robot的设计与算法 被引量:9
2
作者 龙宇巍 王永成 许欢庆 《计算机仿真》 CSCD 2004年第4期69-72,76,共5页
定题搜索引擎将信息检索限定在特定主题领域 ,提供特定主题的信息检索服务 ,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat2 .0 2版 ,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关... 定题搜索引擎将信息检索限定在特定主题领域 ,提供特定主题的信息检索服务 ,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat2 .0 2版 ,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关信息的搜索及网页相关度分析。该文分析了传统定题搜索算法的优缺点 ,提出了基于反向链接结合超链文本分析的定题搜索算法。文章还对基于内容的网页相关度分析算法进行了详细的论述。对比搜索实验表明系统有着较好的性能 。 展开更多
关键词 定题搜索 搜索引擎 ROBOT 相关度分析 爬行算法 信息检索
下载PDF
基于PageRank与Bagging的主题爬虫研究 被引量:11
3
作者 张翔 周明全 +1 位作者 李智杰 董丽丽 《计算机工程与设计》 CSCD 北大核心 2010年第14期3309-3312,共4页
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进... 为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取。用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页。实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果。 展开更多
关键词 主题爬虫 搜索策略 主题相关性 PAGERANK BAGGING
下载PDF
领域相关的Web网站抓取方法 被引量:5
4
作者 李刚 周立柱 +1 位作者 郭奇 林玲 《计算机科学》 CSCD 北大核心 2007年第2期137-140,148,共5页
本文提出了一种抓取领域相关的Web站点的方法,可以在较小的代价下准确地收集用户所关心领域内的网站。这种方法主要改进了传统的聚焦爬虫(Focused Crawler)技术,首先利用Meta-Search技术来改进传统Crawler的通过链接分析来抓取网页的方... 本文提出了一种抓取领域相关的Web站点的方法,可以在较小的代价下准确地收集用户所关心领域内的网站。这种方法主要改进了传统的聚焦爬虫(Focused Crawler)技术,首先利用Meta-Search技术来改进传统Crawler的通过链接分析来抓取网页的方法,而后利用启发式搜索大大降低了搜索代价,通过引入一种评价领域相关性的打分方法,达到了较好的准确率。本文详细地描述了上述算法并通过详细的实验验证了算法的效率和效果。 展开更多
关键词 META-search 聚焦爬虫(focused Crawler) 启发式搜索
下载PDF
词向量聚类加权Shark-Search的主题爬虫策略研究 被引量:7
5
作者 程元堃 廖闻剑 程光 《计算机与数字工程》 2018年第1期144-148,共5页
针对Shark-Search算法在主题爬虫中对于链接与主题相关性判断不够全面的问题,采取对待访问链接内容进行词向量聚类的方式,利用余弦距离表示与扩充主题词的相关性,改进了算法中对邻近链接评分的机制。实验结果表明,利用改进后的新算法在... 针对Shark-Search算法在主题爬虫中对于链接与主题相关性判断不够全面的问题,采取对待访问链接内容进行词向量聚类的方式,利用余弦距离表示与扩充主题词的相关性,改进了算法中对邻近链接评分的机制。实验结果表明,利用改进后的新算法在限定时间内能够发现更多主题相关的链接,有效提高了主题爬虫的效率。 展开更多
关键词 主题爬虫 Shark-search 词向量聚类
下载PDF
基于Heritrix的面向特定主题的聚焦爬虫研究 被引量:7
6
作者 朱敏 罗省贤 《计算机技术与发展》 2012年第2期65-68,共4页
通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效... 通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效率以及多线程抓取网页的目的。最后对某一特定主题的网页进行分析,并进行网页内容抓取,采用HTMLParser工具将抓取的网页数据源转换成特定的格式,可为面向主题的搜索信息系统以及数据挖掘提供数据源,为下一步研究工作做好准备。 展开更多
关键词 聚焦爬虫 HERITRIX BKDRHash算法 HTMLPARSER 搜索引擎
下载PDF
一种面向农业信息主题网络爬虫的设计 被引量:6
7
作者 汪斌 张云伟 +1 位作者 刘健 陈晶 《安徽农业科学》 CAS 北大核心 2009年第20期9699-9700,9824,共3页
针对用户在进行农业信息主题或相关领域的网络查询时,通用搜索引擎返回的信息过多且主题相关性不强等不足,提出了一种面向农业信息的主题爬虫的设计方案,详细讨论了该主题爬虫的爬行策略、结构设计、原理及实现。初步试验结果表明,基于... 针对用户在进行农业信息主题或相关领域的网络查询时,通用搜索引擎返回的信息过多且主题相关性不强等不足,提出了一种面向农业信息的主题爬虫的设计方案,详细讨论了该主题爬虫的爬行策略、结构设计、原理及实现。初步试验结果表明,基于该设计方案的主题爬虫在抓取农业信息主题网页时的准确率、全面率及成功率明显优于普通爬虫。 展开更多
关键词 主题爬虫 搜索引擎 农业信息 主题相关度
下载PDF
融合本体和改进禁忌搜索策略的气象灾害主题爬虫方法 被引量:6
8
作者 刘景发 顾瑶平 刘文杰 《计算机应用》 CSCD 北大核心 2020年第8期2255-2261,共7页
针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征... 针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度。另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列。以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好。基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页。 展开更多
关键词 主题爬虫 禁忌搜索 本体 主题相关度 气象灾害
下载PDF
逆向国际化企业跨界搜索互动对双元能力均衡的影响研究 被引量:4
9
作者 奉小斌 周兰 《研究与发展管理》 CSSCI 北大核心 2020年第1期76-88,共13页
已有研究对多维跨界搜索影响双元能力均衡的机制尚未达成共识,逆向国际化企业的跨界搜索活动因同时嵌入国内外网络并利用不同知识源而具有独特性,因此这类企业跨界搜索对双元能力的影响有待探讨。本文基于双重网络嵌入、跨界搜索和双元... 已有研究对多维跨界搜索影响双元能力均衡的机制尚未达成共识,逆向国际化企业的跨界搜索活动因同时嵌入国内外网络并利用不同知识源而具有独特性,因此这类企业跨界搜索对双元能力的影响有待探讨。本文基于双重网络嵌入、跨界搜索和双元理论,构建两类跨界搜索互动模式(单一搜索互动和交叉搜索互动),并分析两类模式对双元能力平衡和组合的差异化影响。基于212家样本企业的实证分析发现:逆向国际化企业国内外单一搜索互动(国内外聚焦搜索互动、国内外多源搜索互动)不利于双元能力的平衡和组合,而交叉搜索互动(国内聚焦与国外多源、国内多源与国外聚焦的搜索互动)均对企业平衡双元能力产生正向影响,但对组合双元能力产生倒U形影响。 展开更多
关键词 逆向国际化 聚焦搜索 多源搜索 搜索互动 双元能力
下载PDF
跨界搜索对商业模式双元的影响——资源编排的中介作用 被引量:3
10
作者 奉小斌 苏佳涵 彭学兵 《浙江理工大学学报(社会科学版)》 2021年第4期376-387,共12页
制造业转型背景下,商业模式双元因兼顾效率和新颖性而受到关注。然而,在商业模式双元形成的前因机制和构建过程中资源如何发挥作用还存在争议。为此,文章整合资源基础观和资源编排理论,构建“跨界搜索-资源编排-商业模式双元”关系模型... 制造业转型背景下,商业模式双元因兼顾效率和新颖性而受到关注。然而,在商业模式双元形成的前因机制和构建过程中资源如何发挥作用还存在争议。为此,文章整合资源基础观和资源编排理论,构建“跨界搜索-资源编排-商业模式双元”关系模型,并以239份样本数据进行实证。结果表明:跨界搜索(包括聚焦搜索和多源搜索)对商业模式双元有促进作用;跨界搜索对资源编排有促进作用,资源编排对商业模式双元有积极作用;资源编排部分中介聚焦搜索与商业模式双元均衡/组合、多源搜索与商业模式双元组合的关系,并在多源搜索与商业模式双元均衡之间起完全中介作用。 展开更多
关键词 商业模式双元 聚焦搜索 多源搜索 资源编排
下载PDF
基于聚焦爬虫的搜索引擎的设计与实现 被引量:3
11
作者 赵建华 蒋劲松 《系统仿真技术》 2018年第3期221-226,共6页
设计并实现了一种基于聚焦爬虫的搜索引擎。通过聚焦爬虫,获取了网站数据并建立了索引数据库。设置了2个角色,分别是普通用户和数据库管理员。普通用户可以实现网页搜索、图片搜索、关键字管理以及热点搜索排行等功能;数据库管理员可以... 设计并实现了一种基于聚焦爬虫的搜索引擎。通过聚焦爬虫,获取了网站数据并建立了索引数据库。设置了2个角色,分别是普通用户和数据库管理员。普通用户可以实现网页搜索、图片搜索、关键字管理以及热点搜索排行等功能;数据库管理员可以实现网络爬虫和数据库的管理,同时实现网站数据的检索、修改和添加等功能。测试结果表明系统运行良好。 展开更多
关键词 聚焦爬虫 搜索引擎 网页搜索 图片搜索
下载PDF
基于网页内容和链接价值的相关度方法的实现 被引量:4
12
作者 郑国良 叶飞跃 +1 位作者 张滨 林国俊 《计算机工程与设计》 CSCD 北大核心 2008年第23期6020-6022,6046,共4页
专业搜索引擎提供特定主题的信息检索服务,是新一代搜索引擎的发展方向之一,而网页主题相关度分析是专搜索引擎的核心技术,它指导着robot进行有价值的搜索,专门搜索与主题相关的页面;提出一种综合的网页主题相关度析方法,方法同时对网... 专业搜索引擎提供特定主题的信息检索服务,是新一代搜索引擎的发展方向之一,而网页主题相关度分析是专搜索引擎的核心技术,它指导着robot进行有价值的搜索,专门搜索与主题相关的页面;提出一种综合的网页主题相关度析方法,方法同时对网页内容价值和链接价值进行了考察,从而保证了robot搜索的网页与主题有着较高的相关度;在网内容价值评价时,对传统的方法进行了改进,新的方法能高好的实现。该方法也用于服装行业的搜索引擎,效果明显。 展开更多
关键词 主题爬虫 专业搜索 网页内容分析 链接分析 特征词
下载PDF
A new focused crawler using an improved tabu search algorithm incorporating ontology and host information
13
作者 Jingfa LIU Zhen WANG +1 位作者 Guo ZHONG Zhihe YANG 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2023年第6期859-875,共17页
To solve the problems of incomplete topic description and repetitive crawling of visited hyperlinks in traditional focused crawling methods,in this paper,we propose a novel focused crawler using an improved tabu searc... To solve the problems of incomplete topic description and repetitive crawling of visited hyperlinks in traditional focused crawling methods,in this paper,we propose a novel focused crawler using an improved tabu search algorithm with domain ontology and host information(FCITS_OH),where a domain ontology is constructed by formal concept analysis to describe topics at the semantic and knowledge levels.To avoid crawling visited hyperlinks and expand the search range,we present an improved tabu search(ITS)algorithm and the strategy of host information memory.In addition,a comprehensive priority evaluation method based on Web text and link structure is designed to improve the assessment of topic relevance for unvisited hyperlinks.Experimental results on both tourism and rainstorm disaster domains show that the proposed focused crawlers overmatch the traditional focused crawlers for different performance metrics. 展开更多
关键词 focused crawler Tabu search algorithm ONTOLOGY Host information Priority evaluation
原文传递
主题爬虫研究进展 被引量:3
14
作者 王贤明 《现代计算机》 2014年第2期33-36,共4页
随着互联网技术的飞速发展,网页数量急剧增加,搜索引擎的地位已经不可取代,成为人们使用Internet的入口。网络蜘蛛作为搜索引擎的信息来源是搜索引擎必不可少的组成部分。介绍网络蜘蛛设计中的关键技术。另外,随着用户个性化需求越来越... 随着互联网技术的飞速发展,网页数量急剧增加,搜索引擎的地位已经不可取代,成为人们使用Internet的入口。网络蜘蛛作为搜索引擎的信息来源是搜索引擎必不可少的组成部分。介绍网络蜘蛛设计中的关键技术。另外,随着用户个性化需求越来越强以及网页数量的急剧增加导致通用搜索引擎无法满足特定用户的需求,专业搜索引擎得到快速的发展。同时对于主题爬虫的研究也有很大的突破和进展。主题爬虫有别于通用爬虫,通用爬虫注重爬取的完整性,而主题爬虫强调网页与特定主题的相关性。同时对主题爬虫的研究现状进行介绍和总结。 展开更多
关键词 通用爬虫 主题爬虫 搜索引擎
下载PDF
G.729中固定码本快速搜索算法研究 被引量:2
15
作者 李利 陈刚 《计算机工程与设计》 CSCD 北大核心 2010年第10期2209-2211,2215,共4页
虽然G.729中采用的集中搜索和G.729a中采用的深度优先树搜索可以有效减少固定码本搜索复杂度,但固定码本搜索在整个语音编码算法中仍占有较大比重。为了在基本维持语音质量的前提下,减少搜索运算量,研究了几种快速搜索算法,脉冲替代和... 虽然G.729中采用的集中搜索和G.729a中采用的深度优先树搜索可以有效减少固定码本搜索复杂度,但固定码本搜索在整个语音编码算法中仍占有较大比重。为了在基本维持语音质量的前提下,减少搜索运算量,研究了几种快速搜索算法,脉冲替代和预选替代一个脉冲搜索算法可以大大减少搜索次数,但语音质量明显下降,因此提出每次替代两个脉冲搜索算法,得到比替代一个脉冲较为完整的搜索,产生较好的语音质量。仿真结果表明,该算法可以大大减少搜索运算量,并且保持了和G.729a深度优先树搜索算法相同的语音质量。 展开更多
关键词 固定码本 代数码激励线性预测 集中搜索 深度优先树 脉冲替换
下载PDF
融合动态主题词库和改进Shark-Search算法的主题爬虫方法——以武器装备领域为例 被引量:1
16
作者 丁晟春 刘凯 方振 《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第8期52-60,共9页
【目的】解决传统主题爬虫容易出现爬取率低和主题相关度不足的问题。【方法】基于Shark-Search算法,提出两步式动态扩充主题词表的主题爬虫算法Two-step Dynamic Shark-Search(TDSS),将传统算法中主题相关性计算拆分为链接主题相关性... 【目的】解决传统主题爬虫容易出现爬取率低和主题相关度不足的问题。【方法】基于Shark-Search算法,提出两步式动态扩充主题词表的主题爬虫算法Two-step Dynamic Shark-Search(TDSS),将传统算法中主题相关性计算拆分为链接主题相关性和页面主题相关性两个单独步骤。通过相关资料和工具建立并拓展的主题词表,并在爬虫运行过程中从主题相关页面提取新的关键词补充到主题词表中,提升主题判断的效果。【结果】在相同的实验环境下,TDSS主题爬虫方法比对比算法的爬准率最多高14.2%,采集效率最多高35%。【局限】动态主题词扩展算法需进一步完善,主题词表过度扩充会降低爬准率。【结论】基于TDSS的主题爬虫能够有效提高获取主题信息的准确率,爬取更多与主题相关的网页。 展开更多
关键词 主题爬虫 Shark-search 主题相关度 主题词表
原文传递
New focused crawling algorithm 被引量:1
17
作者 SuGuiyang LiJianhua MaYinghua LiShenghong SongJuping 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2005年第1期199-203,共5页
Focused carawling is a new research approach of search engine. It restricts information retrieval and provides search service in specific topic area. Focused crawling search algorithm is a key technique of focused cra... Focused carawling is a new research approach of search engine. It restricts information retrieval and provides search service in specific topic area. Focused crawling search algorithm is a key technique of focused crawler which directly affects the search quality. This paper first introduces several traditional topic-specific crawling algorithms, then an inverse link based topic-specific crawling algorithm is put forward. Comparison experiment proves that this algorithm has a good performance in recall, obviously better than traditional Breadth-First and Shark-Search algorithms. The experiment also proves that this algorithm has a good precision. 展开更多
关键词 focused crawling search engine PRECISION recall.
下载PDF
一种基于改进BFS算法的主题搜索技术研究 被引量:1
18
作者 乔建忠 《现代图书情报技术》 CSSCI 北大核心 2013年第7期28-35,共8页
通过对Web主题爬行器在预测链接优先级时所用到的特征因子的细化和重新分类,引入收割率和媒体类型两个新特征作为相关性判断依据,提出一种改进的最好优先搜索算法。该算法采用"细粒度"策略过滤不相关网页,选取多个角度有代表... 通过对Web主题爬行器在预测链接优先级时所用到的特征因子的细化和重新分类,引入收割率和媒体类型两个新特征作为相关性判断依据,提出一种改进的最好优先搜索算法。该算法采用"细粒度"策略过滤不相关网页,选取多个角度有代表性的特征因子构造链接优先级计算公式,以达到全面揭示和预测链接主题的目的。通过与其他三类主题搜索算法的小规模实验比较,证明改进算法在收割率和平均提交链接数上效果较好。 展开更多
关键词 主题搜索 搜索算法 最好优先搜索算法 主题爬行器 特征因子
原文传递
一种新的主题爬行算法 被引量:2
19
作者 谭思亮 《微计算机信息》 北大核心 2007年第02X期193-195,共3页
爬虫是搜索引擎的关键组成部分,本文提出了一种可利用之前爬行数据自动改进其分析算法与种子URL集合的主题爬行算法,并讨论了其首次爬行和再次爬行算法。实验结果表明该算法的准确率在大多数情况下优于基于宽度策略、基于PageRank和基... 爬虫是搜索引擎的关键组成部分,本文提出了一种可利用之前爬行数据自动改进其分析算法与种子URL集合的主题爬行算法,并讨论了其首次爬行和再次爬行算法。实验结果表明该算法的准确率在大多数情况下优于基于宽度策略、基于PageRank和基于内容相似度分析的爬虫。 展开更多
关键词 主题爬行 Web分析 超链分析 搜索引擎
下载PDF
基于语义相似度的聚焦爬虫研究 被引量:2
20
作者 林春杰 金苗娟 《现代信息科技》 2020年第8期1-3,8,共4页
实现高效获取互联网中特定领域信息的有效途径是使用聚焦爬虫,针对聚焦爬虫在判断主题相关时缺少语义信息的问题,提出了一个基于语义相似度计算的聚焦爬虫框架.该框架抽取网页的主题词、内容和链接信息作为网页特征,计算主题相似度.通... 实现高效获取互联网中特定领域信息的有效途径是使用聚焦爬虫,针对聚焦爬虫在判断主题相关时缺少语义信息的问题,提出了一个基于语义相似度计算的聚焦爬虫框架.该框架抽取网页的主题词、内容和链接信息作为网页特征,计算主题相似度.通过链接的主题相关度计算,过滤URL和判断URL的重要程度.最后给出了对比试验,验证了该方法的有效性. 展开更多
关键词 聚焦爬虫 语义相似度 本体 搜索引擎
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部