期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
定题搜索引擎Robot的设计与算法 被引量:9
1
作者 龙宇巍 王永成 许欢庆 《计算机仿真》 CSCD 2004年第4期69-72,76,共5页
定题搜索引擎将信息检索限定在特定主题领域 ,提供特定主题的信息检索服务 ,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat2 .0 2版 ,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关... 定题搜索引擎将信息检索限定在特定主题领域 ,提供特定主题的信息检索服务 ,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat2 .0 2版 ,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关信息的搜索及网页相关度分析。该文分析了传统定题搜索算法的优缺点 ,提出了基于反向链接结合超链文本分析的定题搜索算法。文章还对基于内容的网页相关度分析算法进行了详细的论述。对比搜索实验表明系统有着较好的性能 。 展开更多
关键词 定题搜索 搜索引擎 ROBOT 相关度分析 爬行算法 信息检索
下载PDF
一种面向BBS信息检索的主题网络爬虫算法 被引量:13
2
作者 刘佐达 张久岭 +1 位作者 陈茂科 李星 《郑州大学学报(理学版)》 CAS 北大核心 2010年第2期22-25,共4页
对BBS的数据结构进行了分析研究,并根据BBS特点设计了一种用于BBS信息检索的主题网络爬虫算法.通过主题网络爬虫能够提高抓取网页的效率,同时又可以保证较高的召回率.实验表明,该算法大幅提高了信息检索的效率,改善了信息检索的效果.
关键词 BBS主题网络爬虫 信息检索
下载PDF
基于网页分块的Shark-Search算法 被引量:7
3
作者 陈军 陈竹敏 《山东大学学报(理学版)》 CAS CSCD 北大核心 2007年第9期62-66,共5页
Shark-Search算法是一个经典的主题爬取算法.针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题,提出了基于网页分块的Shark-Search算法,该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤.实验证明,改进的S... Shark-Search算法是一个经典的主题爬取算法.针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题,提出了基于网页分块的Shark-Search算法,该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤.实验证明,改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高. 展开更多
关键词 Shark-Search算法 主题爬取 页面分块 相关性计算
下载PDF
基于语义的主题爬行策略 被引量:12
4
作者 叶育鑫 欧阳丹彤 《软件学报》 EI CSCD 北大核心 2011年第9期2075-2088,共14页
为使主题爬行能够充分利用资源的语义信息,提出基于语义的主题爬行策略.该策略利用领域本体刻画爬行主题,将本体语义映射到关键词表.通过定义断言集一致性扩展和域值关联推理任务,推演关键词间语义关系.在定义网页主题概念的基础上,结... 为使主题爬行能够充分利用资源的语义信息,提出基于语义的主题爬行策略.该策略利用领域本体刻画爬行主题,将本体语义映射到关键词表.通过定义断言集一致性扩展和域值关联推理任务,推演关键词间语义关系.在定义网页主题概念的基础上,结合本体推理方案提出主题概念的语义叠加效应模型.最后,利用主题概念的语义包含关系判定URLs抓取顺序.实验结果表明,该语义主题爬行策略在抓取收获率和爬行效率上优于现有同类方法,该方案有效、可行. 展开更多
关键词 本体 语义WEB 主题爬行 Tableau演算
下载PDF
基于遗传算法的定题信息搜索策略 被引量:5
5
作者 许欢庆 王永成 孙强 《中文信息学报》 CSCD 北大核心 2003年第1期25-31,共7页
定题检索将信息检索限定在特定主题领域 ,提供主题领域内信息的检索服务。它是新一代搜索引擎的发展方向之一。定题检索的关键技术是主题相关信息的搜索。本文提出了基于遗传算法的定题信息搜索策略 ,提高链接于内容相似度不高的网页之... 定题检索将信息检索限定在特定主题领域 ,提供主题领域内信息的检索服务。它是新一代搜索引擎的发展方向之一。定题检索的关键技术是主题相关信息的搜索。本文提出了基于遗传算法的定题信息搜索策略 ,提高链接于内容相似度不高的网页之后的页面被搜索的机会 ,扩大了相关网页的搜索范围。同时 ,借助超链Metadata的提示信息预测链接页面的主题相关度 ,加快了搜索速度。对比搜索试验证明了算法具有较好的性能。 展开更多
关键词 计算机应用 中文信息处理 定题检索 定题信息搜索 遗传算法
下载PDF
基于链接聚类的Shark-Search算法 被引量:8
6
作者 苏祺 项锟 孙斌 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期139-143,共5页
根据对Shark-Search主题爬取算法的分析,提出了一种基于链接聚类的改进Shark-Search算法.并通过几个对比实验对该算法进行了验证.实验结果表明,新算法能够更有效地识别链接与主题的相关性.
关键词 Shark-Search算法 主题爬取 链接聚类
下载PDF
使用联合链接相似度评估爬取Web资源 被引量:6
7
作者 张乃洲 李石君 +1 位作者 余伟 张卓 《计算机学报》 EI CSCD 北大核心 2010年第12期2267-2280,共14页
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接... 如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率. 展开更多
关键词 聚焦爬行 主题相似度 链接评估 Web链接图 Q学习
下载PDF
基于网页分块技术主题爬行器的实现 被引量:4
8
作者 李晓亚 赫枫龄 左万利 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2007年第6期959-965,共7页
针对目前通用搜索引擎搜索到的结果过多、与主题相关性不强的现状,提出一种基于网页分块技术的主题爬行器实现方法,并实现了一个原型系统Crawler1.实验结果表明,本系统性能较好,所爬网页的相关度在55%以上.
关键词 主题搜索 主题爬行 相关度分析 网页分块
下载PDF
基于多Agent系统的定题爬虫算法 被引量:4
9
作者 徐照财 程显毅 《计算机工程》 CAS CSCD 北大核心 2008年第16期204-206,共3页
定题爬虫的研究是定题搜索引擎的关键技术。该文提出一种基于多Agent系统的爬虫算法,采用本题语义主题关键词过滤的方法来抓取与主题相关的网页,利用本体库语义网络实现本体领域中同近义词的过滤。凭借HTML网页标记对关键字识别的不同... 定题爬虫的研究是定题搜索引擎的关键技术。该文提出一种基于多Agent系统的爬虫算法,采用本题语义主题关键词过滤的方法来抓取与主题相关的网页,利用本体库语义网络实现本体领域中同近义词的过滤。凭借HTML网页标记对关键字识别的不同权重和超链接锚文本对主题相关网页进行预测,通过黑板的通信机制实现多Agent交互。实验结果表明算法在抓取网页的查准率、查全率方面有一定的改善。 展开更多
关键词 定题爬虫 主题关键字过滤 语义
下载PDF
基于维基百科和网页分块的主题爬行策略 被引量:5
10
作者 熊忠阳 史艳 张玉芳 《计算机应用》 CSCD 北大核心 2011年第12期3264-3267,共4页
针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主题描述文档获取主题向量,以此来描述主题;并在下载网页后引入网页分块,过滤噪声链接;在计算候选链接优先... 针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主题描述文档获取主题向量,以此来描述主题;并在下载网页后引入网页分块,过滤噪声链接;在计算候选链接优先级时,引入块相关性,以弥补锚文本信息量有限的缺点;通过改变主题向量空间的大小来验证主题描述的详略对爬行性能的影响。实验结果表明,该策略有效,并且在一定限度内,对主题描述越详细,搜集的网页的相关度就越高。 展开更多
关键词 主题爬行 维基百科 主题描述 网页分块 相关度计算
下载PDF
基于质心向量的增量式主题爬行 被引量:4
11
作者 王辉 左万利 +3 位作者 王晖昱 宁爱军 孙志伟 满春雷 《计算机研究与发展》 EI CSCD 北大核心 2009年第2期217-224,共8页
研究如何在一个网页内部进行有选择的爬行.使用TFIDF-2模型以及Max,Ave,Sum三个启发式规则分别计算文档特征权重和质心特征权重,在此基础上构建与根集文档相对应的质心向量,利用它作为前端分类器指导主题爬行.使用前后端分类器分别给Fro... 研究如何在一个网页内部进行有选择的爬行.使用TFIDF-2模型以及Max,Ave,Sum三个启发式规则分别计算文档特征权重和质心特征权重,在此基础上构建与根集文档相对应的质心向量,利用它作为前端分类器指导主题爬行.使用前后端分类器分别给Frontier中的各个锚文本打分,将它们的打分求和,从中选择打分最高的链接,下载其对应的网页.实验结果表明,在质心向量的指导下,爬行程序借助于锚文本便可以准确地预测链接所指向网页的相关性;另外,双分类器框架还使得爬行策略具有增量爬行的能力. 展开更多
关键词 文档特征权重 质心特征权重 主题爬行 锚文本 质心向量
下载PDF
智能化网页资源收集工具的设计与实现 被引量:2
12
作者 康平波 田永鸿 黄铁军 《计算机工程》 CAS CSCD 北大核心 2004年第4期88-89,92,共3页
随着互联网的普及和发展,网络上的信息资源越来越丰富,它需要高效智能的工具来完成信息资源的采集。介绍了智能化网页收集工具系统的实现方法,它把抓取器与超链分析器、文本自动分类器相结合,完成对用户要求领域的网页的收集.避免... 随着互联网的普及和发展,网络上的信息资源越来越丰富,它需要高效智能的工具来完成信息资源的采集。介绍了智能化网页收集工具系统的实现方法,它把抓取器与超链分析器、文本自动分类器相结合,完成对用户要求领域的网页的收集.避免对用户不感兴趣领域的抓取。这样可以节省硬件、网络资源和提高资源采集效率。 展开更多
关键词 网页机器人 超链分析 文本自动分类 面向主题抓取
下载PDF
基于信息增益的自适应主题爬行策略 被引量:3
13
作者 熊忠阳 史艳 张玉芳 《计算机应用研究》 CSCD 北大核心 2012年第2期501-503,共3页
结合信息增益,提出了一种新的自适应主题爬行策略。利用维基百科的分类树和主题描述文档构建主题向量T,并在爬行过程中不断地进行自动学习,反馈更新主题向量空间中每个概念的权重,完善主题描述。实验结果表明,该方法具有增量爬行的能力... 结合信息增益,提出了一种新的自适应主题爬行策略。利用维基百科的分类树和主题描述文档构建主题向量T,并在爬行过程中不断地进行自动学习,反馈更新主题向量空间中每个概念的权重,完善主题描述。实验结果表明,该方法具有增量爬行的能力,并在信息量总和上明显优于基于the interest ratio的自适应策略;且前者所爬取的网页更接近于与主题相关。 展开更多
关键词 主题爬行 维基百科 主题描述 自适应方法 信息增益
下载PDF
New focused crawling algorithm 被引量:1
14
作者 SuGuiyang LiJianhua MaYinghua LiShenghong SongJuping 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2005年第1期199-203,共5页
Focused carawling is a new research approach of search engine. It restricts information retrieval and provides search service in specific topic area. Focused crawling search algorithm is a key technique of focused cra... Focused carawling is a new research approach of search engine. It restricts information retrieval and provides search service in specific topic area. Focused crawling search algorithm is a key technique of focused crawler which directly affects the search quality. This paper first introduces several traditional topic-specific crawling algorithms, then an inverse link based topic-specific crawling algorithm is put forward. Comparison experiment proves that this algorithm has a good performance in recall, obviously better than traditional Breadth-First and Shark-Search algorithms. The experiment also proves that this algorithm has a good precision. 展开更多
关键词 focused crawling search engine PRECISION recall.
下载PDF
基于复杂网络局部社团发现的主题爬行研究 被引量:2
15
作者 沈桂兰 孙洁 杨小平 《河南师范大学学报(自然科学版)》 CAS 北大核心 2014年第4期134-138,共5页
从全局上限定采集范围可以有效地提高主题爬虫的查准率.结合Web链接分析和页面内容特征分析,提出了一种基于复杂网络局部社区发现的主题爬行方法,将主题爬行分为两个阶段,第一阶段采用复杂网络的局部社区发现算法进行Web链接分析,构建... 从全局上限定采集范围可以有效地提高主题爬虫的查准率.结合Web链接分析和页面内容特征分析,提出了一种基于复杂网络局部社区发现的主题爬行方法,将主题爬行分为两个阶段,第一阶段采用复杂网络的局部社区发现算法进行Web链接分析,构建主题网站群,缩小爬行范围.在第二阶段,在限定的范围内,对爬取到的页面进行主题相似度判定,并对下一步的链接目标进行预测.实验证明,该方法显著提高了主题爬虫的查准率. 展开更多
关键词 局部社区发现 主题爬行 主题网站群 相似度分析
下载PDF
一种融合本体和最小二乘支持向量机的主题爬行方法 被引量:2
16
作者 马永军 杨海波 《天津科技大学学报》 CAS 北大核心 2015年第3期72-77,共6页
针对现有的主题爬行方法存在收益率不高和不稳定的问题,融合本体和最小二乘支持向量机理论,提出一种主题爬行方法 Ontology-LSSVM.该方法将本体作为抓取主题的背景知识表示,得到一组主题相关概念的集合,再将其在网页文本中出现的词频作... 针对现有的主题爬行方法存在收益率不高和不稳定的问题,融合本体和最小二乘支持向量机理论,提出一种主题爬行方法 Ontology-LSSVM.该方法将本体作为抓取主题的背景知识表示,得到一组主题相关概念的集合,再将其在网页文本中出现的词频作为输入,构造一个主题相关度LS-SVM分类器,用于网页的分类.使用舆论热点的食品安全问题作为爬行主题领域,建立问题食品本体,进行实验.结果表明:在本实验条件下,本文方法相比基于LS-SVM、基于本体和基于关键字的主题爬行,能够维持更高的收益率. 展开更多
关键词 本体 支持向量机 主题爬行 收益率 食品安全
下载PDF
一种新的主题爬行算法 被引量:2
17
作者 谭思亮 《微计算机信息》 北大核心 2007年第02X期193-195,共3页
爬虫是搜索引擎的关键组成部分,本文提出了一种可利用之前爬行数据自动改进其分析算法与种子URL集合的主题爬行算法,并讨论了其首次爬行和再次爬行算法。实验结果表明该算法的准确率在大多数情况下优于基于宽度策略、基于PageRank和基... 爬虫是搜索引擎的关键组成部分,本文提出了一种可利用之前爬行数据自动改进其分析算法与种子URL集合的主题爬行算法,并讨论了其首次爬行和再次爬行算法。实验结果表明该算法的准确率在大多数情况下优于基于宽度策略、基于PageRank和基于内容相似度分析的爬虫。 展开更多
关键词 主题爬行 Web分析 超链分析 搜索引擎
下载PDF
一种基于改进BFS算法的主题搜索技术研究 被引量:1
18
作者 乔建忠 《现代图书情报技术》 CSSCI 北大核心 2013年第7期28-35,共8页
通过对Web主题爬行器在预测链接优先级时所用到的特征因子的细化和重新分类,引入收割率和媒体类型两个新特征作为相关性判断依据,提出一种改进的最好优先搜索算法。该算法采用"细粒度"策略过滤不相关网页,选取多个角度有代表... 通过对Web主题爬行器在预测链接优先级时所用到的特征因子的细化和重新分类,引入收割率和媒体类型两个新特征作为相关性判断依据,提出一种改进的最好优先搜索算法。该算法采用"细粒度"策略过滤不相关网页,选取多个角度有代表性的特征因子构造链接优先级计算公式,以达到全面揭示和预测链接主题的目的。通过与其他三类主题搜索算法的小规模实验比较,证明改进算法在收割率和平均提交链接数上效果较好。 展开更多
关键词 主题搜索 搜索算法 最好优先搜索算法 主题爬行器 特征因子
原文传递
基于策略爬行与混合索引的医药行业垂直搜索引擎的设计与实现
19
作者 王凯 余堃 马增红 《电脑知识与技术》 2008年第4期96-99,共4页
随着互联网应用的深入,越来越多的用户希望通过搜索引擎获得特定行业的相关信息,通用搜索引擎无法有效地满足相应需求。文中主要介绍医药行业垂直搜索引擎的设计与实现。设计基于智能搜索引擎的架构,采用了任务驱动的聚焦搜索、隐藏... 随着互联网应用的深入,越来越多的用户希望通过搜索引擎获得特定行业的相关信息,通用搜索引擎无法有效地满足相应需求。文中主要介绍医药行业垂直搜索引擎的设计与实现。设计基于智能搜索引擎的架构,采用了任务驱动的聚焦搜索、隐藏搜索技术;字词混合倒排索引及优化的字倒排索引、检索技术。提供了资源收集阶段的可控策略爬行,和高效的索引、检索功能。实现了针对医药行业的高专业度、高准确率、高效率的信息垂直搜索。 展开更多
关键词 垂直搜索引擎 聚焦搜索 隐藏搜索 混合倒排索引
下载PDF
面向主题爬取的多粒度URLs优先级计算方法 被引量:1
20
作者 陈竹敏 马军 +1 位作者 韩晓晖 雷景生 《中文信息学报》 CSCD 北大核心 2009年第3期31-38,共8页
垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法;对... 垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法;对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法。在此基础上,提出基于上述方法的主题爬取算法。实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法。 展开更多
关键词 计算机应用 中文信息处理 主题爬取 优先级计算 网页分块 相关度计算
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部