期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于概念背景图的主题爬虫设计与实现 被引量:4
1
作者 关卫国 骆永成 《计算机工程与设计》 北大核心 2016年第10期2679-2684,共6页
为充分利用爬行主题与待访问页面之间的语义关系,提高主题爬虫的整体性能,在研究概念背景图(CCG)主题爬行算法的基础上,提出改进的CCG主题爬行算法。利用HITS算法选取高质量的主题背景知识,根据形式概念分析理论构建概念格模型,将概念... 为充分利用爬行主题与待访问页面之间的语义关系,提高主题爬虫的整体性能,在研究概念背景图(CCG)主题爬行算法的基础上,提出改进的CCG主题爬行算法。利用HITS算法选取高质量的主题背景知识,根据形式概念分析理论构建概念格模型,将概念格生成CCG用以存储用户查询意向;利用CCG综合父网页、锚文本、链接上下文以及URL自身预测链接主题相关度,过滤不相关页面。实验结果表明,改进的爬行算法有效提高了网页抓取的精度和召回率,具有较强的可行性。 展开更多
关键词 主题爬虫 形式概念分析 概念 概念背景图 链接预测
下载PDF
网络爬行虫智能化研究分析 被引量:3
2
作者 杜亚军 《西华大学学报(自然科学版)》 CAS 2010年第2期217-222,共6页
Web爬行虫是当今搜索引擎的主要组成部分,也是信息检索领域研究的热点问题。本文综述了具有一定智能性的网络爬行虫的研究历史与现状,主要包括两个方面:传统的人工智能方法如神经网络、遗传算法、蚁群算法等在网络爬行虫的应用,以及借... Web爬行虫是当今搜索引擎的主要组成部分,也是信息检索领域研究的热点问题。本文综述了具有一定智能性的网络爬行虫的研究历史与现状,主要包括两个方面:传统的人工智能方法如神经网络、遗传算法、蚁群算法等在网络爬行虫的应用,以及借助这些方法发展起来的主题爬行虫;多网络爬行虫系统中爬行虫的协调的Agent技术。在此基础上,提出了一个语义概念背景图的网络爬行的基本思路。 展开更多
关键词 网络爬行虫 智能化 概念背景图 搜索引擎
下载PDF
多Agent主题爬虫协作策略的研究与分析 被引量:2
3
作者 杜亚军 《西华大学学报(自然科学版)》 CAS 2013年第1期31-38,50,共9页
在多个Web主题爬虫并行爬行中,如何避免重复访问网页并高效地获取与主题相关网页,成为搜索引擎主题爬行的热点研究内容之一。为完成系统爬行任务充分发挥每个爬虫自身能力,文章立足于每个爬虫相对独立爬行、共同协作、彼此竞争的思想,... 在多个Web主题爬虫并行爬行中,如何避免重复访问网页并高效地获取与主题相关网页,成为搜索引擎主题爬行的热点研究内容之一。为完成系统爬行任务充分发挥每个爬虫自身能力,文章立足于每个爬虫相对独立爬行、共同协作、彼此竞争的思想,将爬虫的历史爬行网页作为背景知识,分析这些网页文本内容,提取网页中"概念"和概念间的语义关系,探讨不同爬虫背景知识之间的语义相似性,提出基于分层概念背景图的爬虫之间理解方法、协作和竞争策略。该策略包括4个方面的内容:主题爬虫背景知识的分层概念背景图的表示模型、基于分层概念背景图的爬虫语义理解方法、在语义理解模型下同组多个网络爬虫之间协作与竞争机制及实现、在语义理解模型下异组多个爬虫之间协作与竞争机制及实现。 展开更多
关键词 信息获取 主题爬虫 概念背景图 协作与竞争
下载PDF
基于语义概念背景图的主题爬虫的研究与实现
4
作者 李小雷 海宇峰 +1 位作者 向模军 于春 《信息与电脑》 2017年第1期60-62,65,共4页
为了提高主题爬虫的性能,在概念背景图(CCG)的基础上加以改进提出了语义概念背景图(SCCG)。从谷歌返回相关主题的网页链接列表中精选出一定数量的网页,根据形式概念分析的知识构建主题形式背景和概念格并最终生成SCCG。通过SCCG指导主... 为了提高主题爬虫的性能,在概念背景图(CCG)的基础上加以改进提出了语义概念背景图(SCCG)。从谷歌返回相关主题的网页链接列表中精选出一定数量的网页,根据形式概念分析的知识构建主题形式背景和概念格并最终生成SCCG。通过SCCG指导主题爬虫,将访问页面处理为虚拟形式概念(Virtual Formal Concept,VFC)来计算其与核心概念的概念相关度进行主题相关度预测。通过实验表明,SCCG指导主题爬虫有效提高了网页的F-Measure值,具有较高的可行性。 展开更多
关键词 主题爬虫 形式概念分析 概念 语义概念背景图
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部