-
题名基于概念背景图的主题爬虫设计与实现
被引量:4
- 1
-
-
作者
关卫国
骆永成
-
机构
东华大学计算机科学与技术学院
-
出处
《计算机工程与设计》
北大核心
2016年第10期2679-2684,共6页
-
基金
中央高校基本科研业务费专项基金项目(2232013D3)
-
文摘
为充分利用爬行主题与待访问页面之间的语义关系,提高主题爬虫的整体性能,在研究概念背景图(CCG)主题爬行算法的基础上,提出改进的CCG主题爬行算法。利用HITS算法选取高质量的主题背景知识,根据形式概念分析理论构建概念格模型,将概念格生成CCG用以存储用户查询意向;利用CCG综合父网页、锚文本、链接上下文以及URL自身预测链接主题相关度,过滤不相关页面。实验结果表明,改进的爬行算法有效提高了网页抓取的精度和召回率,具有较强的可行性。
-
关键词
主题爬虫
形式概念分析
概念格
概念背景图
链接预测
-
Keywords
focused crawler
formal concept analysis
concept lattice
concept context graph
link prediction
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名网络爬行虫智能化研究分析
被引量:3
- 2
-
-
作者
杜亚军
-
机构
西华大学数学与计算机学院
-
出处
《西华大学学报(自然科学版)》
CAS
2010年第2期217-222,共6页
-
基金
国家自然科学基金(60872089)
-
文摘
Web爬行虫是当今搜索引擎的主要组成部分,也是信息检索领域研究的热点问题。本文综述了具有一定智能性的网络爬行虫的研究历史与现状,主要包括两个方面:传统的人工智能方法如神经网络、遗传算法、蚁群算法等在网络爬行虫的应用,以及借助这些方法发展起来的主题爬行虫;多网络爬行虫系统中爬行虫的协调的Agent技术。在此基础上,提出了一个语义概念背景图的网络爬行的基本思路。
-
关键词
网络爬行虫
智能化
概念背景图
搜索引擎
-
Keywords
web crawler
intelligent
cencept context graph
search engine
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名多Agent主题爬虫协作策略的研究与分析
被引量:2
- 3
-
-
作者
杜亚军
-
机构
西华大学数学与计算机学院
-
出处
《西华大学学报(自然科学版)》
CAS
2013年第1期31-38,50,共9页
-
基金
国家自然科学基金(60872089
61271413)
-
文摘
在多个Web主题爬虫并行爬行中,如何避免重复访问网页并高效地获取与主题相关网页,成为搜索引擎主题爬行的热点研究内容之一。为完成系统爬行任务充分发挥每个爬虫自身能力,文章立足于每个爬虫相对独立爬行、共同协作、彼此竞争的思想,将爬虫的历史爬行网页作为背景知识,分析这些网页文本内容,提取网页中"概念"和概念间的语义关系,探讨不同爬虫背景知识之间的语义相似性,提出基于分层概念背景图的爬虫之间理解方法、协作和竞争策略。该策略包括4个方面的内容:主题爬虫背景知识的分层概念背景图的表示模型、基于分层概念背景图的爬虫语义理解方法、在语义理解模型下同组多个网络爬虫之间协作与竞争机制及实现、在语义理解模型下异组多个爬虫之间协作与竞争机制及实现。
-
关键词
信息获取
主题爬虫
概念背景图
协作与竞争
-
Keywords
information retrieval
focused crawler
concept context graph
cooperation and competition
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语义概念背景图的主题爬虫的研究与实现
- 4
-
-
作者
李小雷
海宇峰
向模军
于春
-
机构
西华大学计算机与软件工程学院
成都农业科技职业学院信息技术分院
-
出处
《信息与电脑》
2017年第1期60-62,65,共4页
-
基金
国家自然科学基金青年科学基金项目(项目编号:61602390)
教育部春晖计划项目(项目编号:Z2015101)
-
文摘
为了提高主题爬虫的性能,在概念背景图(CCG)的基础上加以改进提出了语义概念背景图(SCCG)。从谷歌返回相关主题的网页链接列表中精选出一定数量的网页,根据形式概念分析的知识构建主题形式背景和概念格并最终生成SCCG。通过SCCG指导主题爬虫,将访问页面处理为虚拟形式概念(Virtual Formal Concept,VFC)来计算其与核心概念的概念相关度进行主题相关度预测。通过实验表明,SCCG指导主题爬虫有效提高了网页的F-Measure值,具有较高的可行性。
-
关键词
主题爬虫
形式概念分析
概念格
语义概念背景图
-
Keywords
subject reptile
formal concept analysis
concept lattice
semantic concept context graph
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-