期刊文献+
共找到78篇文章
< 1 2 4 >
每页显示 20 50 100
主题爬虫技术研究综述 被引量:44
1
作者 潘晓英 陈柳 +2 位作者 余慧敏 赵逸喆 肖康泞 《计算机应用研究》 CSCD 北大核心 2020年第4期961-965,972,共6页
随着移动互联网的普及以及网络信息指数的增长,如何有效地提取和利用这些信息面临巨大挑战。介绍了主题爬虫的工作原理、分类;回顾了近年来国内外关于主题爬虫的研究状况,分析了各种主题相似度的方法以及搜索策略,得出相比于普通的爬虫... 随着移动互联网的普及以及网络信息指数的增长,如何有效地提取和利用这些信息面临巨大挑战。介绍了主题爬虫的工作原理、分类;回顾了近年来国内外关于主题爬虫的研究状况,分析了各种主题相似度的方法以及搜索策略,得出相比于普通的爬虫系统,基于网页内容和基于链接分析的爬虫系统的查准率、查全率都大幅提升;最后分析比较了主题网络爬虫两种动态搜索策略并指出了未来研究方向。 展开更多
关键词 网络爬虫 主题爬虫 相似度 网页内容 链接分析
下载PDF
区域煤矿瓦斯灾害风险预警数据采集技术研究 被引量:17
2
作者 李明建 赵旭生 +2 位作者 谈国文 宋志强 廖成 《工矿自动化》 北大核心 2020年第7期57-63,共7页
以各级煤矿安全监管监察部门、矿业集团公司对辖区内所有煤矿瓦斯灾害风险宏观预警为出发点,指出区域煤矿瓦斯灾害风险预警基础数据具有多源、异构、海量、多维等特征,数据采集存在信息不全面及模式单一、维度固化等问题;将区域煤矿瓦... 以各级煤矿安全监管监察部门、矿业集团公司对辖区内所有煤矿瓦斯灾害风险宏观预警为出发点,指出区域煤矿瓦斯灾害风险预警基础数据具有多源、异构、海量、多维等特征,数据采集存在信息不全面及模式单一、维度固化等问题;将区域煤矿瓦斯灾害风险预警基础数据分为区域内矿井自然环境风险数据、区域内矿井生产系统风险数据、区域内矿井瓦斯防治风险数据、宏观安全环境风险数据4类;介绍了具有结构化特征的煤矿安全监控及瓦斯灾害预警数据、具有半结构化特征的监管监察执法检查数据、具有非结构化特征的煤矿音视频监控数据的采集技术,重点研究了基于.NET Core跨平台Web API的煤矿安全监控及瓦斯灾害预警数据采集技术,以及基于主题网络爬虫的宏观安全环境风险数据采集技术;设计了适用于互联网环境的区域煤矿瓦斯灾害风险预警数据采集系统,现场试验表明,该系统能够全面、可靠、及时地采集区域煤矿瓦斯灾害风险预警基础数据。 展开更多
关键词 区域煤矿 瓦斯灾害风险预警 数据采集 跨平台Web API 主题网络爬虫
下载PDF
一种基于超链接引导的主题搜索的主题敏感爬行方法 被引量:9
3
作者 蒋宗礼 徐学可 李帅 《计算机应用》 CSCD 北大核心 2008年第4期942-944,950,共4页
基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目... 基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是更准确地找到对用户有用的信息。探讨了主题爬虫的一些关键问题,通过改进主题模型、链接分类模型的学习方法及链接分析方法来提高下载网页的主题相关度及质量。在此基础上设计并实现了一个主题爬虫系统,该系统利用主题敏感HITS来计算网页优先级。实验表明效果良好。 展开更多
关键词 主题爬虫 超链接引导的主题搜索 主题模型
下载PDF
面向主题的WWW信息挖掘系统 被引量:7
4
作者 余晨 顾毓清 《计算机科学》 CSCD 北大核心 2003年第2期158-160,共3页
With the explosive growth of the World-Wide Web,it is becoming increasingly difficult for users to collect and analyze Web pages that are relevant to a particular topic. In this paper,Topic-Driven Web Information Gath... With the explosive growth of the World-Wide Web,it is becoming increasingly difficult for users to collect and analyze Web pages that are relevant to a particular topic. In this paper,Topic-Driven Web Information Gathering system is presented,which can efficiently collects Web pages for a topic in relatively limited hardware and network resources ,and keeps the pages more up-to-date. 展开更多
关键词 WWW 信息挖掘系统 网页 搜索引擎 信息检索
下载PDF
主题爬虫的设计与实现 被引量:7
5
作者 林子皓 《计算机技术与发展》 2014年第8期99-102,107,共5页
在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。文中在分析主题爬虫的结构及特征的基础上... 在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。文中在分析主题爬虫的结构及特征的基础上,通过引入自己的主题相关度评价方法以及HITS网页排序算法,构建了一个主题爬虫。文中给出了爬虫实现的具体步骤,以云计算为主题,进行了实验。实验结果较好地反映了主题爬虫的实用性。 展开更多
关键词 主题爬虫 HITS算法 主题相关度
下载PDF
一种基于语义分析的主题爬虫算法 被引量:7
6
作者 蒋宗礼 田晓燕 赵旭 《计算机工程与科学》 CSCD 北大核心 2010年第9期145-147,151,共4页
海量网页的存在及其量的急速增长使得通用搜索引擎难以为面向主题或领域的查询提供满意结果。本文研究的主题爬虫致力于收集主题相关信息,达到极大降低网页处理量的目的。它通过评价网页的主题相关度,并优先爬取相关度较高的网页。利用... 海量网页的存在及其量的急速增长使得通用搜索引擎难以为面向主题或领域的查询提供满意结果。本文研究的主题爬虫致力于收集主题相关信息,达到极大降低网页处理量的目的。它通过评价网页的主题相关度,并优先爬取相关度较高的网页。利用一种基于子空间的语义分析技术,并结合贝叶斯以及支持向量机,设计并实现了一个高效的主题爬虫。实验表明,此算法具有很好的准确性和高效性。 展开更多
关键词 主题爬虫 子空间 语义分析 支持向量机
下载PDF
基于共现词查询的主题爬虫研究 被引量:3
7
作者 葛玲 蒋宗礼 《计算机工程》 CAS CSCD 北大核心 2010年第8期286-288,共3页
通过建立一个共现词库改进主题模型,以提高下载网页的主题相关度及质量,并且能描述其语境的上下文,揣测用户意图,调节检索结果排序。在此基础上设计并实现一个FDC主题爬虫系统,该系统采用改进的主题敏感FDC-PageRank算法来计算网页优先... 通过建立一个共现词库改进主题模型,以提高下载网页的主题相关度及质量,并且能描述其语境的上下文,揣测用户意图,调节检索结果排序。在此基础上设计并实现一个FDC主题爬虫系统,该系统采用改进的主题敏感FDC-PageRank算法来计算网页优先级。实验表明其效果良好。 展开更多
关键词 主题爬虫 共现词 FDC主题模型 FDC_topic SENSITIVE PAGERANK算法
下载PDF
基于Hadoop的广域网分布式主题爬虫系统框架 被引量:5
8
作者 王淑芬 高军礼 +1 位作者 邹普 宋海涛 《计算机工程与科学》 CSCD 北大核心 2015年第4期670-675,共6页
广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息... 广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息中间件实现分布式可靠通信,数据存储采用可伸缩的Hadoop分布式文件系统HDFS,网页解析利用MapReduce并行处理,并基于模板匹配实现框架可定制。系统的性能仿真显示该框架具有支撑大规模爬虫并发工作的能力。 展开更多
关键词 分布式爬虫 HADOOP 爬虫框架 模板匹配 主题爬虫
下载PDF
基于动态主题库的主题爬虫 被引量:4
9
作者 金明珠 丁岳伟 《计算机应用》 CSCD 北大核心 2009年第B12期44-46,共3页
通过对基于不同策略过滤URL的主题爬虫的研究,提出了一种基于动态主题库的主题爬虫。它能够在运行期间实时地更新主题库,提高了对URL过滤的准确度。实验表明,所提的主题爬虫能够在相对较少的时间中,检索尽量少的网络空间,抓取到较多与... 通过对基于不同策略过滤URL的主题爬虫的研究,提出了一种基于动态主题库的主题爬虫。它能够在运行期间实时地更新主题库,提高了对URL过滤的准确度。实验表明,所提的主题爬虫能够在相对较少的时间中,检索尽量少的网络空间,抓取到较多与主题相关的网页。 展开更多
关键词 主题爬虫 动态主题库 URL过滤 主题相关度 未知字段
下载PDF
基于用户群的智能主题爬虫 被引量:3
10
作者 赵燕 陈晓云 +1 位作者 莫明辉 汤勇 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期230-233,共4页
提出一个基于用户群的智能主题爬虫系统CITC。它首先对用户群日志进行挖掘,得到相应的知识库。在知识库的指导下,CITC采用多重选择策略,对网页进行选择性爬取。实验结果表明,此系统能够基于用户群兴趣有效地抓取目的网页。
关键词 用户群 网页对偶筛选 知识库 主题爬虫 相关度
下载PDF
一种基于蚁群算法的主题爬虫搜索策略 被引量:4
11
作者 陈永彬 张琢 张添 《微型机与应用》 2011年第1期53-56,共4页
针对目前主题爬虫采用"启发式"搜索策略出现的"近视"缺点,提出了一种基于蚁群算法的主题爬虫搜索策略。该方法将蚁群算法引入到主题爬虫的搜索策略中,并对蚁群算法中信息素的更新计算进行了改进,使其具有一定的自... 针对目前主题爬虫采用"启发式"搜索策略出现的"近视"缺点,提出了一种基于蚁群算法的主题爬虫搜索策略。该方法将蚁群算法引入到主题爬虫的搜索策略中,并对蚁群算法中信息素的更新计算进行了改进,使其具有一定的自适应性。通过与其他搜索策略的比较实验,结果表明该算法能够更好地提高爬虫的全局搜索能力。 展开更多
关键词 主题爬虫 蚁群算法 搜索策略 信息素
下载PDF
融合BTM与TextCNN的文本语义增强主题爬虫研究
12
作者 艾芳菊 尹虓寅 《软件导刊》 2024年第3期21-26,共6页
在拥有海量数据的信息时代,如何高效精准地检索到所需信息是一项巨大挑战,主题爬虫是获取某个特定领域信息的有效途径。通用的主题相似度计算通常是基于词粒度的特征表达,而忽略了文本整体的主题特征表达,会影响爬虫系统的查准率和查全... 在拥有海量数据的信息时代,如何高效精准地检索到所需信息是一项巨大挑战,主题爬虫是获取某个特定领域信息的有效途径。通用的主题相似度计算通常是基于词粒度的特征表达,而忽略了文本整体的主题特征表达,会影响爬虫系统的查准率和查全率。对此,提出融合BTM与TextCNN模型的主题爬虫,将内容主题判别模块当作文本分类问题研究,通过融合BTM得到的文本主题向量与Word2vec词向量以增强文本语义信息,利用卷积神经网络提升判别模块的精确度,弥补了传统卷积神经网络分类模型中文本特征表示不充分的问题。实验结果表明,在开源新闻文本分类数据集(THUCNews)和自定义爬取的真实论文数据集中,融合BTM与TextCNN模型在测试集中的平均分类精准率分别为93.7%和91.3%,比只采用TextCNN的平均分类精确率分别提升了0.6、1.3个百分点。 展开更多
关键词 主题爬虫 主题相似度 TextCNN BTM Word2vec
下载PDF
网络爬虫软件的研究与开发 被引量:3
13
作者 李琳琢 《软件导刊》 2011年第5期142-144,共3页
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主... 作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。 展开更多
关键词 主题爬虫 向量空间模型 主题相关度 爬虫阻止协议
下载PDF
基于JavaScript等多链接分析的主题爬虫设计实现 被引量:4
14
作者 刘兵 《许昌学院学报》 CAS 2010年第2期87-90,共4页
针对页面中的大量动态链接,提出了模拟浏览器的解析方式进行页面链接的提取,并设计实现了基于JaveScript等多链接分析的主题爬虫系统.
关键词 主题爬虫 链接分析 相关度
下载PDF
自适应动态演化粒子群算法在Web主题信息搜索中的应用 被引量:4
15
作者 童亚拉 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2008年第12期1296-1299,共4页
针对传统的基于单一价值评价的网络爬虫搜索策略存在的不足,提出了一种基于自适应动态演化粒子群(adaptive dynamical evolutional particle swarm optimization,ADEPSO)的启发式网络爬虫搜索算法。本算法综合立即价值和未来价值两种链... 针对传统的基于单一价值评价的网络爬虫搜索策略存在的不足,提出了一种基于自适应动态演化粒子群(adaptive dynamical evolutional particle swarm optimization,ADEPSO)的启发式网络爬虫搜索算法。本算法综合立即价值和未来价值两种链接评价方法,并依据链接价值所反映的Web实际搜索情况动态调整两种价值的关系,使网络爬虫能更准确地预测页面的重要性。实验表明,该算法具有较高的搜索效率。 展开更多
关键词 网络爬虫 自适应动态演化粒子群 立即价值 未来价值
原文传递
Chameleon聚类算法在Web开源情报主题挖掘中的应用研究
16
作者 方世敏 《信息技术》 2024年第11期63-68,76,共7页
信息时代的开源情报传播速度快、体量大、时效性强,大量数据难以用人工进行分析,为了解决对海量数据分析的效率,研究设计了Web开源情报信息处理方法。该方法首先利用网络爬虫通过URL爬取目标情报,之后用DOM树对网页内容进行整理,采用Tex... 信息时代的开源情报传播速度快、体量大、时效性强,大量数据难以用人工进行分析,为了解决对海量数据分析的效率,研究设计了Web开源情报信息处理方法。该方法首先利用网络爬虫通过URL爬取目标情报,之后用DOM树对网页内容进行整理,采用TextRank算法提取关键词并使用Chameleon聚类算法构建主题挖掘模型,该模型用于情报主题生成,自动进行情报主题分析。性能测试表明,基于Chameleon聚类算法的Web开源情报信息处理方法能够对开源情报进行有效分析。 展开更多
关键词 CHAMELEON Web开源情报 主题挖掘 网络爬虫
下载PDF
一种主动发现网络地理信息服务的主题爬虫 被引量:4
17
作者 沈平 桂志鹏 +2 位作者 游兰 胡凯 吴华意 《地球信息科学学报》 CSCD 北大核心 2015年第2期185-190,共6页
地理信息服务已成为分布式环境下获取地理数据的重要来源,从海量的网络资源中找到地理信息服务,是共享与互操作地理数据的基础。目前,地理信息服务主动搜索主要采用通用搜索引擎的接口或者通用爬虫的抓取方式,但这2种方式存在搜索效率... 地理信息服务已成为分布式环境下获取地理数据的重要来源,从海量的网络资源中找到地理信息服务,是共享与互操作地理数据的基础。目前,地理信息服务主动搜索主要采用通用搜索引擎的接口或者通用爬虫的抓取方式,但这2种方式存在搜索效率低、搜索结果可用性差等不足。针对这一问题,本文设计了一种搜索地理信息服务的主题爬虫。该算法在最佳优先搜索的基础上进行了改进,综合考虑网页内容的主题相关度和链接文本的主题相关度确定链接优先级,优先爬取与地理信息服务相关的链接,并通过舍弃无关网页中的无关链接,减少无效爬取,进而提高搜索效率。此外,本文采用关键词匹配结合能力文档探测的方式识别地理信息服务,有效筛选出可用的地理信息服务,提高了服务搜索结果的可利用率。最后,本文以OGC WMS为实例,实现爬虫算法的原型系统并进行实验,实验证明该算法有效可行。 展开更多
关键词 主题爬虫 网络地理信息服务 最佳优先搜索 能力文档探测
原文传递
林业专题动态信息的搜索与集成 被引量:3
18
作者 张丽莎 张贵 +1 位作者 龙朝夕 张盛 《中南林业科技大学学报》 CAS CSCD 北大核心 2013年第5期47-51,共5页
针对普通的搜索引擎进行林业专题动态信息搜索时,返回的信息显得杂乱无章且主题相关性不足,结合用户需求,对林业专题动态信息进行分类,采用最佳优先搜索策略和向量空间模型算法,以及主题爬虫的搜索策略、结构及运行原理,提出了一套林业... 针对普通的搜索引擎进行林业专题动态信息搜索时,返回的信息显得杂乱无章且主题相关性不足,结合用户需求,对林业专题动态信息进行分类,采用最佳优先搜索策略和向量空间模型算法,以及主题爬虫的搜索策略、结构及运行原理,提出了一套林业专题动态信息搜索与集成的设计方案。实验表明,该设计方案的主题爬虫在抓取林业专题动态信息时的精确率、全面率和成功率明显优于普通爬虫。 展开更多
关键词 林业 专题动态信息 搜索 集成 主题爬虫
下载PDF
一个面向实时网页分类的主题特征提取算法 被引量:2
19
作者 彭浩 王雅琳 《计算机与现代化》 2008年第7期8-11,共4页
网页实时分类是聚焦爬虫需要解决的重要问题,现有主题特征提取方法多数是面向离线分类的,性能达不到应用要求。本文首先扩展了标签树表示模型DocView的节点类型,且将其作为加权的重要因素,然后提出一个面向实时网页分类的Web文本和文本... 网页实时分类是聚焦爬虫需要解决的重要问题,现有主题特征提取方法多数是面向离线分类的,性能达不到应用要求。本文首先扩展了标签树表示模型DocView的节点类型,且将其作为加权的重要因素,然后提出一个面向实时网页分类的Web文本和文本集主题特征提取算法。实验结果表明,算法的准确率提高了31%,主题偏移度降低了1倍多,能够满足应用要求。同时,还提出了一个新的主题特征提取性能评价模型。 展开更多
关键词 文本表示模型 实时分类 主题特征提取 聚焦爬虫
下载PDF
民航恐怖威胁信息预警系统的设计与实现 被引量:3
20
作者 韩萍 王杰 +4 位作者 贾云飞 牛勇钢 李杉 张俊东 吴炎泉 《中国民航大学学报》 CAS 2017年第5期36-40,共5页
为监测并及时向民航公安部门提供互联网微博中针对民航的恐怖威胁信息及信息源,提高民航安保效率,给出民航恐怖威胁信息预警系统的设计与实现方案。系统采用主题爬虫技术实现对微博信息的采集,运用情感分析方法评估微博信息的威胁度,并... 为监测并及时向民航公安部门提供互联网微博中针对民航的恐怖威胁信息及信息源,提高民航安保效率,给出民航恐怖威胁信息预警系统的设计与实现方案。系统采用主题爬虫技术实现对微博信息的采集,运用情感分析方法评估微博信息的威胁度,并划分威胁等级,综合运用数据可视化技术,为民航公安等机关部门提供预警信息。实际运行与测试结果表明,系统运行稳定且预警效果良好,可为民航公安部门提供有效的预警信息,及时防范不安全事件发生。 展开更多
关键词 民航安保 恐怖威胁信息 预警 微博 主题爬虫 情感分析
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部