期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
Internet上多来源MSDS的统一检索方法 被引量:8
1
作者 李海波 李晓霞 +1 位作者 袁小龙 郭力 《计算机与应用化学》 CAS CSCD 北大核心 2009年第6期828-832,共5页
国际上称之为材料安全数据表的MSDS是一份关于化合物安全信息的综合性法律文件。随着人们安全意识的提高以及对职业健康、环境保护等认识的不断深入,MSDS作为一个安全信息文件越来越受重视。由于制作MSDS需要一定的成本,充分利用网络上... 国际上称之为材料安全数据表的MSDS是一份关于化合物安全信息的综合性法律文件。随着人们安全意识的提高以及对职业健康、环境保护等认识的不断深入,MSDS作为一个安全信息文件越来越受重视。由于制作MSDS需要一定的成本,充分利用网络上免费的MSDS数据对于了解化合物的安全信息具有重要的参考价值。已有针对MSDS的搜索工具,一般只能检索单一来源的MSDS数据库,所以建立一个能通过一个查询同时检索多个来源数据库的MSDS搜索引擎,将为使用MSDS的人员提供极大方便。本文提出建立MSDS统一搜索引擎的框架,通过链接分析技术和深层网数据检索技术获取MSDS文件,然后缓存各数据源检索结果,并建立化合物索引以提高MSDS搜索引擎的响应速度。其实现过程包括发现与自动构造检索式模式、自动获取检索结果页面、利用数据提取的方法获取化合物标识信息以建立MSDS的化合物索引等多个方面,为建立一个可用的MSDS统一搜索引擎奠定坚实基础。 展开更多
关键词 MSDS 搜索引擎 网络爬行 深层网检索 数据提取
原文传递
WEB超链分析及应用 被引量:4
2
作者 向桂林 《大学图书馆学报》 CSSCI 北大核心 2002年第2期48-51,共4页
文章分析了传统的基于文本处理的信息检索算法在处理WEB页面时遇到的问题,指出在处理WEB页面时,应分析页面中超链的意义,给出了超链分析在网络爬行和检索结果排序两个方面的应用及相应的算法。
关键词 WEB页面 超链分析 信息检索 检索结果排序 网络爬行 田比连图算法
下载PDF
搜索引擎Google的体系结构及其核心技术研究 被引量:8
3
作者 王德峰 李东 《哈尔滨商业大学学报(自然科学版)》 CAS 2006年第1期84-87,共4页
Google采用了并行,索引桶,数据压缩,PageRank算法等的技术,建立了复杂的体系结构,包括网络爬行机器人crawler、知识库Repository、索引系统(包括索引器indexer,桶barrels,文件索引等)、排序器Sorter和搜索器Searcher五个部分.Google的r... Google采用了并行,索引桶,数据压缩,PageRank算法等的技术,建立了复杂的体系结构,包括网络爬行机器人crawler、知识库Repository、索引系统(包括索引器indexer,桶barrels,文件索引等)、排序器Sorter和搜索器Searcher五个部分.Google的rank系统综合了词频,类型,相邻度,网页重要性等因素.其中最值得一提的是计算网页重要性的PageRank算法,它把文献检索的引用理论应用到Web中,即一个网页有很多网页指向它,或者一些重要的网页指向它,则这个网页很重要.PageRank算法大大提高了检索效率. 展开更多
关键词 搜索引擎 PAGERANK GOOGLE 网络爬行机器人 排序
下载PDF
网络爬行虫智能化研究分析 被引量:3
4
作者 杜亚军 《西华大学学报(自然科学版)》 CAS 2010年第2期217-222,共6页
Web爬行虫是当今搜索引擎的主要组成部分,也是信息检索领域研究的热点问题。本文综述了具有一定智能性的网络爬行虫的研究历史与现状,主要包括两个方面:传统的人工智能方法如神经网络、遗传算法、蚁群算法等在网络爬行虫的应用,以及借... Web爬行虫是当今搜索引擎的主要组成部分,也是信息检索领域研究的热点问题。本文综述了具有一定智能性的网络爬行虫的研究历史与现状,主要包括两个方面:传统的人工智能方法如神经网络、遗传算法、蚁群算法等在网络爬行虫的应用,以及借助这些方法发展起来的主题爬行虫;多网络爬行虫系统中爬行虫的协调的Agent技术。在此基础上,提出了一个语义概念背景图的网络爬行的基本思路。 展开更多
关键词 网络爬行 智能化 概念背景图 搜索引擎
下载PDF
基于支持向量机的网络舆情危机预警探究 被引量:3
5
作者 孙亮 《自动化与仪器仪表》 2016年第11期138-139,共2页
针对信息化条件下的网络舆情分析需要,结合计算机理论,提出一种基于支持向量机算法的网络舆情预警模型。利用层次聚类算法对爬行器搜集到的数据进行预处理,从而提高数据的质量;结合网络舆情的相关预警指标,利用灰色理论模型构建网络舆... 针对信息化条件下的网络舆情分析需要,结合计算机理论,提出一种基于支持向量机算法的网络舆情预警模型。利用层次聚类算法对爬行器搜集到的数据进行预处理,从而提高数据的质量;结合网络舆情的相关预警指标,利用灰色理论模型构建网络舆情预测模型,并通过SVM支持向量机对预测的结果进行修正。最后通过仿真测试,与传统的预测模型相比,该算法具有较高的精确度。 展开更多
关键词 支持向量机 舆情危机 预警 聚类算法 网络爬行
原文传递
一种新的基于概念树的主题网络爬虫方法 被引量:2
6
作者 谢志妮 《计算机与现代化》 2010年第4期103-106,110,共5页
提出一种新的基于概念树的主题网络爬行方法。与传统基于关键词描述主题的方法不同,本文提出基于叙词表来构建一种称为概念树的表示方法来描述主题的概念。在此基础上,本文给出锚文本和HTML页面内容与主题相关度的计算方法。在分析URL... 提出一种新的基于概念树的主题网络爬行方法。与传统基于关键词描述主题的方法不同,本文提出基于叙词表来构建一种称为概念树的表示方法来描述主题的概念。在此基础上,本文给出锚文本和HTML页面内容与主题相关度的计算方法。在分析URL的相关度时,首先判断其锚文本的相关度是否达到一定的阈值σ,只有当锚文本的相关度达不到σ时才会去下载URL对应的页面进行分析,否则将锚文本的相关度作为URL的相关度。这样的URL相关度计算方法可以大大减少不必要的计算开销,又可以充分地利用锚文本的信息。为了比较准确合理地获得阈值σ的取值,本文采用了最小均方差(LMS)的方法。 展开更多
关键词 概念树 主题网络爬行 锚文本 主题相关度
下载PDF
数字时代大学生信息需求探讨及图书馆策略 被引量:1
7
作者 史庆艳 《晋图学刊》 2010年第5期15-17,共3页
笔者结合华盛顿大学信息学院的"信息素质计划"在2009年12月发表的《数字时代的大学生如何搜索信息》报告,分析探讨了目前高校图书馆读者获取信息的三种主要途径及读者对图书馆的需求。在此基础上,提出了高校图书馆为满足读者... 笔者结合华盛顿大学信息学院的"信息素质计划"在2009年12月发表的《数字时代的大学生如何搜索信息》报告,分析探讨了目前高校图书馆读者获取信息的三种主要途径及读者对图书馆的需求。在此基础上,提出了高校图书馆为满足读者的需求应该做的努力和改变,愿图书馆成为读者最重要的驿站。 展开更多
关键词 信息需求 搜索引擎 数据库 馆藏资源 网络爬行技术
下载PDF
网络爬行器的分布式设计
8
作者 李卫疆 赵铁军 朴星海 《计算机工程》 CAS CSCD 北大核心 2009年第4期105-107,共3页
目前单机版的网络爬行器已无法在一个有效的时间范围内完成一次搜集整个Web的任务。该文采用分布式网络爬行器加以解决。在分布式设计中,主要考虑节点内部多个线程的并行和节点之间的分布式并行,包括分布式网络爬行器的策略选择和动态... 目前单机版的网络爬行器已无法在一个有效的时间范围内完成一次搜集整个Web的任务。该文采用分布式网络爬行器加以解决。在分布式设计中,主要考虑节点内部多个线程的并行和节点之间的分布式并行,包括分布式网络爬行器的策略选择和动态可配置性2个方面。实验结果显示站点散列法基本达到了分布式设计的目标,在追求负载平衡的同时将系统的通信和管理开销降到最低。 展开更多
关键词 网络爬行 分布式 多线程
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部