-
题名Internet上多来源MSDS的统一检索方法
被引量:8
- 1
-
-
作者
李海波
李晓霞
袁小龙
郭力
-
机构
中国科学院过程工程研究所多相复杂系统国家重点实验室
中国科学院研究生院
-
出处
《计算机与应用化学》
CAS
CSCD
北大核心
2009年第6期828-832,共5页
-
基金
国家自然科学基金资助项目(90612015
20673119
20221603)
-
文摘
国际上称之为材料安全数据表的MSDS是一份关于化合物安全信息的综合性法律文件。随着人们安全意识的提高以及对职业健康、环境保护等认识的不断深入,MSDS作为一个安全信息文件越来越受重视。由于制作MSDS需要一定的成本,充分利用网络上免费的MSDS数据对于了解化合物的安全信息具有重要的参考价值。已有针对MSDS的搜索工具,一般只能检索单一来源的MSDS数据库,所以建立一个能通过一个查询同时检索多个来源数据库的MSDS搜索引擎,将为使用MSDS的人员提供极大方便。本文提出建立MSDS统一搜索引擎的框架,通过链接分析技术和深层网数据检索技术获取MSDS文件,然后缓存各数据源检索结果,并建立化合物索引以提高MSDS搜索引擎的响应速度。其实现过程包括发现与自动构造检索式模式、自动获取检索结果页面、利用数据提取的方法获取化合物标识信息以建立MSDS的化合物索引等多个方面,为建立一个可用的MSDS统一搜索引擎奠定坚实基础。
-
关键词
MSDS
搜索引擎
网络爬行
深层网检索
数据提取
-
Keywords
MSDS, search engine, network crawling, deep web searching, data extraction
-
分类号
O625.22
[理学—有机化学]
X132
[理学—化学]
-
-
题名WEB超链分析及应用
被引量:4
- 2
-
-
作者
向桂林
-
机构
中国科学院文献情报中心
-
出处
《大学图书馆学报》
CSSCI
北大核心
2002年第2期48-51,共4页
-
文摘
文章分析了传统的基于文本处理的信息检索算法在处理WEB页面时遇到的问题,指出在处理WEB页面时,应分析页面中超链的意义,给出了超链分析在网络爬行和检索结果排序两个方面的应用及相应的算法。
-
关键词
WEB页面
超链分析
信息检索
检索结果排序
网络爬行
田比连图算法
-
Keywords
Web Page, Hyperlink Analysis, Information Retrieval
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名搜索引擎Google的体系结构及其核心技术研究
被引量:8
- 3
-
-
作者
王德峰
李东
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《哈尔滨商业大学学报(自然科学版)》
CAS
2006年第1期84-87,共4页
-
文摘
Google采用了并行,索引桶,数据压缩,PageRank算法等的技术,建立了复杂的体系结构,包括网络爬行机器人crawler、知识库Repository、索引系统(包括索引器indexer,桶barrels,文件索引等)、排序器Sorter和搜索器Searcher五个部分.Google的rank系统综合了词频,类型,相邻度,网页重要性等因素.其中最值得一提的是计算网页重要性的PageRank算法,它把文献检索的引用理论应用到Web中,即一个网页有很多网页指向它,或者一些重要的网页指向它,则这个网页很重要.PageRank算法大大提高了检索效率.
-
关键词
搜索引擎
PAGERANK
GOOGLE
网络爬行机器人
排序
-
Keywords
search engine
PageRank
Google
crawler
sort
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名网络爬行虫智能化研究分析
被引量:3
- 4
-
-
作者
杜亚军
-
机构
西华大学数学与计算机学院
-
出处
《西华大学学报(自然科学版)》
CAS
2010年第2期217-222,共6页
-
基金
国家自然科学基金(60872089)
-
文摘
Web爬行虫是当今搜索引擎的主要组成部分,也是信息检索领域研究的热点问题。本文综述了具有一定智能性的网络爬行虫的研究历史与现状,主要包括两个方面:传统的人工智能方法如神经网络、遗传算法、蚁群算法等在网络爬行虫的应用,以及借助这些方法发展起来的主题爬行虫;多网络爬行虫系统中爬行虫的协调的Agent技术。在此基础上,提出了一个语义概念背景图的网络爬行的基本思路。
-
关键词
网络爬行虫
智能化
概念背景图
搜索引擎
-
Keywords
web crawler
intelligent
cencept context graph
search engine
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名基于支持向量机的网络舆情危机预警探究
被引量:3
- 5
-
-
作者
孙亮
-
机构
兰州文理学院数字媒体学院
-
出处
《自动化与仪器仪表》
2016年第11期138-139,共2页
-
文摘
针对信息化条件下的网络舆情分析需要,结合计算机理论,提出一种基于支持向量机算法的网络舆情预警模型。利用层次聚类算法对爬行器搜集到的数据进行预处理,从而提高数据的质量;结合网络舆情的相关预警指标,利用灰色理论模型构建网络舆情预测模型,并通过SVM支持向量机对预测的结果进行修正。最后通过仿真测试,与传统的预测模型相比,该算法具有较高的精确度。
-
关键词
支持向量机
舆情危机
预警
聚类算法
网络爬行器
-
Keywords
support vector machine
public opinion crisis
early warning
clustering algorithm
web crawler
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名一种新的基于概念树的主题网络爬虫方法
被引量:2
- 6
-
-
作者
谢志妮
-
机构
广东青年管理干部学院
-
出处
《计算机与现代化》
2010年第4期103-106,110,共5页
-
文摘
提出一种新的基于概念树的主题网络爬行方法。与传统基于关键词描述主题的方法不同,本文提出基于叙词表来构建一种称为概念树的表示方法来描述主题的概念。在此基础上,本文给出锚文本和HTML页面内容与主题相关度的计算方法。在分析URL的相关度时,首先判断其锚文本的相关度是否达到一定的阈值σ,只有当锚文本的相关度达不到σ时才会去下载URL对应的页面进行分析,否则将锚文本的相关度作为URL的相关度。这样的URL相关度计算方法可以大大减少不必要的计算开销,又可以充分地利用锚文本的信息。为了比较准确合理地获得阈值σ的取值,本文采用了最小均方差(LMS)的方法。
-
关键词
概念树
主题网络爬行
锚文本
主题相关度
-
Keywords
concept tree
Web crawling topics
anchor text
subject correlation
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名数字时代大学生信息需求探讨及图书馆策略
被引量:1
- 7
-
-
作者
史庆艳
-
机构
重庆理工大学图书馆
-
出处
《晋图学刊》
2010年第5期15-17,共3页
-
文摘
笔者结合华盛顿大学信息学院的"信息素质计划"在2009年12月发表的《数字时代的大学生如何搜索信息》报告,分析探讨了目前高校图书馆读者获取信息的三种主要途径及读者对图书馆的需求。在此基础上,提出了高校图书馆为满足读者的需求应该做的努力和改变,愿图书馆成为读者最重要的驿站。
-
关键词
信息需求
搜索引擎
数据库
馆藏资源
网络爬行技术
-
Keywords
information needs
search engines
databases
library resources
Web Crawling Technology
-
分类号
G259.712
[文化科学—图书馆学]
-
-
题名网络爬行器的分布式设计
- 8
-
-
作者
李卫疆
赵铁军
朴星海
-
机构
昆明理工大学省计算机应用重点实验室
哈尔滨工业大学计算机科学与技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第4期105-107,共3页
-
基金
国家自然科学基金资助重点项目“下一代信息检索研究”(60736044)
-
文摘
目前单机版的网络爬行器已无法在一个有效的时间范围内完成一次搜集整个Web的任务。该文采用分布式网络爬行器加以解决。在分布式设计中,主要考虑节点内部多个线程的并行和节点之间的分布式并行,包括分布式网络爬行器的策略选择和动态可配置性2个方面。实验结果显示站点散列法基本达到了分布式设计的目标,在追求负载平衡的同时将系统的通信和管理开销降到最低。
-
关键词
网络爬行器
分布式
多线程
-
Keywords
Web crawler
distribution
multi-thread
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-