期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
Deep Web爬虫研究与设计 被引量:28
1
作者 郑冬冬 赵朋朋 崔志明 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1896-1902,共7页
随着W eb的发展,越来越多的数据可以通过表单提交来获取,这些表单提交所产生信息是由D eep W eb后台数据库动态产生的。在这种情况下,信息集成就更加需要W eb爬虫来自动获取这些页面以进一步地处理数据。为了帮助用户完成这样的任务,提... 随着W eb的发展,越来越多的数据可以通过表单提交来获取,这些表单提交所产生信息是由D eep W eb后台数据库动态产生的。在这种情况下,信息集成就更加需要W eb爬虫来自动获取这些页面以进一步地处理数据。为了帮助用户完成这样的任务,提出一种用于搜集D eep W eb页面的爬虫的设计方法。此方法使用一个预定义的领域本体知识库来识别这些页面的内容,同时利用一些来自W eb站点的导航模式来识别自动填写表单时所需进行的路径导航。通过对来自不同领域的D eep W eb站点的大量实验,验证了此方法是非常有效的。 展开更多
关键词 deepweb 导航模式 领域本体知识库 爬虫
原文传递
关于中国Deep Web的规模、分布和结构 被引量:13
2
作者 赵朋朋 崔志明 +1 位作者 高岭 仲华 《小型微型计算机系统》 CSCD 北大核心 2007年第10期1799-1802,共4页
随着Web数据库的广泛应用,Web正在加速的"深化",大量的高质量的信息隐藏在Deep Web中.基于IP采样的方法,对1,000,000个IP样本进行了分析统计,揭示了2006年初中国Deep Web的规模、分布和结构.主要结论包括有:1中国Deep Web查... 随着Web数据库的广泛应用,Web正在加速的"深化",大量的高质量的信息隐藏在Deep Web中.基于IP采样的方法,对1,000,000个IP样本进行了分析统计,揭示了2006年初中国Deep Web的规模、分布和结构.主要结论包括有:1中国Deep Web查询接口往往位于站点浅层,94.6%的Deep Web查询接口出现在站点的前3层;2中国Deep Web大约有24,000个站点,28,000个Web数据库和74,000个查询接口;3中国Deep Web大部分是非结构化的,其中64%是非结构化的Web数据库;4中国Deep Web分布于多种不同的主题领域;5目前主要的中文搜索引擎已覆盖国内Deep Web大约二分之一的页面. 展开更多
关键词 deepweb WEB数据库 查询接口
下载PDF
D-EEM:一种基于DOM树的Deep Web实体抽取机制 被引量:16
3
作者 寇月 李冬 +2 位作者 申德荣 于戈 聂铁铮 《计算机研究与发展》 EI CSCD 北大核心 2010年第5期858-865,共8页
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DO... 随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势. 展开更多
关键词 实体抽取 DOM树 deepweb 数据区域定位 实体区域定位
下载PDF
基于XQuery的Deep Web搜索系统的设计与实现 被引量:2
4
作者 孙彬 王东 李娟 《科学技术与工程》 2007年第16期4080-4084,共5页
随着Web技术的发展,越来越多的信息需要通过Deep Web来获取,爬虫搜索系统是完成Deep Web搜索的重要技术手段。提出一种基于XPath的Web搜索系统的设计方法,它通过采集URL目标,分析目标URL的Web结构,维护URL本体知识库,达到深度积累页面... 随着Web技术的发展,越来越多的信息需要通过Deep Web来获取,爬虫搜索系统是完成Deep Web搜索的重要技术手段。提出一种基于XPath的Web搜索系统的设计方法,它通过采集URL目标,分析目标URL的Web结构,维护URL本体知识库,达到深度积累页面的目的。 展开更多
关键词 deepweb XQUERY 爬虫 搜索
下载PDF
深度Web资源探测系统的研究与实现 被引量:7
5
作者 李涛 陈鹏 李哲 《微计算机信息》 北大核心 2007年第33期185-187,共3页
本文介绍了深度Web的资源重要性和传统爬虫工作的原理。为了能够更好的利用传统爬虫获取深度Web资源和解决传统爬虫在工作中的不足,提出了一种任务可定制化的爬虫框架,并基于可定制化的任务,实现探测网络深度资源的功能。
关键词 CRAWLER DEEP SEARCH deepweb 基于站点爬行
下载PDF
基于词性分析和领域知识的Deep Web语义标注 被引量:7
6
作者 魏勇刚 张国春 +1 位作者 常勇 袁方 《郑州大学学报(理学版)》 CAS 北大核心 2009年第1期52-55,共4页
基于对中文Deep Web查询结果的词性分析,提出一种基于中文词性和领域知识的Deep Web语义标注方法.借助中文分词工具得到Deep Web查询结果的词性,并根据词性或词性组合与语义建立映射规则,同时结合领域知识进行语义标注.实验表明,该方法... 基于对中文Deep Web查询结果的词性分析,提出一种基于中文词性和领域知识的Deep Web语义标注方法.借助中文分词工具得到Deep Web查询结果的词性,并根据词性或词性组合与语义建立映射规则,同时结合领域知识进行语义标注.实验表明,该方法能够在多个领域对Deep Web查询结果进行正确的语义标注,从而验证了该方法的有效性. 展开更多
关键词 deepweb 中文词性 领域知识 数据预处理 语义标注
下载PDF
Deep Web入口探测与分类方法研究 被引量:2
7
作者 张亮 陆余良 刘金红 《计算机应用研究》 CSCD 北大核心 2009年第12期4697-4700,4703,共5页
传统的使用语料库对入口标签字符串进行匹配的方法受限于语料库的完整性和匹配算法的灵活性。为突破这种局限,引入了基于表单元件统计特征的Deep Web入口探测方法和使用文本分类方法对其进行分类的双层分类模型,并提出了两种特征权重计... 传统的使用语料库对入口标签字符串进行匹配的方法受限于语料库的完整性和匹配算法的灵活性。为突破这种局限,引入了基于表单元件统计特征的Deep Web入口探测方法和使用文本分类方法对其进行分类的双层分类模型,并提出了两种特征权重计算方法用于特征选取。在TEL-8 Query Interfaces数据集上,测试结果体现了双层分类模型的优越性和特征向量维归约的必要性。 展开更多
关键词 deepweb 网络爬虫 结构特征 维归约 双层分类模型
下载PDF
XQuery Web搜索系统的设计与实现 被引量:1
8
作者 李越 孙彬 王东 《新疆石油天然气》 CAS 2007年第2期94-96,共3页
随着Web技术的发展,越来越多的信息需要通过Deep Web来获取,本文提出一种基于XPath的Web搜索系统的设计方法,它通过采集URL目标,分析目标Web结构,达到积累页面的目的。
关键词 deepweb XQUERY 爬虫 搜索
下载PDF
一种基于知识工程的DeepWeb信息抽取方法
9
作者 乌尔柯西 杨抒 +1 位作者 王业 游香薷 《计算机技术与发展》 2016年第9期183-186,191,共5页
DeepWeb中蕴含的信息越发庞大并且价值可观。但是由于DeepWeb信息的高度异构性、自主性、动态性以及不完整性,DeepWeb主题性网站的设计风格、页面结构、显示内容的不同,JavaScript技术的广泛使用等因素,使传统的抽取技术无法有效自动化... DeepWeb中蕴含的信息越发庞大并且价值可观。但是由于DeepWeb信息的高度异构性、自主性、动态性以及不完整性,DeepWeb主题性网站的设计风格、页面结构、显示内容的不同,JavaScript技术的广泛使用等因素,使传统的抽取技术无法有效自动化集成蕴含在DeepWeb中的高质量信息资源。提出一种基于KBE(知识工程)的DeepWeb信息抽取方法。通过对目标DeepWeb的页面模式、页面HTML结构、页面视觉信息等进行分析、整合,利用HTML DOM(Document Object Model)树解析算法,自动或半自动方式匹配出符合页面模式、页面HTML结构以及目标信息源等元素的模板,来对DeepWeb中的信息进行定位,从而得到页面中的自由文本,结构化和半结构化数据。实验以大量嵌套结构的网站数据作为数据来源,验证了抽取方法的有效性。 展开更多
关键词 deepweb JavaScript技术 嵌套结构 DOM树 抽取模型
下载PDF
基于xml的Deep Web信息自动抽取技术的研究
10
作者 彭媛媛 许建潮 《科技信息》 2009年第33期85-85,104,共2页
随着近年来Internet的飞速发展,Deep Web已成为网络信息资源的重要组成部分,用户通过查询接口在线访问其后端的Web数据库来动态的获取其中蕴含的海量信息。由于Deep Web资源分布在各个Deep Web站点,具有异构、动态、数据量大等特点,使... 随着近年来Internet的飞速发展,Deep Web已成为网络信息资源的重要组成部分,用户通过查询接口在线访问其后端的Web数据库来动态的获取其中蕴含的海量信息。由于Deep Web资源分布在各个Deep Web站点,具有异构、动态、数据量大等特点,使用起来较为不便,因此,面向DeepWeb的数据集成系统便应运而生。本文对Deep Web数据集成系统中的数据抽取技术进行了研究,提出了基于xml的Deep Web数据自动抽取方法,并作了详细的技术分析与研究,它能够快速有效地抽取出Deep Web资源,具有抽取准确度高,抽取粒度细等特点。 展开更多
关键词 信息提取 deepweb deepweb数据集成 XML
下载PDF
面向学术领域的Web引文资源整合系统 被引量:2
11
作者 石杰 薛见新 +3 位作者 聂铁铮 寇月 申德荣 于戈 《计算机研究与发展》 EI CSCD 北大核心 2011年第S3期370-373,共4页
为了使收录各种会议期刊论文的孤立的数据源能够更好地实现资源共享,设计并实现了面向学术领域的Web引文资源整合系统.用户通过系统提供的统一接口,获得各数据源的集成查询结果.系统中,二次查询补全属性为较为关键的技术.首先对系统体... 为了使收录各种会议期刊论文的孤立的数据源能够更好地实现资源共享,设计并实现了面向学术领域的Web引文资源整合系统.用户通过系统提供的统一接口,获得各数据源的集成查询结果.系统中,二次查询补全属性为较为关键的技术.首先对系统体系架构进行介绍,然后讨论了二次查询补全属性的全面性和必要性,最后阐述了系统的演示步骤和演示环境. 展开更多
关键词 deepweb 属性补全 引文整合
下载PDF
Deep Web集成系统中同类主题数据源选择方法 被引量:1
12
作者 王成良 桑银邦 《计算机应用研究》 CSCD 北大核心 2011年第9期3364-3367,共4页
提出了一个同类主题的Deep Web数据源选择方法,该方法通过数据源差异性分析可有效判断出新数据源的内容与集成系统中已有内容的重复度,进而利用查准率和查全率建立质量估计模型评估各数据源的质量,削弱了已有研究中因查准率低对质量评... 提出了一个同类主题的Deep Web数据源选择方法,该方法通过数据源差异性分析可有效判断出新数据源的内容与集成系统中已有内容的重复度,进而利用查准率和查全率建立质量估计模型评估各数据源的质量,削弱了已有研究中因查准率低对质量评估产生的负面影响。在主流图书类网站上的实验结果表明,该方法能减少系统的负担,同时获取质量较高的同类主题的数据源。 展开更多
关键词 差异性分析 deepweb 数据源选择 质量评估模型
下载PDF
Deep Web数据集成系统中的查询效率优化 被引量:2
13
作者 刘鸿飞 《河北省科学院学报》 CAS 2009年第2期11-13,共3页
Deep Web能够提供大量高质量的信息,为了有效地利用这些信息,建立Deep Web数据集成系统是重要手段。Deep Web数据集成系统的查询效率是其应用的关键。本文采用建立本地索引数据库的方式以提高查询效率,在此基础上提出了其相应的更新策略... Deep Web能够提供大量高质量的信息,为了有效地利用这些信息,建立Deep Web数据集成系统是重要手段。Deep Web数据集成系统的查询效率是其应用的关键。本文采用建立本地索引数据库的方式以提高查询效率,在此基础上提出了其相应的更新策略,并给出了算法分析。 展开更多
关键词 deepweb 统一查询接口 查询效率
下载PDF
基于关联挖掘和语义聚类的Deep Web复杂匹配方法 被引量:1
14
作者 曹庆皇 鞠时光 杨晓琴 《计算机应用研究》 CSCD 北大核心 2009年第12期4613-4616,共4页
为了提高DeepW eb查询接口匹配的效率和准确率,在现有双重相关性挖掘方法(DCM)的基础上提出了一种用关联挖掘和语义聚类来匹配的方法。在关联挖掘成组属性时,引入一种基于互信息的属性相关度标准,并采用矩阵来实现以解决效率不高问题;... 为了提高DeepW eb查询接口匹配的效率和准确率,在现有双重相关性挖掘方法(DCM)的基础上提出了一种用关联挖掘和语义聚类来匹配的方法。在关联挖掘成组属性时,引入一种基于互信息的属性相关度标准,并采用矩阵来实现以解决效率不高问题;在生成同义属性时,提出利用语义网来计算语义相似度,并对属性进行聚类,以生成同义属性。通过在四个领域200多个查询接口上实验,说明改进的方法在效率和准确率方面都比DCM方法有很大提高。 展开更多
关键词 deepweb 矩阵关联挖掘 语义聚类 复杂匹配 语义网
下载PDF
基于个性化图书馆的Deep Web Crawler研究与实现 被引量:1
15
作者 张云冬 徐和祥 +1 位作者 胡运发 邓河 《计算机应用与软件》 CSCD 2009年第4期148-149,252,共3页
为了整合复旦图书馆数字化论文资源,来为教授提供个性化推荐服务,使用sniffer监听网络信息,模拟IE的浏览行为,实现了针对Vip、ISI和Metalib三个数据源的Deep Web Crawler,并研究了通用Deep Web Crawler的系统框架和功能模块。
关键词 deepweb 模式匹配 信息抽取
下载PDF
基于最小可查询模式的Deep Web查询
16
作者 刘均 蒋路 +2 位作者 吴朝晖 郑庆华 潘军 《中国科技论文在线》 CAS 2010年第2期97-105,共9页
给出了最小可查询模式MEP的概念,并在此基础上提出了MEP生成算法与基于MEP的自适应查询方法。该方法将查询接口由单文本框推广到最小可查询模式集,一次查询由一个MEP和与该MEP匹配的关键词向量共同确定,自适应地产生期望最优的下一个查... 给出了最小可查询模式MEP的概念,并在此基础上提出了MEP生成算法与基于MEP的自适应查询方法。该方法将查询接口由单文本框推广到最小可查询模式集,一次查询由一个MEP和与该MEP匹配的关键词向量共同确定,自适应地产生期望最优的下一个查询,直到满足查询停止条件。该方法克服了当前Deep Web查询方法能力不足导致的"数据孤岛"问题。在6个实际Deep Web站点的实验表明,该方法比已有方法具有更强的查询能力与适用性。 展开更多
关键词 deepweb 最小可查询模式 自适应查询
下载PDF
基于启发式信息的Deep Web结果模式获取方法
17
作者 李明 李秀兰 《计算机应用研究》 CSCD 北大核心 2011年第8期3026-3029,共4页
获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得... 获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得到对应Deep Web的结果模式,并对其进行规范化处理,解决不同数据源结果模式的结构不一致问题。实验验证该方法可以有效地获取Deep Web的结果模式信息。 展开更多
关键词 deepweb 结果模式 网页数据特征矩阵 启发式信息
下载PDF
三段式逐步求精的中文Deep Web数据源自动分类
18
作者 胡萍 《电脑知识与技术(过刊)》 2009年第5X期3599-3601,共3页
针对单纯的Pre-query和单纯的Post-query分类方法对中文Deep Web数据源自动分类的不足,本文提出了三段式逐步求精的中文Deep Web数据源自动分类方法,并且基于该方法设计了相应的分类系统。通过实验表明:对于实验数据源,这种自动分类方... 针对单纯的Pre-query和单纯的Post-query分类方法对中文Deep Web数据源自动分类的不足,本文提出了三段式逐步求精的中文Deep Web数据源自动分类方法,并且基于该方法设计了相应的分类系统。通过实验表明:对于实验数据源,这种自动分类方法比单纯的Pre-query分类方法、单纯的Post-query分类方法以及无影响度差别的文献[2]的分类方法的查全率、查准率和F1值都要高。 展开更多
关键词 deepweb 数据源自动分类 中文 三段式
下载PDF
基于用户模式Deep Web检索系统的研究
19
作者 李益民 魏立新 解成俊 《计算机工程与设计》 CSCD 北大核心 2009年第3期767-769,共3页
针对传统Web数据集成系统实用性、伸缩性和适应性差的问题,提出了一种新的Web数据集成系统体系结构UQSIQ,实现Web规模的数据集成。系统根据用户查询的模式映射相关领域,选择Web数据库,执行查询排序查询结果。介绍了组成系统的关键组件,... 针对传统Web数据集成系统实用性、伸缩性和适应性差的问题,提出了一种新的Web数据集成系统体系结构UQSIQ,实现Web规模的数据集成。系统根据用户查询的模式映射相关领域,选择Web数据库,执行查询排序查询结果。介绍了组成系统的关键组件,及领域映射和用户模式匹配等处理大规模异构Web数据的关键技术。 展开更多
关键词 deepweb 数据集成 查询模式 领域映射 模式匹配
下载PDF
基于Deep Web数据集成的个性化信息服务研究
20
作者 张云坤 《现代情报》 CSSCI 2010年第10期74-76,共3页
互联网和信息数字化的高度发展为信息查询带来了新的挑战,如何改善查询模式使用户从海量的数据中快速找到真正需要的信息成为了当前业界亟待解决的课题。本文描述了一种个性化信息服务模型,使用DeepWeb数据集成技术设计了一个图书馆数... 互联网和信息数字化的高度发展为信息查询带来了新的挑战,如何改善查询模式使用户从海量的数据中快速找到真正需要的信息成为了当前业界亟待解决的课题。本文描述了一种个性化信息服务模型,使用DeepWeb数据集成技术设计了一个图书馆数字资源个性化信息服务系统,实现了以用户为中心的图书馆信息服务。 展开更多
关键词 deepweb 个性化服务 数据集成
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部