期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
基于网页上下文的Deep Web数据库分类 被引量:31
1
作者 马军 宋玲 +1 位作者 韩晓晖 闫泼 《软件学报》 EI CSCD 北大核心 2008年第2期267-274,共8页
讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属... 讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属性标记词的归一过程是把同义标记词用代表词进行替代的过程.给出了采用分层模糊集合对给定学习实例所发现的领域和语言知识进行表示和基于这些知识对标记词归一化算法.基于上述预处理,给出了计算Deep Web数据库的K-NN(k nearest neighbors)分类算法,其中对数据库之间语义距离计算综合了数据库表之间和含有数据库表的网页的内容文本之间的语义距离.分类实验给出算法对未预处理的网页和经过预处理后的网页在数据库分类精度、查全率和综合F1等测度上的分类结果比较. 展开更多
关键词 DEEP web 隐式web 数据库分类 内容文本抽取 语义分类
下载PDF
使用分类器自动发现特定领域的深度网入口(英文) 被引量:14
2
作者 王辉 刘艳威 左万利 《软件学报》 EI CSCD 北大核心 2008年第2期246-256,共11页
在深度网研究领域,通用搜索引擎(比如Google和Yahoo)具有许多不足之处:它们各自所能覆盖的数据量与整个深度网数据总量的比值小于1/3;与表层网中的情况不同,几个搜索引擎相结合所能覆盖的数据量基本没有发生变化.许多深度网站点能够提... 在深度网研究领域,通用搜索引擎(比如Google和Yahoo)具有许多不足之处:它们各自所能覆盖的数据量与整个深度网数据总量的比值小于1/3;与表层网中的情况不同,几个搜索引擎相结合所能覆盖的数据量基本没有发生变化.许多深度网站点能够提供大量高质量的信息,并且,深度网正在逐渐成为一个最重要的信息资源.提出了一个三分类器的框架,用于自动识别特定领域的深度网入口.查询接口得到以后,可以将它们进行集成,然后将一个统一的接口提交给用户以方便他们查询信息.通过8组大规模的实验,验证了所提出的方法可以准确高效地发现特定领域的深度网入口. 展开更多
关键词 深度网 深度网 表层网 深度网入口 搜索表单
下载PDF
基于标记树对象抽取技术的Hidden Web获取研究 被引量:9
3
作者 宋晖 张岭 +1 位作者 叶允明 马范援 《计算机工程与应用》 CSCD 北大核心 2002年第23期9-12,24,共5页
目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该... 目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该文提出了一套检索HiddenWeb信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术。系统采用新的基于标记树的对象抽取(Tag-Tree-basedObjectExtraction)方法自动地从Web页面中抽取HiddenWeb信息,然后在此基础上给出了结构化的HiddenWeb信息查询算法。文章最后对实验结果进行了讨论。 展开更多
关键词 标记树 对象抽取 hiddenweb 互联网 搜索引擎 信息检索 结构化查询 数据库
下载PDF
Searching Databases with Keywords 被引量:16
4
作者 ShanWang Kun-LongZhang 《Journal of Computer Science & Technology》 SCIE EI CSCD 2005年第1期55-62,共8页
Traditionally, SQL query language is used to search the data in databases. However, it is inappropriate for end-users, since it is complex and hard to learn. It is the need of end-user, searching in databases with key... Traditionally, SQL query language is used to search the data in databases. However, it is inappropriate for end-users, since it is complex and hard to learn. It is the need of end-user, searching in databases with keywords, like in web search engines. This paper presents a survey of work on keyword search in databases. It also includes a brief introduction to the SEEKER system which has been developed. 展开更多
关键词 relational databases keyword search hidden web information system integration
原文传递
埋藏的web财宝——隐形网络的搜索利用 被引量:12
5
作者 陈红勤 《现代情报》 北大核心 2005年第7期157-159,共3页
隐形网络蕴藏着丰富的、高质量的信息资源,但却难以获得。本文介绍了隐形网络的概念、类型和形成原因,分析了隐形网络的内容,指出了查找隐形网络的途径和工具。
关键词 隐形网络 隐蔽网络 深网 看不见的网络
下载PDF
Hidden Web信息获取 被引量:3
6
作者 陈珂 陈小英 徐科 《计算机时代》 2007年第5期54-56,共3页
如今Web上越来越多的信息可以通过查询接口获得,但为了获取某Hidden Web站点的页面,用户不得不键入一系列的关键词。由于没有直接指向Hidden Web页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,研究表明,由Hidden Web站... 如今Web上越来越多的信息可以通过查询接口获得,但为了获取某Hidden Web站点的页面,用户不得不键入一系列的关键词。由于没有直接指向Hidden Web页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,研究表明,由Hidden Web站点提供的高质量的信息对许多用户来说非常有价值。文章通过研究针对特定类型的表单,建立一个有效的Hidden Web爬虫,以便获取Hidden Web后台数据库信息。 展开更多
关键词 hidden web hidden web爬虫 静态链接 搜索引擎 采样策略
下载PDF
隐形网页资源产生原因与开发利用 被引量:4
7
作者 刘新周 《农业图书情报学刊》 2006年第2期28-31,共4页
隐形网页资源是因特网上重要的信息资源,充分高效地利用这些资源是广大网络用户非常重视和急需解决的问题。文章对隐形网页的现状、隐形网页产生的原因、研究隐形网页重要性等方面进行了多角度、全方位的论述。最后重点探讨了隐形网页... 隐形网页资源是因特网上重要的信息资源,充分高效地利用这些资源是广大网络用户非常重视和急需解决的问题。文章对隐形网页的现状、隐形网页产生的原因、研究隐形网页重要性等方面进行了多角度、全方位的论述。最后重点探讨了隐形网页资源开发利用的措施和途径。 展开更多
关键词 隐形网页 搜索引擎 信息检索 资源开发
下载PDF
深度搜索中下一页链接获取策略的研究 被引量:2
8
作者 李哲 陈鹏 李涛 《微计算机信息》 北大核心 2007年第33期183-184,176,共3页
高质量、结构化的数据对很多应用来说其价值是无穷的。然而这些数据往往都隐藏在查询表单背后的深度Web数据库中。深度Web数据库中的内容不能够直接被爬虫通过超链接直接获取,只有通过主动对查询表单提交查询才能有效地获取这些数据。... 高质量、结构化的数据对很多应用来说其价值是无穷的。然而这些数据往往都隐藏在查询表单背后的深度Web数据库中。深度Web数据库中的内容不能够直接被爬虫通过超链接直接获取,只有通过主动对查询表单提交查询才能有效地获取这些数据。最近的研究主要针对以下两个方面:一是如何有效的理解和获取网络上的查询表单,二是如何不断的对查询表单进行查询并下载表单背后的资源。一个必要的但还没很好的解决的一个问题是:如何将一次查询所获得的所有结果页全部有效的获得?这个问题从本质上看就是如何获取结果页面中"下一页"超链接的问题。本文针对这一问题提出了一种通过分析"下一页"超链接的结构特征来识别"下一页"超链接的策略,并在多种情况下进行了试验,取得了良好的效果。 展开更多
关键词 下一页 深度搜索
下载PDF
论恐怖组织暗网化趋势 被引量:5
9
作者 赵航 曾帝 《唐山师范学院学报》 2019年第1期114-118,共5页
随着国际反恐力量不断加强,互联网反恐力度进一步加大,恐怖组织在互联网上的活动逐渐呈现出暗网化趋势。利用暗网去中心化及隐匿性等特点,恐怖组织搭建宣传平台,密谋策划暴恐袭击,互联网反恐进入"深水区"。恐怖组织暗网化趋... 随着国际反恐力量不断加强,互联网反恐力度进一步加大,恐怖组织在互联网上的活动逐渐呈现出暗网化趋势。利用暗网去中心化及隐匿性等特点,恐怖组织搭建宣传平台,密谋策划暴恐袭击,互联网反恐进入"深水区"。恐怖组织暗网化趋势是全球反恐取得阶段性胜利的结果,同时也是互联网技术同恐怖主义深度融合的体现。打击暗网恐怖主义已经提上议程,各国需要从技术、立法与合作三个层面,全面清剿恐怖主义在互联网领域的遗毒。 展开更多
关键词 暗网 恐怖主义 反恐
下载PDF
基于启发式查询词选择算法的Hidden Web获取研究 被引量:1
10
作者 姚全珠 杨增辉 +1 位作者 张楠 田元 《计算机工程与应用》 CSCD 北大核心 2007年第34期174-176,203,共4页
Hidden Web因为其隐蔽性而难以直接抓取,因此成为信息检索研究的一个新领域。提出了一种获取Hidden Web信息的方法,讨论了实现的关键技术。通过设计提出的启发式查询词选择算法,提高了抓取的效率。实验证明了该模型和算法的有效性。
关键词 信息检索 hidden web 爬虫 启发式算法
下载PDF
Ontology mapping based on hidden Markov model 被引量:2
11
作者 尹康银 宋自林 徐平 《Journal of Southeast University(English Edition)》 EI CAS 2007年第3期389-393,共5页
The existing ontology mapping methods mainly consider the structure of the ontology and the mapping precision is lower to some extent. According to statistical theory, a method which is based on the hidden Markov mode... The existing ontology mapping methods mainly consider the structure of the ontology and the mapping precision is lower to some extent. According to statistical theory, a method which is based on the hidden Markov model is presented to establish ontology mapping. This method considers concepts as models, and attributes, relations, hierarchies, siblings and rules of the concepts as the states of the HMM, respectively. The models corresponding to the concepts are built by virtue of learning many training instances. On the basis of the best state sequence that is decided by the Viterbi algorithm and corresponding to the instance, mapping between the concepts can be established by maximum likelihood estimation. Experimental results show that this method can improve the precision of heterogeneous ontology mapping effectively. 展开更多
关键词 ontology heterogeneity ontology mapping hidden Markov model semantic web
下载PDF
民航主题Hidden-Web爬虫的设计与实现 被引量:1
12
作者 张校慧 徐彬 +1 位作者 陈国强 陈珊 《计算机应用与软件》 CSCD 北大核心 2008年第7期187-189,共3页
分析了现今搜索引擎技术在民航主题Hidden-Web获取方面的缺陷,以此为鉴设计并实现了一个民航主题Hidden-Web爬虫。此爬虫使用主题分类等相关技术发现并抓取民航主题Hidden-Web所对应的前台Form,生成相应的Form库,然后利用启发式规则对F... 分析了现今搜索引擎技术在民航主题Hidden-Web获取方面的缺陷,以此为鉴设计并实现了一个民航主题Hidden-Web爬虫。此爬虫使用主题分类等相关技术发现并抓取民航主题Hidden-Web所对应的前台Form,生成相应的Form库,然后利用启发式规则对Form库中的Form进行填写并搜集含有匹配结果的页面集。实验证明此爬虫的性能令人满意且对其它Hidden-Web的应用研究具有借鉴意义。 展开更多
关键词 hidden-web FORM 民航 爬虫
下载PDF
匿名网络的安全监管隐患与信息获取技术研究 被引量:3
13
作者 裘玥 《信息网络安全》 2015年第9期106-108,共3页
随着网络技术的快速发展,大量的常规方式不可监管、不可搜索的信息大肆传播,对网络内容安全构成了严重威胁。文章从网络安全监管的形势、现状以及实际需要出发,分析了匿名网络的技术内涵、指出了安全监管隐患,并对未来的匿名网络信息发... 随着网络技术的快速发展,大量的常规方式不可监管、不可搜索的信息大肆传播,对网络内容安全构成了严重威胁。文章从网络安全监管的形势、现状以及实际需要出发,分析了匿名网络的技术内涵、指出了安全监管隐患,并对未来的匿名网络信息发现、应用技术的发展进行了初步的分析。 展开更多
关键词 匿名网络 开源数据 特征提取 追踪溯源
下载PDF
暗网毒品犯罪黑灰产业的惩治及预防 被引量:3
14
作者 杨玉晓 《山东警察学院学报》 2021年第5期105-115,共11页
黑灰产业不断为暗网毒品犯罪“供粮输血”,亟需加以有效惩治和预防。暗网毒品犯罪黑灰产业具有技术含量高、链条长、合法与非法相交织及分工日益专业化、精细化的特点。必须充分运用刑法现有罪名,科学实施司法解释,适时增加新罪名对其... 黑灰产业不断为暗网毒品犯罪“供粮输血”,亟需加以有效惩治和预防。暗网毒品犯罪黑灰产业具有技术含量高、链条长、合法与非法相交织及分工日益专业化、精细化的特点。必须充分运用刑法现有罪名,科学实施司法解释,适时增加新罪名对其进行惩治。同时,要从预防的角度引导软件开发、售卖企业,互联网金融企业和物流、快递企业有重点地实施合规计划,才能规制黑灰产业,从源头上挤压暗网毒品犯罪存在的空间。 展开更多
关键词 暗网 毒品犯罪 黑灰产业 惩治 预防
下载PDF
基于独立分量分析的隐蔽Web领域聚类 被引量:1
15
作者 王晓斌 温春 石昭祥 《计算机工程》 CAS CSCD 北大核心 2009年第7期175-176,179,共3页
针对隐蔽Web主题领域自动识别问题,提出一种基于独立分量分析(ICA)的聚类算法。对查询页面进行页面文本抽取和预处理,利用TF-IDF公式计算权重并选择前N个权重最大的特征词构造文档矩阵,在使用潜在语义索引(LSI)进行特征重构的基础上通过... 针对隐蔽Web主题领域自动识别问题,提出一种基于独立分量分析(ICA)的聚类算法。对查询页面进行页面文本抽取和预处理,利用TF-IDF公式计算权重并选择前N个权重最大的特征词构造文档矩阵,在使用潜在语义索引(LSI)进行特征重构的基础上通过ICA分解获得类别信息。利用LSI的词共现分析和文本降噪能力提高聚类准确率。实验表明聚类平均准确率达到90%以上。 展开更多
关键词 隐蔽web 潜在语义 独立分量分析 文本聚类
下载PDF
Ontology-based Knowledge Extraction from Hidden Web 被引量:1
16
作者 宋晖 马范援 刘晓强 《Journal of Donghua University(English Edition)》 EI CAS 2004年第5期73-78,共6页
Hidden Web provides great amount of domain-specific data for constructing knowledge services. Most previous knowledge extraction researches ignore the valuable data hidden in Web database, and related works do not ref... Hidden Web provides great amount of domain-specific data for constructing knowledge services. Most previous knowledge extraction researches ignore the valuable data hidden in Web database, and related works do not refer how to make extracted information available for knowledge system. This paper describes a novel approach to build a domain-specific knowledge service with the data retrieved from Hidden Web. Ontology serves to model the domain knowledge. Queries forms of different Web sites are translated into machine-understandable format, defined knowledge concepts, so that they can be accessed automatically. Also knowledge data are extracted from Web pages and organized in ontology format knowledge. The experiment proves the algorithm achieves high accuracy and the system facilitates constructing knowledge services greatly. 展开更多
关键词 knowledge service hidden web ONTOLOGY data extraction
下载PDF
大学图书馆网站应成为学生进入因特网的探路者——兼论“隐形网”的开发 被引量:1
17
作者 祝力 《新世纪图书馆》 2005年第3期51-53,共3页
论文阐述了大学图书馆网站在整合、利用、评估包括因特网资源在内的多种信息资源方面所负有的责任,对近两年有关图书馆网站因特网导航服务的调查结果进行了分析,并讨论了因特网导航中容易被忽略的“隐形网”问题。
关键词 图书馆网站 隐形 大学 学生 因特网资源 信息资源 调查结果 导航服务 论文
下载PDF
SmartCrawler:A Three-Stage Ranking Based Web Crawler for Harvesting Hidden Web Sources
18
作者 Sawroop Kaur Aman Singh +2 位作者 G.Geetha Mehedi Masud Mohammed A.Alzain 《Computers, Materials & Continua》 SCIE EI 2021年第12期2933-2948,共16页
Web crawlers have evolved from performing a meagre task of collecting statistics,security testing,web indexing and numerous other examples.The size and dynamism of the web are making crawling an interesting and challe... Web crawlers have evolved from performing a meagre task of collecting statistics,security testing,web indexing and numerous other examples.The size and dynamism of the web are making crawling an interesting and challenging task.Researchers have tackled various issues and challenges related to web crawling.One such issue is efficiently discovering hidden web data.Web crawler’s inability to work with form-based data,lack of benchmarks and standards for both performance measures and datasets for evaluation of the web crawlers make it still an immature research domain.The applications like vertical portals and data integration require hidden web crawling.Most of the existing methods are based on returning top k matches that makes exhaustive crawling difficult.The documents which are ranked high will be returned multiple times.The low ranked documents have slim chances of being retrieved.Discovering the hidden web sources and ranking them based on relevance is a core component of hidden web crawlers.The problem of ranking bias,heuristic approach and saturation of ranking algorithm led to low coverage.This research represents an enhanced ranking algorithm based on the triplet formula for prioritizing hidden websites to increase the coverage of the hidden web crawler. 展开更多
关键词 hidden web COVERAGE adaptive link ranking query selection depth crawling
下载PDF
隐蔽网络信息的提取与集成
19
作者 黄俏奕 李石君 《河池学院学报》 2006年第5期66-68,共3页
互联网上有大量信息隐藏在网络数据库中,其规模庞大且更新速度快,传统数据集成方法不适应集成这些信息。介绍了隐藏网络的观察结果和特点,给出了改进的观察方法。介绍了隐蔽网络信息集成的模型,分析了目前界面提取、模板匹配、结果组合... 互联网上有大量信息隐藏在网络数据库中,其规模庞大且更新速度快,传统数据集成方法不适应集成这些信息。介绍了隐藏网络的观察结果和特点,给出了改进的观察方法。介绍了隐蔽网络信息集成的模型,分析了目前界面提取、模板匹配、结果组合技术的特点和不足,并提出了相应的改进方法。 展开更多
关键词 隐蔽网络 信息集成 界面提取 模板匹配
下载PDF
基于Web用户浏览行为的统计异常检测 被引量:42
20
作者 谢逸 余顺争 《软件学报》 EI CSCD 北大核心 2007年第4期967-977,共11页
提出一种基于Web用户访问行为的异常检测方案,用于检测应用层上的分布式拒绝服务攻击,并以具有非稳态流特性的大型活动网站为例,进行应用研究.根据Web页面的超文本链接特征和网络中各级Web代理对用户请求的响应作用,用隐半马尔可夫模型... 提出一种基于Web用户访问行为的异常检测方案,用于检测应用层上的分布式拒绝服务攻击,并以具有非稳态流特性的大型活动网站为例,进行应用研究.根据Web页面的超文本链接特征和网络中各级Web代理对用户请求的响应作用,用隐半马尔可夫模型来描述服务器端观测到的正常Web用户的访问行为,并用与大多数正常用户访问行为特征的偏离作为一个流的异常程度的测量.给出了模型的参数化方法,推导了模型参数估计与异常检测算法,讨论了实际网络环境下异常检测系统的实现方法.最后用实际数据验证了模型和检测算法的有效性.仿真结果表明,该模型和检测算法可以很好地描述Web用户的正常浏览行为,有效地检测应用层分布式拒绝服务攻击. 展开更多
关键词 隐半马尔可夫模型 大型活动网站 浏览行为 分布式拒绝服务 异常检测
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部