期刊文献+
共找到307篇文章
< 1 2 16 >
每页显示 20 50 100
网络爬虫技术的研究 被引量:135
1
作者 孙立伟 何国辉 吴礼发 《电脑知识与技术(过刊)》 2010年第15期4112-4115,共4页
网络信息资源的迅猛增长使得传统搜索引擎已经无法满足人们对有用信息获取的要求,作为搜索引擎的基础和重要组成部分,网络爬虫的作用显得尤为重要,该文介绍了网络爬虫的基本概念、爬行Web面临的困难及应对措施,其次从体系结构、爬行策... 网络信息资源的迅猛增长使得传统搜索引擎已经无法满足人们对有用信息获取的要求,作为搜索引擎的基础和重要组成部分,网络爬虫的作用显得尤为重要,该文介绍了网络爬虫的基本概念、爬行Web面临的困难及应对措施,其次从体系结构、爬行策略和典型应用等方面研究了通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬虫四种常见网络爬虫,最后指出了进一步工作的发展方向。 展开更多
关键词 搜索引擎 网络爬虫
下载PDF
基于Bayes潜在语义模型的半监督Web挖掘 被引量:28
2
作者 宫秀军 史忠植 《软件学报》 EI CSCD 北大核心 2002年第8期1508-1514,共7页
随着互联网信息的增长,Web挖掘已经成为数据挖掘研究的热点之一.网页分类是通过学习大量的带有类别标注的训练样本来预测网页的类别,人工标注这些训练样本是相当繁琐的.网页聚类通过一定的相似性度量,将相关网页归并到一类.然而传统的... 随着互联网信息的增长,Web挖掘已经成为数据挖掘研究的热点之一.网页分类是通过学习大量的带有类别标注的训练样本来预测网页的类别,人工标注这些训练样本是相当繁琐的.网页聚类通过一定的相似性度量,将相关网页归并到一类.然而传统的聚类算法对解空间的搜索带有盲目性和缺乏语义特征.提出了两阶段的半监督文本学习策略.第1阶段,利用贝叶斯潜在语义模型来标注含有潜在类别主题词变量的网页的类别;第2阶段,利用简单贝叶斯模型,在第1阶段类别标注的基础上,通过EM(expectation maximization)算法对不含有潜在类别主题词变量的文档作类别标注.实验结果表明,该算法具有很高的精度和召回率. 展开更多
关键词 贝叶斯潜在语义分析 半监督学习 简单贝叶斯分类 期望最大化算法 WEB 数据挖掘 互联网 网页分类
下载PDF
两种对URL的散列效果很好的函数 被引量:45
3
作者 李晓明 凤旺森 《软件学报》 EI CSCD 北大核心 2004年第2期179-184,共6页
在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列操作.针对两种典型的应用场合,即Web结构分析中的信息查询和并行搜索引擎中的负载平衡,基于一个含有2 000多万个URL的序列,进行了大规模的实验评测.说明在许多文献中推荐... 在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列操作.针对两种典型的应用场合,即Web结构分析中的信息查询和并行搜索引擎中的负载平衡,基于一个含有2 000多万个URL的序列,进行了大规模的实验评测.说明在许多文献中推荐的对字符串散列效果很好的ELFhash函数对URL的散列效果并不好,同时推荐了两种对URL散列效果很好的函数. 展开更多
关键词 散列 ELFhash URL 均匀分布 WEB挖掘 负载平衡
下载PDF
SEEKER:基于关键词的关系数据库信息检索 被引量:46
4
作者 文继军 王珊 《软件学报》 EI CSCD 北大核心 2005年第7期1270-1281,共12页
传统上,SQL是存取关系数据库中数据的主要界面.但是,对于没有经验的用户来说,学习复杂的SQL语法是一件困难的事情.实现基于关键词的关系数据库信息检索,将使用户不需要任何SQL语言和底层数据库模式的知识,用搜索引擎的方式来获取数据库... 传统上,SQL是存取关系数据库中数据的主要界面.但是,对于没有经验的用户来说,学习复杂的SQL语法是一件困难的事情.实现基于关键词的关系数据库信息检索,将使用户不需要任何SQL语言和底层数据库模式的知识,用搜索引擎的方式来获取数据库中的相关数据.描述了一个基于关键词的关系数据库信息检索系统SEEKER的设计和实现.现有的关系数据库关键词查询系统只能检索关系数据库中的文本属性,而SEEKER还可以检索数据库元数据以及数字属性.并且,SEEKER采用了更合理的排序公式,支持Top-k查询.实验结果显示,SEEKER具有良好的查询性能. 展开更多
关键词 关系数据库 关键词查询 信息检索 TOP-K查询
下载PDF
WWW检索工具比较研究 被引量:43
5
作者 章琳 张保明 《情报学报》 CSSCI 北大核心 1998年第4期273-280,共8页
近年来,随着WWW技术的广泛应用,使得Internet迅速发展。作为Internet网上的信息查找途径,WWW检索站点已成为Internet网上最繁忙的站点之一。本文选取了Yahoo、AltaVista、Excit... 近年来,随着WWW技术的广泛应用,使得Internet迅速发展。作为Internet网上的信息查找途径,WWW检索站点已成为Internet网上最繁忙的站点之一。本文选取了Yahoo、AltaVista、Excite、HotBot、Infosek、Lycos、OpenText、WebCrawler及MetaCrawler等九个著名的WWW检索工具,通过上网实验,分析比较各工具检索引擎的特点,并从用户角度指出检索引擎现阶段存在的问题。 展开更多
关键词 WWW 检索工具 检索引擎 INTERNET网 中国
下载PDF
信息检索向量空间模型中特征提取的研究 被引量:13
6
作者 陶跃华 王锡钢 王云爱 《云南师范大学学报(自然科学版)》 2000年第6期18-20,共3页
介绍了向量空间模型中文档向量及查询向量的表示 ,以及索引词—文档矩阵的含义 ,在此基础上讨论了索引词权重的计算公式及选择方法 (特征提取 )。
关键词 特征提取 向量空间模型 信息检索 搜索引擎
下载PDF
Web挖掘技术在搜索引擎中的应用 被引量:15
7
作者 王涛 孙河山 《情报理论与实践》 CSSCI 北大核心 2002年第4期296-299,共4页
As a new knowledge mining means,Web mining provides a new solution for the utilization of Web information resources This article describes the application of Web mining technologies in search engines,and discusses how... As a new knowledge mining means,Web mining provides a new solution for the utilization of Web information resources This article describes the application of Web mining technologies in search engines,and discusses how to mine the latest technologies for search engines so as to improve their retrieving 展开更多
关键词 网络资源 开发利用 WEB内容挖掘 WEB结构挖掘 Web行为挖掘 Web挖掘技术发 搜索引擎
下载PDF
Web网站站外链接类型与特征调查——链接分析法可行性研究 被引量:24
8
作者 刘雁书 方平 《大学图书馆学报》 CSSCI 北大核心 2001年第5期65-68,共4页
通过对有代表意义网站站外链接类型及特征的调查分析,评价利用链接关系,评价网络信息的可行性。站外链接关系反应的是被链网页被利用与被推荐的总体情况,与被链网页质量存在正向(肯定)的联系,因此利用站外链接评价网络信息是可行的。
关键词 网络信息评价 链接类型 引文分析法 链接分析法 WEB网站 站外链接
下载PDF
基于关键词选择的在线旅游信息搜寻行为模式研究 被引量:33
9
作者 李君轶 杨敏 《旅游学刊》 CSSCI 2013年第10期15-22,共8页
互联网时代,在线信息已经成为游客最主要的信息源,在线信息搜寻也成为游客获取信息的主要信息行为。在信息搜寻中,大部分游客会使用全文搜索引擎,因而关键词输入行为成为研究游客信息搜寻行为的关键内容。文章利用实验方法,采用方便样本... 互联网时代,在线信息已经成为游客最主要的信息源,在线信息搜寻也成为游客获取信息的主要信息行为。在信息搜寻中,大部分游客会使用全文搜索引擎,因而关键词输入行为成为研究游客信息搜寻行为的关键内容。文章利用实验方法,采用方便样本,研究分析被测试者的关键词行为,结果发现:查询所输入的关键词长度一般为7个字左右,每一次的信息搜寻过程中输入的关键词约为8.54次左右;通过关键词语义分析和词频分析,信息搜寻中位于核心位置的关键词包括"目的地地名"、"门票"、"旅游"、"景点"和"客源地地名"等;"目的地+搜索内容"的组合模式、"目的地地标+宾馆"的住宿信息搜寻模式、增加限定词的"修改查询模式"和简便的"下拉联想关键词模式"是最常见的关键词查询模式。这些研究能够给旅游网络营销、旅游网站建设和目的地营销系统建设提供参考。 展开更多
关键词 信息搜寻 在线旅游 关键词 信息行为
下载PDF
网上中文检索工具的比较研究 被引量:23
10
作者 孙丽 陈通宝 乔晓东 《情报学报》 CSSCI 北大核心 1999年第3期225-234,共10页
从1996年起开始出现网上中文检索工具,短短的一年多时间里就出现了10几家面向整个网上中文信息的中文检索工具。本文选择了北极星、网易、常青藤、搜狐、中经网信息导航、网现引擎6个网上中文检索工具,对它们的检索性能和效果... 从1996年起开始出现网上中文检索工具,短短的一年多时间里就出现了10几家面向整个网上中文信息的中文检索工具。本文选择了北极星、网易、常青藤、搜狐、中经网信息导航、网现引擎6个网上中文检索工具,对它们的检索性能和效果进行了比较研究,并对网上中文检索工具今后的发展提出了几点建议。 展开更多
关键词 检索工具 检索引擎 中文 INTERNET
下载PDF
网络计量学研究:现状、问题与发展 被引量:20
11
作者 夏旭 李健康 葛驰 《图书馆论坛》 CSSCI 北大核心 2001年第6期44-47,共4页
结合我们对网络搜索引擎的研究实践 ,从网络计量学研究现状、它的实际应用。
关键词 网络计量学 信息计量学 文献计量学 搜索引擎 网络信息检索
下载PDF
个性化定制服务:图书馆信息服务的创新 被引量:21
12
作者 王火青 《图书馆论坛》 CSSCI 北大核心 2004年第1期110-112,共3页
个性化定制服务是图书馆信息服务开辟的一个新领域。文章分析了个性化定制服务产生的必然性,并对系统的基本模型、图书馆可借鉴性、应注意的几个问题进行了探讨,提出新信息环境下数字图书馆应及时开发应用个性化定制服务功能,为广大用... 个性化定制服务是图书馆信息服务开辟的一个新领域。文章分析了个性化定制服务产生的必然性,并对系统的基本模型、图书馆可借鉴性、应注意的几个问题进行了探讨,提出新信息环境下数字图书馆应及时开发应用个性化定制服务功能,为广大用户提供专业的个性化优质服务。 展开更多
关键词 数字图书馆 信息服务 个性化服务 定制服务 搜索引擎 智能代理服务 数据库查询 学科信息导航 信息推送服务
下载PDF
搜索引擎剖析 被引量:11
13
作者 刘琨 郑有才 《微机发展》 2004年第3期19-22,共4页
搜索引擎相关技术的研究是目前互联网的热门研究课题。现有搜索引擎利用了大量的计算机研究成果,了解现有搜索引擎的优点和不足同时在实现的搜索引擎中扬长避短,对搜索引擎的剖析是非常必要的。文中指出Google的PageR ank技术在处理超... 搜索引擎相关技术的研究是目前互联网的热门研究课题。现有搜索引擎利用了大量的计算机研究成果,了解现有搜索引擎的优点和不足同时在实现的搜索引擎中扬长避短,对搜索引擎的剖析是非常必要的。文中指出Google的PageR ank技术在处理超链接双向影响上的不足。在实现搜索引擎的过程中,充分利用分析的结果改进PageRank算法,从而充分利用网页间的超链接信息提高了搜索结果的有效性。 展开更多
关键词 互联网 搜索引擎 网络资源 网络浏览器 体系结构 文档解析
下载PDF
不同搜索引擎在网络影响因子分析中的比较研究 被引量:21
14
作者 吴茵茵 《情报科学》 CSSCI 北大核心 2005年第3期431-435,共5页
网络影响因子是网络计量学研究中的一个重要分支 ,搜索引擎在网络影响因子的研究中起着重要的作用。本文利用三种搜索引擎对中国 10所大学的总网络影响因子进行了分析 ,并对这几种搜索引擎进行了对比性研究。
关键词 网络计量学 搜索引擎 网络影响因子
下载PDF
搜索引擎评价指标体系的建立与应用 被引量:20
15
作者 朱庆华 杜佳 《情报学报》 CSSCI 北大核心 2007年第5期684-690,共7页
本文结合搜索引擎的特点,采用网上特尔菲法进行专家调查以确定搜索引擎评价的各项指标,并利用基于指数标度的层次分析法确定各项指标的权重,从而构建搜索引擎评价指标体系.在此基础上,以构建的搜索引擎评价指标体系作为评价工具,同样运... 本文结合搜索引擎的特点,采用网上特尔菲法进行专家调查以确定搜索引擎评价的各项指标,并利用基于指数标度的层次分析法确定各项指标的权重,从而构建搜索引擎评价指标体系.在此基础上,以构建的搜索引擎评价指标体系作为评价工具,同样运用基于指数标度的层次分析法作为评价方法,选择若干中文搜索引擎作为评价对象,进行实证分析.结果表明综合评价性能最优的搜索引擎是Google简体中文. 展开更多
关键词 搜索引擎 网络信息资源 评价指标 层次分析法 指数标度 AHP GOOGLE
下载PDF
WWW网络信息资源搜索引擎的研究进展 被引量:12
16
作者 夏旭 李健康 方平 《图书馆论坛》 CSSCI 北大核心 2000年第5期32-35,68,共5页
1994年杨致远等的YAHOO主题指南拉开了WWW网络信息检索的序幕 ,使得网络搜索引擎和主题指南的研究成为当前国内外研究的热点。对于国内外搜索引擎的比较研究、开发利用、搜索引擎的质量和性能评价、搜索引擎的选择等 ,均有大量文献报道... 1994年杨致远等的YAHOO主题指南拉开了WWW网络信息检索的序幕 ,使得网络搜索引擎和主题指南的研究成为当前国内外研究的热点。对于国内外搜索引擎的比较研究、开发利用、搜索引擎的质量和性能评价、搜索引擎的选择等 ,均有大量文献报道。本文从以上几个方面综述其研究进展。 展开更多
关键词 万维网 信息资源 搜索引擎 WWW 检索 信息资源
下载PDF
超文本全文检索技术的研究与实现 被引量:9
17
作者 郑庆华 张炜 《西安交通大学学报》 EI CAS CSCD 北大核心 2001年第4期377-381,共5页
在分析超文本全文检索功能需求的基础上 ,提出了一种将非结构化的超文本转换成为结构化数据库 ,以支持全文检索的实现思想和模型 ,形式化地描述了超文本检索引擎的原理 ,并分析了模型设计与实现的关键技术问题 ,如超文本关键词提取、查... 在分析超文本全文检索功能需求的基础上 ,提出了一种将非结构化的超文本转换成为结构化数据库 ,以支持全文检索的实现思想和模型 ,形式化地描述了超文本检索引擎的原理 ,并分析了模型设计与实现的关键技术问题 ,如超文本关键词提取、查询条件构造、全文检索算法及查询结果处理等 .该模型具有实现简单、通用性强、支持大容量超文本信息检索等特点 ,并已在鲁迅图书馆数字化网络化信息系统和钱学森特色数据库系统中得到了验证和应用 . 展开更多
关键词 超文本 全文检索 数字图书馆 远程教育 结构化数据库 信息检索
下载PDF
搜索引擎中的网络数据挖掘技术 被引量:10
18
作者 凌志泉 《计算机工程与设计》 CSCD 2003年第9期70-72,共3页
万维网包含大量的信息,而且随着其快速的增长而变得越来越复杂,这就导致了现在用户定位相关和高质量信息的搜索变得越来越难。将网络数据挖掘技术应用于搜索引擎将大大改善搜索引擎的搜索效率以及搜索质量。提出了具体的算法,并阐述了... 万维网包含大量的信息,而且随着其快速的增长而变得越来越复杂,这就导致了现在用户定位相关和高质量信息的搜索变得越来越难。将网络数据挖掘技术应用于搜索引擎将大大改善搜索引擎的搜索效率以及搜索质量。提出了具体的算法,并阐述了此算法在搜索引擎中的应用。 展开更多
关键词 万维网 搜索引擎 网络数据挖掘 智能检索 信息检索 数据库 INTERNET
下载PDF
市场结构、搜索引擎与竞价排名——以魏则西事件为例 被引量:15
19
作者 凌永辉 张月友 《广东财经大学学报》 CSSCI 北大核心 2017年第2期4-14,52,共12页
近年来搜索引擎服务供给市场失灵现象频发,客观上要求对作为搜索引擎主要盈利模式的竞价排名机制进行全新考察。基于SCP范式分析框架和质量酬金拓展模型,从理论上探讨国内搜索引擎市场失灵的内在根源及其解决机制,再结合魏则西事件进行... 近年来搜索引擎服务供给市场失灵现象频发,客观上要求对作为搜索引擎主要盈利模式的竞价排名机制进行全新考察。基于SCP范式分析框架和质量酬金拓展模型,从理论上探讨国内搜索引擎市场失灵的内在根源及其解决机制,再结合魏则西事件进行案例验证。研究结果表明:目前国内搜索引擎市场属于典型的寡头垄断市场,服务商通过竞价排名模式对广告主收取高价而获得垄断利润,但广告信息质量却因逆向选择效应而下降,进而造成服务商声誉受损。然而,无论是从短期还是长期来看,声誉租金均不足以激励垄断搜索引擎服务商建立竞价排名中的广告信息甄别机制。为此,政府相关部门应通过财政补贴、税收优惠等手段,合理干预和管控搜索引擎市场,建立有效的市场失灵解决机制。 展开更多
关键词 市场结构 搜索引擎 竞价排名 SCP范式 声誉租金 魏则西事件 市场失灵 百度
下载PDF
搜索引擎数据痕迹处理中权利义务关系之反思——以两起百度涉诉案例为切入点 被引量:14
20
作者 温昱 《东方法学》 CSSCI 北大核心 2020年第6期34-46,共13页
数据痕迹分为“自生型数据痕迹”和“他生型数据痕迹”。搜索引擎处理数据痕迹法律分析的关键在于搜索引擎处理两类数据痕迹过程中不同主体间权利义务关系的分析。霍菲尔德权利理论的成对解释方法能够对搜索引擎数据痕迹处理过程中权利... 数据痕迹分为“自生型数据痕迹”和“他生型数据痕迹”。搜索引擎处理数据痕迹法律分析的关键在于搜索引擎处理两类数据痕迹过程中不同主体间权利义务关系的分析。霍菲尔德权利理论的成对解释方法能够对搜索引擎数据痕迹处理过程中权利义务结构作出精细分析。“朱烨诉百度案”是处理“自生型数据痕迹”的代表案件。由于对数据痕迹性质判断不同,该案两审认定的权利义务关系情形迥异。其二审判决书的裁判思路与表述说理在逻辑上难以自洽,导致权利义务关系形态拒斥数据主体的同意权、否认数据痕迹的人格特性。“任甲玉诉百度案”作为处理“他生型数据痕迹”的代表案件,存在三方主体、两阶段不同类属的权利义务关系。任甲玉主张的被遗忘权具有三重可能的权利面向,行权目的旨在改变两阶段权利义务关系的具体形态。 展开更多
关键词 搜索引擎 数据痕迹权利 霍菲尔德权利 理论权利 义务关系 个人信息
下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部