期刊文献+
共找到2,115篇文章
< 1 2 106 >
每页显示 20 50 100
Web挖掘研究 被引量:356
1
作者 韩家炜 孟小峰 +1 位作者 王静 李盛恩 《计算机研究与发展》 EI CSCD 北大核心 2001年第4期405-414,共10页
因特网目前是一个巨大、分布广泛、全球性的信息服务中心 ,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务 .Web包含了丰富和动态的超链接信息 ,以及 Web页面的访问和使用信息 ,这为数据挖掘提供了丰... 因特网目前是一个巨大、分布广泛、全球性的信息服务中心 ,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务 .Web包含了丰富和动态的超链接信息 ,以及 Web页面的访问和使用信息 ,这为数据挖掘提供了丰富的资源 .Web挖掘就是从 Web文档和 Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息 .对 Web挖掘最新技术及发展方向做了全面分析 ,包括 Web结构挖掘、多层次 Web数据仓库方法以及Web L 展开更多
关键词 数据挖掘 web 数据库 数据仓库 INTERNET
下载PDF
Web文本挖掘技术研究 被引量:275
2
作者 王继成 潘金贵 张福炎 《计算机研究与发展》 EI CSCD 北大核心 2000年第5期513-520,共8页
作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也... 作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也将起到很大推进作用 .首先探讨了 Web挖掘的有关理论 ,从 Web挖掘的定义、Web挖掘与 Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述 .然后重点分析了 Web文本挖掘的方法 ,包括 :文本的特征表示、文本分类与文本聚类 .在此基础上简单介绍了一个 Web文本挖掘系统原型Web Miner.Web Miner采用了多 agent体系结构 ,将多维文本分析与文本挖掘这两种技术有机地结合起来 ,以帮助用户快速、有效地挖掘 Web上的 HTML 文档 . 展开更多
关键词 文本挖掘 文本分类 文本聚类 信息检索 web
下载PDF
Internet/Web数据挖掘研究现状及最新进展 被引量:77
3
作者 陈莉 焦李成 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2001年第1期114-119,共6页
随着大型数据库的不断涌现 ,不缺数据缺知识的矛盾日益突出 .如何从浩如烟海的数据中发现隐藏的有用知识 ,创造更大的效益是一个迫切需要研究的课题 .因此 ,知识发现和数据挖掘应运而生 ,成为一个新的研究领域 .近年来 ,Internet/WWW的... 随着大型数据库的不断涌现 ,不缺数据缺知识的矛盾日益突出 .如何从浩如烟海的数据中发现隐藏的有用知识 ,创造更大的效益是一个迫切需要研究的课题 .因此 ,知识发现和数据挖掘应运而生 ,成为一个新的研究领域 .近年来 ,Internet/WWW的广泛应用及相应的Web技术的出现 ,也使数据挖掘的研究进入了一个新的阶段 .综述了目前国内外数据挖掘和知识发现的研究现状和最新进展 ,指出了有关公开问题 . 展开更多
关键词 数据挖掘 INTERNET web 数据库
下载PDF
Web数据挖掘 被引量:119
4
作者 王实 高文 李锦涛 《计算机科学》 CSCD 北大核心 2000年第4期28-31,41,共5页
1 引言当前WWW正在深度和广度方面飞速地发展着,Internet也正在前所未有地改变我们的生活。WWW上的一些主要工作,例如Web站点设计、Web服务设计、Web站点的导航设计、电子商务等工作正变得越来越复杂和越来越繁重。从站点经营方来说,他... 1 引言当前WWW正在深度和广度方面飞速地发展着,Internet也正在前所未有地改变我们的生活。WWW上的一些主要工作,例如Web站点设计、Web服务设计、Web站点的导航设计、电子商务等工作正变得越来越复杂和越来越繁重。从站点经营方来说,他们需要好的自动辅助设计工具,可以根据用户的访问兴趣、访问频度、访问时间动态地调整页面结构,改进服务,开展有针对性的电子商务以更好地满足访问者的需求。从访问者来说,他们希望看到的是个性化的页面。 展开更多
关键词 电子商务 数据挖掘 数据库 web
下载PDF
主题网络爬虫研究综述 被引量:131
5
作者 刘金红 陆余良 《计算机应用研究》 CSCD 北大核心 2007年第10期26-29,47,共5页
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方... 首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望。 展开更多
关键词 主题网络爬虫 信息检索 web挖掘
下载PDF
从Web日志中挖掘用户浏览偏爱路径 被引量:87
6
作者 邢东山 沈钧毅 宋擒豹 《计算机学报》 EI CSCD 北大核心 2003年第11期1518-1523,共6页
eb日志中包含了大量的用户浏览信息 ,如何有效地从其中挖掘出用户浏览兴趣模式是一个重要的研究课题 .作者在分析目前用户浏览模式挖掘算法存在的问题的基础上 ,利用提出的支持 偏爱度的概念 ,设计了网站访问矩阵 ,并基于这个矩阵提出... eb日志中包含了大量的用户浏览信息 ,如何有效地从其中挖掘出用户浏览兴趣模式是一个重要的研究课题 .作者在分析目前用户浏览模式挖掘算法存在的问题的基础上 ,利用提出的支持 偏爱度的概念 ,设计了网站访问矩阵 ,并基于这个矩阵提出了用户浏览偏爱路径挖掘算法 :先利用Web日志建立以引用网页URL为行、浏览网页URL为列、路径访问频度为元素值的网站访问矩阵 .该矩阵为稀疏矩阵 ,将该矩阵用三元组法来进行表示 .然后 ,通过对该矩阵进行支持 偏爱度计算得到偏爱子路径 .最后进行合并生成浏览偏爱路径 .实验表明该算法能准确地反映用户浏览兴趣 ,而且系统可扩展性较好 .这可以应用于电子商务网站的站点优化和个性化服务等 . 展开更多
关键词 INTERNET 拓扑结构 web日志 数据挖掘 网页浏览频度 用户浏览偏爱路径 电子商务
下载PDF
路径聚类:在Web站点中的知识发现 被引量:59
7
作者 王实 高文 +1 位作者 李锦涛 谢辉 《计算机研究与发展》 EI CSCD 北大核心 2001年第4期482-486,共5页
用户对 Web站点的访问代表了用户对 Web站点上页面的访问兴趣 .这种兴趣程度可以通过用户对 Web站点上页面的浏览顺序表现出来 .在对 Web站点的访问日志进行事务识别后 ,可以根据群体用户对 Web站点的访问顺序进行聚类 ,即路径聚类 ,那... 用户对 Web站点的访问代表了用户对 Web站点上页面的访问兴趣 .这种兴趣程度可以通过用户对 Web站点上页面的浏览顺序表现出来 .在对 Web站点的访问日志进行事务识别后 ,可以根据群体用户对 Web站点的访问顺序进行聚类 ,即路径聚类 ,那么最终每一个聚类集就反映出该聚类集中的全体用户具有相似的访问兴趣 .为了得到这种根据用户访问兴趣而对用户集的划分 ,提出了 K- paths路径聚类方法 .在这种方法中 ,根据用户的访问兴趣定义了新的相似性测量手段和聚类中心 。 展开更多
关键词 数据挖掘 web站点 知识发现 路径聚类 WWW INTERNET
下载PDF
数据挖掘:原理、方法及其应用 被引量:71
8
作者 赵丹群 《现代图书情报技术》 CSSCI 北大核心 2000年第6期41-44,共4页
数据挖掘是当前数据库和信息决策领域的最前沿研究方向之一。首先介绍了数据挖掘的基本概念和处理过程 ,然后分别分析了数据挖掘所发现的主要知识类型和使用的技术方法 ,最后对基于 Web的几个数据挖掘应用系统进行了较为细致的剖析 ,并... 数据挖掘是当前数据库和信息决策领域的最前沿研究方向之一。首先介绍了数据挖掘的基本概念和处理过程 ,然后分别分析了数据挖掘所发现的主要知识类型和使用的技术方法 ,最后对基于 Web的几个数据挖掘应用系统进行了较为细致的剖析 ,并指出数据挖掘技术和搜索引擎技术的结合对网络信息的发现、搜集和管理。 展开更多
关键词 数据挖掘 数据采掘 知识发现 KDD
下载PDF
用Naive Bayes方法协调分类Web网页 被引量:53
9
作者 范焱 郑诚 +2 位作者 王清毅 蔡庆生 刘洁 《软件学报》 EI CSCD 北大核心 2001年第9期1386-1392,共7页
WWW上的信息极大丰富 ,如何从巨量的信息中有效地发现有用的信息 ,是亟待解决的问题 ,而 Web网页的正确分类正是其中的核心问题 .针对超文本结构中的结构特征 ,提出了用 Naive Bayes方法协调分别利用超文本页面中的文本信息和结构信息... WWW上的信息极大丰富 ,如何从巨量的信息中有效地发现有用的信息 ,是亟待解决的问题 ,而 Web网页的正确分类正是其中的核心问题 .针对超文本结构中的结构特征 ,提出了用 Naive Bayes方法协调分别利用超文本页面中的文本信息和结构信息进行分类的方法 .经实验验证 ,与只用单种方法对超文本进行分类的方法相比 ,综合分类法有效地提高了分类的正确率 . 展开更多
关键词 超文本 web 机器学习 互联网 数据挖掘 信息检索 WWW 网页 NaiveBayes方法
下载PDF
Web挖掘研究综述 被引量:49
10
作者 涂承胜 鲁明羽 陆玉昌 《计算机工程与应用》 CSCD 北大核心 2003年第10期90-93,共4页
论文介绍了Web挖掘的概念,指出了Web挖掘中存在的问题,给出了Web挖掘研究的三种分类:Web内容挖掘、Web结构挖掘、Web使用挖掘,针对每一种分类介绍了各自的研究对象、表示方法、处理方法、应用领域及最近的研究情况,同时展望了Web挖掘的... 论文介绍了Web挖掘的概念,指出了Web挖掘中存在的问题,给出了Web挖掘研究的三种分类:Web内容挖掘、Web结构挖掘、Web使用挖掘,针对每一种分类介绍了各自的研究对象、表示方法、处理方法、应用领域及最近的研究情况,同时展望了Web挖掘的未来研究方向。 展开更多
关键词 web INTERNET 搜索引擎 信息检索 数据库 数据处理 数据挖掘
下载PDF
文本挖掘技术研究 被引量:63
11
作者 薛为民 陆玉昌 《北京联合大学学报》 CAS 2005年第4期59-63,共5页
文本挖掘是数据挖掘的重要内容之一,其应用十分广泛。对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技术,最后对文本挖掘技... 文本挖掘是数据挖掘的重要内容之一,其应用十分广泛。对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技术,最后对文本挖掘技术进行总结和展望。 展开更多
关键词 文本挖掘 数据挖掘 web文本挖掘 文本挖掘模型
下载PDF
基于分块的网页信息解析器的研究与设计 被引量:55
12
作者 于满泉 陈铁睿 许洪波 《计算机应用》 CSCD 北大核心 2005年第4期974-976,共3页
详细介绍了网页信息解析的基本技术手段,在综合权衡优缺点的基础上,提出了针对新 闻网站复杂结构页面较为有效的分块算法,并结合实际的项目需求,设计实现了网页信息解析器 TVPS,实验结果表明,该解析器具有良好的性能,满足实际的需求。
关键词 web挖掘 HTML标记 视觉特征 网页分块
下载PDF
Web数据挖掘技术及工具研究 被引量:32
13
作者 邓英 李明 《计算机工程与应用》 CSCD 北大核心 2001年第20期92-94,共3页
Internet应用的普及使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到了基于Web的应用。文章就Web挖掘技术的概念、分类及文本挖掘和用户访问模式挖掘的实现技术做了详细的阐述,并在此基础上介绍了一些实用的Web挖掘工具。
关键词 web 数据挖掘 数据库 数据挖掘工具 INTERNET
下载PDF
Web使用信息挖掘综述 被引量:50
14
作者 郭岩 白硕 于满泉 《计算机科学》 CSCD 北大核心 2005年第1期1-7,共7页
Web使用信息挖掘可以帮助我们更好地理解Web和Web用户访问模式,这对于开发Web的最大经济潜力是非常关键的。一般来说,Web使用信息挖掘包含三个阶段:数据预处理,模式发现和模式分析。文章以这三个阶段为框架,分别介绍了数据预处理的技术... Web使用信息挖掘可以帮助我们更好地理解Web和Web用户访问模式,这对于开发Web的最大经济潜力是非常关键的。一般来说,Web使用信息挖掘包含三个阶段:数据预处理,模式发现和模式分析。文章以这三个阶段为框架,分别介绍了数据预处理的技术与困难,Web使用信息挖掘中常用的方法和算法,以及主要应用。 展开更多
关键词 数据挖掘 web挖掘 web使用信息挖掘 web用户访问模式 数据预处理 模式发现
下载PDF
基于Web-Log Mining的Web文档聚类 被引量:29
15
作者 苏中 马少平 +1 位作者 杨强 张宏江 《软件学报》 EI CSCD 北大核心 2002年第1期99-104,共6页
速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(re... 速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(recursive density based clustering algorithm,简称RDBC),此算法可以智能地、动态地修改其密度参数.RDBC是基于DBSCAN的一种改进算法,其运算复杂度和DBSCAN相同.通过在Web文档上的聚类实验,结果表明,RDBC不但保留了DBSCAN高速度的优点,而且聚类效果大大优于DBSCAN. 展开更多
关键词 数据库 聚类 数据挖掘 web 文档 web-Logmining
下载PDF
基于关联规则的Web文档聚类算法 被引量:41
16
作者 宋擒豹 沈钧毅 《软件学报》 EI CSCD 北大核心 2002年第3期417-423,共7页
Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度.提出了一种Web文档的聚类算法.该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档;再以文档为事务,以主题为事务项,将文档和主题间的关系看... Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度.提出了一种Web文档的聚类算法.该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档;再以文档为事务,以主题为事务项,将文档和主题间的关系看作事务的形式,采用关联规则挖掘算法发现主题频集,相应的文档集即为初步文档类;然后依据类间距离和类内连接强度阈值合并、拆分类,最终实现文档聚类.实验结果表明,该算法是有效的,能处理文档类间固有的重叠情况,具有一定的实用价值. 展开更多
关键词 产联规则 WWW web文档聚类算法 数据挖掘 数据库
下载PDF
Web使用挖掘技术研究 被引量:37
17
作者 涂承胜 陆玉昌 《小型微型计算机系统》 CSCD 北大核心 2004年第7期1177-1184,共8页
简要介绍了 WEB挖掘的基本概念及其分类 ,讨论了 Web使用挖掘的有关理论及其应用 .重点分析了 Web使用挖掘的主要研究对象和研究方法 ,包括 :挖掘的数据对象、数据的采集、数据预处理、模式发现、模式分析及其相关技术 .展望了
关键词 web挖掘 web网络使用挖掘 数据预处理 模式发现 模式分析
下载PDF
两种对URL的散列效果很好的函数 被引量:45
18
作者 李晓明 凤旺森 《软件学报》 EI CSCD 北大核心 2004年第2期179-184,共6页
在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列操作.针对两种典型的应用场合,即Web结构分析中的信息查询和并行搜索引擎中的负载平衡,基于一个含有2 000多万个URL的序列,进行了大规模的实验评测.说明在许多文献中推荐... 在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列操作.针对两种典型的应用场合,即Web结构分析中的信息查询和并行搜索引擎中的负载平衡,基于一个含有2 000多万个URL的序列,进行了大规模的实验评测.说明在许多文献中推荐的对字符串散列效果很好的ELFhash函数对URL的散列效果并不好,同时推荐了两种对URL散列效果很好的函数. 展开更多
关键词 散列 ELFhash URL 均匀分布 web挖掘 负载平衡
下载PDF
基于Web挖掘的个性化技术研究 被引量:35
19
作者 冯是聪 单松巍 +2 位作者 张志刚 龚笔宏 李晓明 《计算机工程与设计》 CSCD 2004年第1期4-6,共3页
针对用户特性向用户提供个性化服务已经成为Web技术的研究热点。Web挖掘是实现Web个性化服务的关键技术之一。研究了Web挖掘技术,阐述了Web挖掘技术存在的不足,并对应用Web挖掘技术实现个性化服务的发展前景进行了分析。
关键词 web挖掘 个性化服务 用户建模 代理 人工智能 数据库
下载PDF
基于文本挖掘的景区旅游形象感知研究——以杭州西溪国家湿地公园为例 被引量:57
20
作者 陈天琪 张建春 《资源开发与市场》 CAS 北大核心 2021年第6期741-746,共6页
以携程网抓取的网络评论文本为研究素材,利用ROST Content Mining软件,从游客认知、情感等方面挖掘游客对杭州西溪国家湿地公园的旅游形象感知。结果表明:①游客对景区认可度较高,对湿地景区旅游的整体感知和旅游体验总体较好,线下问卷... 以携程网抓取的网络评论文本为研究素材,利用ROST Content Mining软件,从游客认知、情感等方面挖掘游客对杭州西溪国家湿地公园的旅游形象感知。结果表明:①游客对景区认可度较高,对湿地景区旅游的整体感知和旅游体验总体较好,线下问卷调查游客的总体体验满意度为94%,并表现出一定的重游和推荐意愿。②旅游者对西溪国家湿地公园的整体形象感知是积极的,正面评论占比为84.48%,线下问卷调查游客的综合满意度平均为88.2%,中性和消极情绪较少。③综合分析游客对西溪国家湿地公园的旅游吸引物、旅游环境、旅游设施与服务、旅游体验、旅游评价等方面形象感知的特征与差异,发现湿地景区仍存在许多有待改善的地方。 展开更多
关键词 西溪国家湿地公园 网络文本 文本挖掘 旅游形象感知
下载PDF
上一页 1 2 106 下一页 到第
使用帮助 返回顶部