期刊文献+
共找到322篇文章
< 1 2 17 >
每页显示 20 50 100
Web挖掘研究 被引量:356
1
作者 韩家炜 孟小峰 +1 位作者 王静 李盛恩 《计算机研究与发展》 EI CSCD 北大核心 2001年第4期405-414,共10页
因特网目前是一个巨大、分布广泛、全球性的信息服务中心 ,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务 .Web包含了丰富和动态的超链接信息 ,以及 Web页面的访问和使用信息 ,这为数据挖掘提供了丰... 因特网目前是一个巨大、分布广泛、全球性的信息服务中心 ,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务 .Web包含了丰富和动态的超链接信息 ,以及 Web页面的访问和使用信息 ,这为数据挖掘提供了丰富的资源 .Web挖掘就是从 Web文档和 Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息 .对 Web挖掘最新技术及发展方向做了全面分析 ,包括 Web结构挖掘、多层次 Web数据仓库方法以及Web L 展开更多
关键词 数据挖掘 web 数据库 数据仓库 INTERNET
下载PDF
Web日志的高效多能挖掘算法 被引量:115
2
作者 宋擒豹 沈钧毅 《计算机研究与发展》 EI CSCD 北大核心 2001年第3期328-333,共6页
通过对 Web服务器日志文件和客户交易数据进行分析 ,可以发现相似客户群体、相关 Web页面和频繁访问路径 .提出了一种新颖的 Web日志挖掘算法 .在该算法中 ,首先以 Web站点 URL 为行、以 User ID为列建立URL- User ID关联矩阵 ,元素值... 通过对 Web服务器日志文件和客户交易数据进行分析 ,可以发现相似客户群体、相关 Web页面和频繁访问路径 .提出了一种新颖的 Web日志挖掘算法 .在该算法中 ,首先以 Web站点 URL 为行、以 User ID为列建立URL- User ID关联矩阵 ,元素值为用户的访问次数 ,然后 ,对列向量进行相似性分析得到相似客户群体 ,对行向量进行相似性度量获得相关 Web页面 ,对后者再进一步处理还可以发现频繁访问路径 . 展开更多
关键词 电子商务 web 日志挖掘 INTERNET 数据挖掘 算法
下载PDF
Web日志挖掘中的数据预处理的研究 被引量:57
3
作者 陆丽娜 杨怡玲 +1 位作者 管旭东 魏恒义 《计算机工程》 EI CAS CSCD 北大核心 2000年第4期66-67,72,共3页
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式,而Web日志挖掘中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的... 为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式,而Web日志挖掘中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的数据预处理模型,并通过一个实例具体介绍了各过程的主要任务。 展开更多
关键词 数据挖掘 web 日志挖掘 数据预处理 数据库
下载PDF
Web日志挖掘中的数据预处理技术研究 被引量:62
4
作者 赵伟 何丕廉 +1 位作者 陈霞 谢振亮 《计算机应用》 CSCD 北大核心 2003年第5期62-64,67,共4页
在Web数据挖掘研究领域中,Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用。文中深入探讨了数据预处理环节的主要任务,并介绍这个过程中一些特殊情况的处理方法。
关键词 数据挖掘 web日志挖掘 数据预处理
下载PDF
网络日志规模分析和用户兴趣挖掘 被引量:62
5
作者 郭岩 白硕 +1 位作者 杨志峰 张凯 《计算机学报》 EI CSCD 北大核心 2005年第9期1483-1496,共14页
文章围绕网络日志中是否蕴含用户访问Web的规律性特性以及如何利用这些特性,研究了日志规模与用户数、Web文档数以及单位用户访问的Web文档数的关系;通过用户对Web访问动机的分析得出结论:一定时间段的Web访问日志中蕴含了用户的稳定兴... 文章围绕网络日志中是否蕴含用户访问Web的规律性特性以及如何利用这些特性,研究了日志规模与用户数、Web文档数以及单位用户访问的Web文档数的关系;通过用户对Web访问动机的分析得出结论:一定时间段的Web访问日志中蕴含了用户的稳定兴趣;利用日志中蕴含的用户稳定兴趣,提出了一个基于用户行为的相关文档检索模型和搜索引擎系统SISI.SISI的实际检索性能与分析检索模型所得结论一致:检索准确率和检索时间主要依赖于用户数,检索返回的记录数主要依赖于文档数. 展开更多
关键词 web日志挖掘 日志规模 兴趣 用户行为
下载PDF
Web日志挖掘中的序列模式识别 被引量:23
6
作者 陆丽娜 魏恒义 +1 位作者 杨怡玲 管旭东 《小型微型计算机系统》 EI CSCD 北大核心 2000年第5期481-483,共3页
Web日志挖掘的基本思想是将数据挖掘技术应用于 Web服务器的日志文件 .本文从 Web日志挖掘过程预处理阶段的结果用户会话文件开始 ,提出了一种基于扩展有向树模型进行用户浏览模式识别的 Web日志挖掘方法 ,并在实验室对该方法进行了简... Web日志挖掘的基本思想是将数据挖掘技术应用于 Web服务器的日志文件 .本文从 Web日志挖掘过程预处理阶段的结果用户会话文件开始 ,提出了一种基于扩展有向树模型进行用户浏览模式识别的 Web日志挖掘方法 ,并在实验室对该方法进行了简单实现和实际日志数据的测试 . 展开更多
关键词 web 日志挖掘 序列模式识别 数据挖掘
下载PDF
Web页面和客户群体的模糊聚类算法 被引量:21
7
作者 宋擒豹 沈钧毅 《小型微型计算机系统》 CSCD 北大核心 2001年第2期229-231,共3页
Web日志挖掘在电子商务和个性化 Web等方面有着广泛的应用 .文章介绍了一种 Web页面和客户群体的模糊聚类算法 .在该算法中 ,首先根据客户对 Web站点的浏览情况分别建立 Web页面和客户的模糊集 ,在此基础上根据 Max- Min模糊相似性度量... Web日志挖掘在电子商务和个性化 Web等方面有着广泛的应用 .文章介绍了一种 Web页面和客户群体的模糊聚类算法 .在该算法中 ,首先根据客户对 Web站点的浏览情况分别建立 Web页面和客户的模糊集 ,在此基础上根据 Max- Min模糊相似性度量规则构造相应的模糊相似矩阵 ,然后根据模糊相似矩阵直接进行聚类 .实验结果表明该算法是有效的 . 展开更多
关键词 模糊聚类算法 web页面 客户群体 人工智能 电子商务
下载PDF
基于页面内容和站点结构的页面聚类挖掘算法 被引量:20
8
作者 杨怡玲 管旭东 尤晋元 《软件学报》 EI CSCD 北大核心 2002年第3期467-469,共3页
提出了结合站点拓扑结构和Web页面内容的页面聚类改进算法,改进算法引入Web页面的内容链接比和页组的组内链接度,并修改了频繁访问页组支持度的计算公式,以此来提高挖掘结果的兴趣性.通过实验数据的比较,改进算法较一般算法的收敛性好,... 提出了结合站点拓扑结构和Web页面内容的页面聚类改进算法,改进算法引入Web页面的内容链接比和页组的组内链接度,并修改了频繁访问页组支持度的计算公式,以此来提高挖掘结果的兴趣性.通过实验数据的比较,改进算法较一般算法的收敛性好,发现的频繁访问页组的兴趣性高. 展开更多
关键词 日志分析 页面内容 站点结构 数据库 数据挖掘 页面聚类挖掘算法
下载PDF
一个简单的Web日志挖掘系统 被引量:22
9
作者 杨怡玲 管旭东 +1 位作者 陆丽娜 尤晋元 《上海交通大学学报》 EI CAS CSCD 北大核心 2000年第7期932-935,共4页
在分析 Web日志挖掘的困难及对策的基础上 ,给出了一个简单的 Web日志挖掘系统( SWLMS)的体系结构 .具体介绍了 SWLMS中日志的预处理过程 ,包括数据净化、用户识别、会话识别、路径补充的主要任务及其实现 ,并着重介绍了预处理之后的序... 在分析 Web日志挖掘的困难及对策的基础上 ,给出了一个简单的 Web日志挖掘系统( SWLMS)的体系结构 .具体介绍了 SWLMS中日志的预处理过程 ,包括数据净化、用户识别、会话识别、路径补充的主要任务及其实现 ,并着重介绍了预处理之后的序列模式识别过程和算法 ,包括最大向前路径的识别和频繁遍历路径的发现 。 展开更多
关键词 数据挖掘 web日志挖掘 序列模式识别 SWLMS
下载PDF
Web日志挖掘预处理中的用户识别技术 被引量:21
10
作者 吴强 梁继民 杨万海 《计算机科学》 CSCD 北大核心 2002年第4期64-66,共3页
1引言 互联网技术和应用的迅速发展使得可以从因特网获取的信息量日益剧增,因此迫切需要一种新的技术从这些信息中快速、及时地发现有用的知识,提高信息的利用率.作为数据挖掘技术[1]研究的一个重要领域,Web日志挖掘(Web L0gMining)是... 1引言 互联网技术和应用的迅速发展使得可以从因特网获取的信息量日益剧增,因此迫切需要一种新的技术从这些信息中快速、及时地发现有用的知识,提高信息的利用率.作为数据挖掘技术[1]研究的一个重要领域,Web日志挖掘(Web L0gMining)是从服务器日志文件内大量的用户访问记录中抽取有用信息的过程.通过对Web日志的分析,可以构造出用户的行为模式,对于分析改进网络性能、优化网站的设计和拓扑结构以及改善企业的市场营销决策等会有极大的帮助[2,3]. 展开更多
关键词 因特网 服务器 web 日志挖掘预处理 用户识别
下载PDF
Web日志挖掘技术进展 被引量:17
11
作者 陈新中 李岩 +2 位作者 杨炳儒 谢永红 张运涛 《系统工程与电子技术》 EI CSCD 北大核心 2003年第4期492-495,共4页
用户访问Internet时,服务器、客户机日志会记录下大量的用户访问信息。通过挖掘这些日志信息所得到的用户访问模式,在个性化信息服务、改进门户站点设计和服务、开展有针对性的电子商务、构建智能化Web站点、提高网站的声誉和效益等方... 用户访问Internet时,服务器、客户机日志会记录下大量的用户访问信息。通过挖掘这些日志信息所得到的用户访问模式,在个性化信息服务、改进门户站点设计和服务、开展有针对性的电子商务、构建智能化Web站点、提高网站的声誉和效益等方面都将起到重要的作用。概述了Web挖掘的概念、分类及其主要应用领域,详细介绍了Web日志挖掘的主要方法和用户访问模式挖掘算法及国内外最新研究进展。最后提出了Web用户访问信息挖掘研究的发展方向和趋势。 展开更多
关键词 AI 万维网 web挖掘 web日志挖掘
下载PDF
Web数据挖掘与高校数字图书馆个性化服务 被引量:31
12
作者 欧阳烽 《现代情报》 北大核心 2008年第1期103-104,107,共3页
针对高校数字图书馆个性化服务的实现,首先介绍Web数据挖掘和个性化服务的相关概念及特点,再详细叙述Web日志挖掘的相关算法及过程,最后指出Web数据挖掘是高校数字图书馆进行个性化服务的主要途径。
关键词 web数据挖掘 个性化服务 web日志挖掘 数字图书馆
下载PDF
一种基于Web日志文件的信息挖掘方法 被引量:24
13
作者 费爱国 王新辉 《计算机应用》 CSCD 北大核心 2004年第6期57-59,共3页
数据预处理和日志挖掘算法是Web日志挖掘中的关键技术。文中根据Web访问模式的用户特征,提出了一种基于Web日志文件的信息挖掘系统的体系结构。在此基础上,分析了其数据挖掘过程和信息挖掘算法。
关键词 web日志 信息挖掘 算法
下载PDF
一种Web用户行为聚类算法 被引量:20
14
作者 业宁 李威 +1 位作者 梁作鹏 董逸生 《小型微型计算机系统》 CSCD 北大核心 2004年第7期1364-1367,共4页
提出了一种新的路径相似度系数计算方法 ,并使之与雅可比相似系数结合 ,用于计算用户访问行为的相似度 ,在此基础之上又提出了一种分析 Web用户行为的聚类算法 (FCC) ,通过挖掘 Web日志 ,找出具有相似行为的 Web用户 .由于 FCC聚类算法... 提出了一种新的路径相似度系数计算方法 ,并使之与雅可比相似系数结合 ,用于计算用户访问行为的相似度 ,在此基础之上又提出了一种分析 Web用户行为的聚类算法 (FCC) ,通过挖掘 Web日志 ,找出具有相似行为的 Web用户 .由于 FCC聚类算法过滤了小于指定阈值的相似度系数 ,大大缩小了数据规模 ,很好地解决了其他聚类算法 (如层次聚类 )在高维空间聚类时的“维数灾难”问题 ,最后的实验结果很好 . 展开更多
关键词 web日志 数据挖掘 聚类 相似度
下载PDF
网络日志挖掘中基于时间间隔的会话切分 被引量:24
15
作者 庄力可 寇忠宝 张长水 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第1期115-118,共4页
针对网络日志挖掘中的会话切分问题,提出了一种基于时间间隔的方法。该方法在相邻页面访问时间间隔超出某阈值时切分会话,针对特定IP的阈值根据其频率矢量来定义。实验表明:代理服务器IP和单用户IP的频率矢量具有不同特性,代理服务器IP... 针对网络日志挖掘中的会话切分问题,提出了一种基于时间间隔的方法。该方法在相邻页面访问时间间隔超出某阈值时切分会话,针对特定IP的阈值根据其频率矢量来定义。实验表明:代理服务器IP和单用户IP的频率矢量具有不同特性,代理服务器IP的频率矢量具有Power-law的特点,而单用户IP的频率矢量具有Gauss分布的特点,在此基础上提出一种基于Gauss假设的方法来设定不同单用户IP的阈值。与传统的对所有IP地址使用单一的先验阈值进行切分的方法相比,该方法更为合理有效。 展开更多
关键词 数据库理论 网络日志挖掘 会话切分 时间间隔 频率矢量
原文传递
一种Web日志会话识别的优化方法 被引量:18
16
作者 陈子军 王鑫昱 李伟 《计算机工程》 CAS CSCD 北大核心 2007年第1期95-97,共3页
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。该文对此提出优化算法,并对最常用的Timeout方法识别的会话进行优化,通过实验证明会话质量得到了提高。
关键词 web日志挖掘 数据预处理 会话识别
下载PDF
Web访问挖掘的预处理技术的研究 被引量:19
17
作者 熊忠阳 周亚峰 《计算机技术与发展》 2007年第8期11-14,18,共5页
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进... Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,提出了基于时间和引用的启发式方法来构造会话。 展开更多
关键词 web挖掘 web日志挖掘 数据预处理 用户会话 会话识别
下载PDF
Web日志挖掘的预处理及路径补全算法的研究 被引量:11
18
作者 王岚 翟正军 《微电子学与计算机》 CSCD 北大核心 2006年第8期113-116,共4页
Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用。文章详细介绍了Web日志挖掘的预处理过程。通过实例分析了预处理方法,着重分析其中的路径补全方法,并给出了路径补全的... Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用。文章详细介绍了Web日志挖掘的预处理过程。通过实例分析了预处理方法,着重分析其中的路径补全方法,并给出了路径补全的算法实现。 展开更多
关键词 web日志挖掘 数据预处理 路径补全 算法
下载PDF
结合网站内容和结构进行的Web日志挖掘 被引量:9
19
作者 江宝林 申展 +2 位作者 张川 葛家翔 胡运发 《计算机工程》 CAS CSCD 北大核心 2004年第16期30-32,共3页
提出一种以聚类为基础的Web日志挖掘方法:从Web日志事务、Web站点内容和Web站点结构3个不同方面来聚类页面集合,并通过将用户的访问记录和页面聚集进行匹配和相关度计算,来预测用户感兴趣的页面。
关键词 web日志挖掘 web日志事务 访问模式 聚类
下载PDF
Web日志挖掘中的数据预处理技术 被引量:22
20
作者 李燕 冯博琴 鲁晓锋 《计算机工程》 CAS CSCD 北大核心 2009年第22期44-46,49,共4页
数据预处理是Web日志挖掘中的重要步骤,一般分为数据清理、用户识别、会话识别和路径补充。为消除代理服务器、防火墙和本地缓存对Web日志带来的影响,采用基于引用的分析方法完成用户会话识别和路径补充。实验结果表明,在Web访问日志中... 数据预处理是Web日志挖掘中的重要步骤,一般分为数据清理、用户识别、会话识别和路径补充。为消除代理服务器、防火墙和本地缓存对Web日志带来的影响,采用基于引用的分析方法完成用户会话识别和路径补充。实验结果表明,在Web访问日志中的记录引用信息较完整的情况下,该方法可以高效地获得用户的访问路径。 展开更多
关键词 web日志挖掘 数据预处理 用户会话识别 路径补充
下载PDF
上一页 1 2 17 下一页 到第
使用帮助 返回顶部