期刊文献+
共找到59篇文章
< 1 2 3 >
每页显示 20 50 100
网络日志挖掘中基于时间间隔的会话切分 被引量:24
1
作者 庄力可 寇忠宝 张长水 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第1期115-118,共4页
针对网络日志挖掘中的会话切分问题,提出了一种基于时间间隔的方法。该方法在相邻页面访问时间间隔超出某阈值时切分会话,针对特定IP的阈值根据其频率矢量来定义。实验表明:代理服务器IP和单用户IP的频率矢量具有不同特性,代理服务器IP... 针对网络日志挖掘中的会话切分问题,提出了一种基于时间间隔的方法。该方法在相邻页面访问时间间隔超出某阈值时切分会话,针对特定IP的阈值根据其频率矢量来定义。实验表明:代理服务器IP和单用户IP的频率矢量具有不同特性,代理服务器IP的频率矢量具有Power-law的特点,而单用户IP的频率矢量具有Gauss分布的特点,在此基础上提出一种基于Gauss假设的方法来设定不同单用户IP的阈值。与传统的对所有IP地址使用单一的先验阈值进行切分的方法相比,该方法更为合理有效。 展开更多
关键词 数据库理论 网络日志挖掘 会话切分 时间间隔 频率矢量
原文传递
Web访问挖掘的预处理技术的研究 被引量:19
2
作者 熊忠阳 周亚峰 《计算机技术与发展》 2007年第8期11-14,18,共5页
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进... Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,提出了基于时间和引用的启发式方法来构造会话。 展开更多
关键词 WEB挖掘 WEB日志挖掘 数据预处理 用户会话 会话识别
下载PDF
基于用户访问模式挖掘的网页实时推荐研究 被引量:12
3
作者 张慧颖 梁伟 《计算机应用》 CSCD 北大核心 2004年第6期70-73,共4页
文中将数据挖掘技术用于Web日志文件的挖掘,提出一个简单高效的关联规则和序列模式挖掘算法Predictor,该算法具有较快的响应速度,可以满足实时页面推荐的需要,同时该算法还可以进行增量挖掘。
关键词 WEB使用挖掘 会话识别 关联规则 序列模式
下载PDF
Web日志挖掘中的会话识别方法 被引量:13
4
作者 周爱武 程博 +1 位作者 李孙长 夏松 《计算机工程与设计》 CSCD 北大核心 2010年第5期936-938,964,共4页
为更好地实现会话识别,从而为后续模式发现提供准确的挖掘数据,在分析现有常用的会话识别方法后,提出一种基于待挖掘站点首页的用户会话识别方法。该方法根据用户浏览站点的习惯,以站点首页作为用户新会话开始标识,并增强了用户会话的... 为更好地实现会话识别,从而为后续模式发现提供准确的挖掘数据,在分析现有常用的会话识别方法后,提出一种基于待挖掘站点首页的用户会话识别方法。该方法根据用户浏览站点的习惯,以站点首页作为用户新会话开始标识,并增强了用户会话的定义。最后利用数据库编程实现该方法,将识别出的会话存储在数据库中,便于后续数据挖掘使用。实验结果表明,该方法能识别出更多的用户会话,且识别会话的准确率也更高。 展开更多
关键词 数据预处理 WEB日志 会话识别 站点首页 数据库
下载PDF
Web日志预处理中优化的会话识别方法 被引量:11
5
作者 方元康 胡学钢 夏启寿 《计算机工程》 CAS CSCD 北大核心 2009年第7期49-51,共3页
针对Web日志数据预处理中会话识别这一重要环节,提出一种优化的会话识别算法。在用户识别后,通过过滤框架页面大幅度减少实验产生的有效页面数,为每个页面设置访问时间阈值,并根据页面重要程度对该阈值进行调整,页面的重要性由页面内容... 针对Web日志数据预处理中会话识别这一重要环节,提出一种优化的会话识别算法。在用户识别后,通过过滤框架页面大幅度减少实验产生的有效页面数,为每个页面设置访问时间阈值,并根据页面重要程度对该阈值进行调整,页面的重要性由页面内容及站点结构确定。实验数据显示,与对所有页面使用单一的先验阈值进行会话识别的方法相比较,该方法得到了真实性更强的会话集。 展开更多
关键词 WEB挖掘 数据预处理 阈值 Frame页面 会话识别
下载PDF
Web日志数据挖掘中数据预处理模型的研究与建立 被引量:9
6
作者 赵莹莹 韩元杰 《现代电子技术》 2007年第4期103-105,共3页
数据的质量直的好坏接关系到数据挖掘的结果,因此数据预处理是Web日志数据挖掘首要的步骤,基于前期提出的几种数据预处理方法,提出了通用的Web日志挖掘的数据预处理模型,将Web日志数据的预处理分为5个步骤:数据清理、用户标识、会话标... 数据的质量直的好坏接关系到数据挖掘的结果,因此数据预处理是Web日志数据挖掘首要的步骤,基于前期提出的几种数据预处理方法,提出了通用的Web日志挖掘的数据预处理模型,将Web日志数据的预处理分为5个步骤:数据清理、用户标识、会话标识、路径补充和格式化,并结合旅游网站进行了实例验证。证明该数据预处理模型是完全可行,并且具有良好的通用性和可扩展性。 展开更多
关键词 WEB日志挖掘 数据挖掘 数据预处理 用户标识 会话标识
下载PDF
Web日志预处理中会话识别的优化 被引量:10
7
作者 朱晋华 陈俊杰 《太原理工大学学报》 CAS 北大核心 2008年第2期111-114,122,共5页
针对目前的各种会话识别方法,提出了一种优化的会话切分方法。该方法基于对用户下载时间、对页面的平均阅读时间及页面的链入、链出数等几个参数的综合,得到每个用户页面的访问时间阈值,根据该阈值来切分用户会话,得到会话侯选集合;然后... 针对目前的各种会话识别方法,提出了一种优化的会话切分方法。该方法基于对用户下载时间、对页面的平均阅读时间及页面的链入、链出数等几个参数的综合,得到每个用户页面的访问时间阈值,根据该阈值来切分用户会话,得到会话侯选集合;然后,根据用户对页面内容的兴趣度、浏览特性等来删除会话中的链接页面和不感兴趣的页面,生成一种最终有效的访问页面序列,从而为以后的模式发现提供良好的数据。实验结果表明,相对于所有用户使用单一先验阈值和使用统计方法结合页面内容确定阈值的方法,笔者提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。 展开更多
关键词 日志挖掘 会话切分 阈值 兴趣度
下载PDF
Web日志挖掘中的会话识别算法 被引量:11
8
作者 蔡浩 贾宇波 +1 位作者 黄成伟 黄志强 《计算机工程与设计》 CSCD 北大核心 2009年第6期1321-1323,1390,共4页
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法。通过动态计算会话中请求记录间的平均时间间隔,... 会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法。通过动态计算会话中请求记录间的平均时间间隔,个性化地调整页面的时间阈值,相对于传统的对所有用户页面使用单一的先验阈值,该方法能够更准确地识别出长对话。最后对生成的侯选会话集进行二次识别,使识别出的会话更为合理有效。实验结果表明,会话质量得到了提高。 展开更多
关键词 WEB挖掘 数据预处理 会话识别 时间阈值
下载PDF
Web日志挖掘中数据预处理技术的研究 被引量:9
9
作者 于飞 丁华福 姜伦 《计算机技术与发展》 2010年第5期47-50,共4页
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出... 数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。 展开更多
关键词 WEB日志挖掘 数据预处理 会话识别 数据清洗
下载PDF
基于H.323协议的VoIP语音流量识别 被引量:6
10
作者 毕夏安 张大方 +1 位作者 谢鲲 牟晓玲 《计算机应用》 CSCD 北大核心 2008年第9期2204-2206,共3页
通过分析H.323协议和H.323协议的会话流程,基于H.323协议的VoIP通信过程中出现的会话特征,提取出通信双方的元组信息来识别整个会话流量,设计出相应的流存储、搜索、更新方案和识别VoIP流量的算法。实验表明,该方法能够准确识别基于H.32... 通过分析H.323协议和H.323协议的会话流程,基于H.323协议的VoIP通信过程中出现的会话特征,提取出通信双方的元组信息来识别整个会话流量,设计出相应的流存储、搜索、更新方案和识别VoIP流量的算法。实验表明,该方法能够准确识别基于H.323协议的VoIP语音流量。 展开更多
关键词 H.323 会话 业务流 流量识别
下载PDF
关于提取Web用户浏览行为特征的研究 被引量:5
11
作者 胡亚慧 赵红军 +1 位作者 鲁汉榕 王海杰 《计算机工程与设计》 CSCD 北大核心 2006年第18期3416-3418,共3页
当前,Web日志挖掘技术已成为实现网站个性化服务的研究热点。运用Markov模型来预测用户的浏览模式,从而提高站点访问率、为站点重组提供有利信息是该领域广泛采用的方法之一。但传统方法建立的Markov模型,存在着数据冗余复杂、模型庞大... 当前,Web日志挖掘技术已成为实现网站个性化服务的研究热点。运用Markov模型来预测用户的浏览模式,从而提高站点访问率、为站点重组提供有利信息是该领域广泛采用的方法之一。但传统方法建立的Markov模型,存在着数据冗余复杂、模型庞大繁琐等问题。针对这些问题,介绍了一种改进的Markov模型。其方法主要是在原有模型的基础之上,在数据清洗、用户会话识别过程中删除一些不予考虑的因素,大大简化了建立的Markov模型,提高了Web日志挖掘的效率。 展开更多
关键词 WEB日志挖掘 浏览行为 MARKOV模型 数据清洗 会话识别
下载PDF
改进的Web日志数据预处理技术 被引量:3
12
作者 方元康 胡学钢 +1 位作者 夏启寿 朱勇 《计算机工程》 CAS CSCD 北大核心 2009年第10期73-74,77,共3页
介绍Web日志挖掘预处理过程中一些特殊情况的处理方法,在会话识别阶段给出一种基于过滤框架网页与会话重组相结合的会话识别方法,在会话识别之前进行框架网页的过滤,根据传统的会话识别方法构造初始会话集,使用会话重组算法对初始会话... 介绍Web日志挖掘预处理过程中一些特殊情况的处理方法,在会话识别阶段给出一种基于过滤框架网页与会话重组相结合的会话识别方法,在会话识别之前进行框架网页的过滤,根据传统的会话识别方法构造初始会话集,使用会话重组算法对初始会话集进行优化。实验结果显示,该方法提高了会话识别的质量。 展开更多
关键词 WEB日志挖掘 数据预处理 frame页面 会话识别
下载PDF
网络日志预处理中优化的会话识别算法 被引量:4
13
作者 杨富华 《计算机仿真》 CSCD 北大核心 2011年第4期123-125,171,共4页
研究网络日志预处理中会话识别问题,会话识别是网络日志数据预处理中最重要的一个环节。为使用户准确快速地找到需要的资源,传统网络日志预处理方法采用固定阈值会话识别算法,不能适合网络日志的动态性和不能很好消除网络日志中的冗余信... 研究网络日志预处理中会话识别问题,会话识别是网络日志数据预处理中最重要的一个环节。为使用户准确快速地找到需要的资源,传统网络日志预处理方法采用固定阈值会话识别算法,不能适合网络日志的动态性和不能很好消除网络日志中的冗余信息,导致后继网络日志数据挖掘效率和挖掘精度低。为更好消除网络日志冗余信息,提高后继数据挖掘的效率和精度,提出一种改进的网络日志预处理会话识别算法。新算法可根据页面内容、站点结构确定页面重要程度,对阈值进行动态调整,克服传统固定阈值缺陷,根据用户对页面内容的兴趣度删除不感兴趣页面,消除冗余信息,并对该算法进行了仿真。结果表明,相对于传统网络预测的会话识别算法,新算法能更准确地确定页面访问时间阈值,消除了网络日志冗余信息,提高了网络日志预处理效率和数据挖掘精度。 展开更多
关键词 网络日志挖掘 会话识别 数据预处理 数据挖掘
下载PDF
基于信息熵的加密会话检测方法 被引量:5
14
作者 陈利 张利 +1 位作者 班晓芳 梁杰 《计算机科学》 CSCD 北大核心 2015年第1期142-143,174,共3页
传统协议分析方法在检测网络加密会话时大都通过端口识别,在加密应用使用非常规端口或者在周知明文端口出现加密流量时无法进行有效的检测。为此,提出基于信息熵的加密会话检测方法。该方法先对数据流按端口进行会话重组,再计算会话数... 传统协议分析方法在检测网络加密会话时大都通过端口识别,在加密应用使用非常规端口或者在周知明文端口出现加密流量时无法进行有效的检测。为此,提出基于信息熵的加密会话检测方法。该方法先对数据流按端口进行会话重组,再计算会话数据包字符熵,进而统计出整个会话字符熵,判断熵值是否属于训练模型正态分布置信区间,通过信息分布均匀度来检测加密会话。实验表明,该方法无需特征指纹库,且检测准确率高,并能实现实时检测和处理。 展开更多
关键词 信息熵 加密会话 协议识别 正态分布 入侵检测
下载PDF
一种基于引用日志文件的启发式会话识别算法 被引量:5
15
作者 张海强 胡学龙 《扬州大学学报(自然科学版)》 CAS CSCD 2007年第3期57-61,共5页
为了将服务器日志分割为多个独一无二的用户的一次访问序列,提出了一种基于引用日志文件的启发式会话识别算法,并给予很好的算法实现.
关键词 WEB日志挖掘 引用日志文件 数据预处理 会话识别
下载PDF
Web日志挖掘中的会话识别方法研究 被引量:4
16
作者 顾兆军 李晓红 +1 位作者 王伟 黄杰培 《计算机技术与发展》 2012年第4期45-49,共5页
数据预处理是Web日志挖掘的首要环节,而会话识别是数据预处理中的关键步骤之一。为了更好地实现会话识别、提高会话识别的真实度,从而为后续的模式挖掘工作提供精确的挖掘数据,文中在分析了现有常用的会话识别方法后,提出了优化初始会... 数据预处理是Web日志挖掘的首要环节,而会话识别是数据预处理中的关键步骤之一。为了更好地实现会话识别、提高会话识别的真实度,从而为后续的模式挖掘工作提供精确的挖掘数据,文中在分析了现有常用的会话识别方法后,提出了优化初始会话集的方法。在该方法中,首先初始会话集的产生采用传统的基于访问时间的方法,然后对初始会话集进行合并和断开操作,生成优化的会话集。最后,采用实验实现了该方法。实验结果表明会话质量得到了提高。 展开更多
关键词 WEB日志挖掘 数据预处理 会话识别 会话重组 访问时间
下载PDF
基于Web日志的数据预处理方法研究 被引量:4
17
作者 张玺 张学玲 张洪欣 《滨州学院学报》 2014年第6期98-104,共7页
对基于Web日志的数据预处理过程做了相关研究,特别关注于用户识别和会话识别的启发式规则,对会话识别中基于时间的两条启发式方法进行了改进,形成新的基于时间的方法,并结合获取的数据予以验证,讨论分析了验证结果。新的方法提高了会话... 对基于Web日志的数据预处理过程做了相关研究,特别关注于用户识别和会话识别的启发式规则,对会话识别中基于时间的两条启发式方法进行了改进,形成新的基于时间的方法,并结合获取的数据予以验证,讨论分析了验证结果。新的方法提高了会话识别的准确性,为下一步的数据挖掘打下了基础。 展开更多
关键词 WEB日志 数据挖掘 数据预处理 会话识别
下载PDF
Web日志挖掘数据预处理过程研究 被引量:3
18
作者 韩法旺 《南京工业职业技术学院学报》 2012年第2期53-56,共4页
针对Web页面的访问日志对研究用户行为模式的重要性及Web服务器上保存的大量访问日志的不完整性,研究了Web日志的数据预处理过程,得出了一个数据预处理一般过程的模型。
关键词 WEB日志 数据预处理 用户识别 会话识别 路径补充
下载PDF
基于URL相似度的会话识别方法 被引量:3
19
作者 周松松 马建红 《计算机系统应用》 2014年第12期191-196,共6页
随着互联网的快速发展,Web日志的用户行为分析已经成为互联网技术领域的研究热点之一.会话识别是Web日志用户行为分析的关键步骤,精准的会话识别是有效进行用户行为分析的基础.本文在IIS Web日志分析的基础上,提出了一种基于URL相似度... 随着互联网的快速发展,Web日志的用户行为分析已经成为互联网技术领域的研究热点之一.会话识别是Web日志用户行为分析的关键步骤,精准的会话识别是有效进行用户行为分析的基础.本文在IIS Web日志分析的基础上,提出了一种基于URL相似度的会话识别方法.实验结果表明,此方法可以有效的识别出用户的真实会话. 展开更多
关键词 数据预处理 用户识别 会话识别 编辑距离 最长公共子序列
下载PDF
Web日志挖掘数据预处理研究 被引量:2
20
作者 夏成文 韩坚华 梁乘铭 《微型电脑应用》 2007年第10期50-53,6,共4页
在详细介绍ELF日志文件格式的基础上定义了会话表,并对预处理过程中几个主要步骤进行深入讨论,总结已有的各种处理手段提出新的改进方法,其中重点针对会话识别进行了改进并给出了新的算法。
关键词 WEB日志挖掘 数据预处理 用户识别 会话识别 事务识别
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部