期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
59
篇文章
<
1
2
3
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
网络日志挖掘中基于时间间隔的会话切分
被引量:
24
1
作者
庄力可
寇忠宝
张长水
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2005年第1期115-118,共4页
针对网络日志挖掘中的会话切分问题,提出了一种基于时间间隔的方法。该方法在相邻页面访问时间间隔超出某阈值时切分会话,针对特定IP的阈值根据其频率矢量来定义。实验表明:代理服务器IP和单用户IP的频率矢量具有不同特性,代理服务器IP...
针对网络日志挖掘中的会话切分问题,提出了一种基于时间间隔的方法。该方法在相邻页面访问时间间隔超出某阈值时切分会话,针对特定IP的阈值根据其频率矢量来定义。实验表明:代理服务器IP和单用户IP的频率矢量具有不同特性,代理服务器IP的频率矢量具有Power-law的特点,而单用户IP的频率矢量具有Gauss分布的特点,在此基础上提出一种基于Gauss假设的方法来设定不同单用户IP的阈值。与传统的对所有IP地址使用单一的先验阈值进行切分的方法相比,该方法更为合理有效。
展开更多
关键词
数据库理论
网络日志挖掘
会话切分
时间间隔
频率矢量
原文传递
Web访问挖掘的预处理技术的研究
被引量:
19
2
作者
熊忠阳
周亚峰
《计算机技术与发展》
2007年第8期11-14,18,共5页
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进...
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,提出了基于时间和引用的启发式方法来构造会话。
展开更多
关键词
WEB挖掘
WEB日志挖掘
数据预处理
用户会话
会话识别
下载PDF
职称材料
基于用户访问模式挖掘的网页实时推荐研究
被引量:
12
3
作者
张慧颖
梁伟
《计算机应用》
CSCD
北大核心
2004年第6期70-73,共4页
文中将数据挖掘技术用于Web日志文件的挖掘,提出一个简单高效的关联规则和序列模式挖掘算法Predictor,该算法具有较快的响应速度,可以满足实时页面推荐的需要,同时该算法还可以进行增量挖掘。
关键词
WEB使用挖掘
会话识别
关联规则
序列模式
下载PDF
职称材料
Web日志挖掘中的会话识别方法
被引量:
13
4
作者
周爱武
程博
+1 位作者
李孙长
夏松
《计算机工程与设计》
CSCD
北大核心
2010年第5期936-938,964,共4页
为更好地实现会话识别,从而为后续模式发现提供准确的挖掘数据,在分析现有常用的会话识别方法后,提出一种基于待挖掘站点首页的用户会话识别方法。该方法根据用户浏览站点的习惯,以站点首页作为用户新会话开始标识,并增强了用户会话的...
为更好地实现会话识别,从而为后续模式发现提供准确的挖掘数据,在分析现有常用的会话识别方法后,提出一种基于待挖掘站点首页的用户会话识别方法。该方法根据用户浏览站点的习惯,以站点首页作为用户新会话开始标识,并增强了用户会话的定义。最后利用数据库编程实现该方法,将识别出的会话存储在数据库中,便于后续数据挖掘使用。实验结果表明,该方法能识别出更多的用户会话,且识别会话的准确率也更高。
展开更多
关键词
数据预处理
WEB日志
会话识别
站点首页
数据库
下载PDF
职称材料
Web日志预处理中优化的会话识别方法
被引量:
11
5
作者
方元康
胡学钢
夏启寿
《计算机工程》
CAS
CSCD
北大核心
2009年第7期49-51,共3页
针对Web日志数据预处理中会话识别这一重要环节,提出一种优化的会话识别算法。在用户识别后,通过过滤框架页面大幅度减少实验产生的有效页面数,为每个页面设置访问时间阈值,并根据页面重要程度对该阈值进行调整,页面的重要性由页面内容...
针对Web日志数据预处理中会话识别这一重要环节,提出一种优化的会话识别算法。在用户识别后,通过过滤框架页面大幅度减少实验产生的有效页面数,为每个页面设置访问时间阈值,并根据页面重要程度对该阈值进行调整,页面的重要性由页面内容及站点结构确定。实验数据显示,与对所有页面使用单一的先验阈值进行会话识别的方法相比较,该方法得到了真实性更强的会话集。
展开更多
关键词
WEB挖掘
数据预处理
阈值
Frame页面
会话识别
下载PDF
职称材料
Web日志数据挖掘中数据预处理模型的研究与建立
被引量:
9
6
作者
赵莹莹
韩元杰
《现代电子技术》
2007年第4期103-105,共3页
数据的质量直的好坏接关系到数据挖掘的结果,因此数据预处理是Web日志数据挖掘首要的步骤,基于前期提出的几种数据预处理方法,提出了通用的Web日志挖掘的数据预处理模型,将Web日志数据的预处理分为5个步骤:数据清理、用户标识、会话标...
数据的质量直的好坏接关系到数据挖掘的结果,因此数据预处理是Web日志数据挖掘首要的步骤,基于前期提出的几种数据预处理方法,提出了通用的Web日志挖掘的数据预处理模型,将Web日志数据的预处理分为5个步骤:数据清理、用户标识、会话标识、路径补充和格式化,并结合旅游网站进行了实例验证。证明该数据预处理模型是完全可行,并且具有良好的通用性和可扩展性。
展开更多
关键词
WEB日志挖掘
数据挖掘
数据预处理
用户标识
会话标识
下载PDF
职称材料
Web日志预处理中会话识别的优化
被引量:
10
7
作者
朱晋华
陈俊杰
《太原理工大学学报》
CAS
北大核心
2008年第2期111-114,122,共5页
针对目前的各种会话识别方法,提出了一种优化的会话切分方法。该方法基于对用户下载时间、对页面的平均阅读时间及页面的链入、链出数等几个参数的综合,得到每个用户页面的访问时间阈值,根据该阈值来切分用户会话,得到会话侯选集合;然后...
针对目前的各种会话识别方法,提出了一种优化的会话切分方法。该方法基于对用户下载时间、对页面的平均阅读时间及页面的链入、链出数等几个参数的综合,得到每个用户页面的访问时间阈值,根据该阈值来切分用户会话,得到会话侯选集合;然后,根据用户对页面内容的兴趣度、浏览特性等来删除会话中的链接页面和不感兴趣的页面,生成一种最终有效的访问页面序列,从而为以后的模式发现提供良好的数据。实验结果表明,相对于所有用户使用单一先验阈值和使用统计方法结合页面内容确定阈值的方法,笔者提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。
展开更多
关键词
日志挖掘
会话切分
阈值
兴趣度
下载PDF
职称材料
Web日志挖掘中的会话识别算法
被引量:
11
8
作者
蔡浩
贾宇波
+1 位作者
黄成伟
黄志强
《计算机工程与设计》
CSCD
北大核心
2009年第6期1321-1323,1390,共4页
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法。通过动态计算会话中请求记录间的平均时间间隔,...
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法。通过动态计算会话中请求记录间的平均时间间隔,个性化地调整页面的时间阈值,相对于传统的对所有用户页面使用单一的先验阈值,该方法能够更准确地识别出长对话。最后对生成的侯选会话集进行二次识别,使识别出的会话更为合理有效。实验结果表明,会话质量得到了提高。
展开更多
关键词
WEB挖掘
数据预处理
会话识别
时间阈值
下载PDF
职称材料
Web日志挖掘中数据预处理技术的研究
被引量:
9
9
作者
于飞
丁华福
姜伦
《计算机技术与发展》
2010年第5期47-50,共4页
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出...
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。
展开更多
关键词
WEB日志挖掘
数据预处理
会话识别
数据清洗
下载PDF
职称材料
基于H.323协议的VoIP语音流量识别
被引量:
6
10
作者
毕夏安
张大方
+1 位作者
谢鲲
牟晓玲
《计算机应用》
CSCD
北大核心
2008年第9期2204-2206,共3页
通过分析H.323协议和H.323协议的会话流程,基于H.323协议的VoIP通信过程中出现的会话特征,提取出通信双方的元组信息来识别整个会话流量,设计出相应的流存储、搜索、更新方案和识别VoIP流量的算法。实验表明,该方法能够准确识别基于H.32...
通过分析H.323协议和H.323协议的会话流程,基于H.323协议的VoIP通信过程中出现的会话特征,提取出通信双方的元组信息来识别整个会话流量,设计出相应的流存储、搜索、更新方案和识别VoIP流量的算法。实验表明,该方法能够准确识别基于H.323协议的VoIP语音流量。
展开更多
关键词
H.323
会话
业务流
流量识别
下载PDF
职称材料
关于提取Web用户浏览行为特征的研究
被引量:
5
11
作者
胡亚慧
赵红军
+1 位作者
鲁汉榕
王海杰
《计算机工程与设计》
CSCD
北大核心
2006年第18期3416-3418,共3页
当前,Web日志挖掘技术已成为实现网站个性化服务的研究热点。运用Markov模型来预测用户的浏览模式,从而提高站点访问率、为站点重组提供有利信息是该领域广泛采用的方法之一。但传统方法建立的Markov模型,存在着数据冗余复杂、模型庞大...
当前,Web日志挖掘技术已成为实现网站个性化服务的研究热点。运用Markov模型来预测用户的浏览模式,从而提高站点访问率、为站点重组提供有利信息是该领域广泛采用的方法之一。但传统方法建立的Markov模型,存在着数据冗余复杂、模型庞大繁琐等问题。针对这些问题,介绍了一种改进的Markov模型。其方法主要是在原有模型的基础之上,在数据清洗、用户会话识别过程中删除一些不予考虑的因素,大大简化了建立的Markov模型,提高了Web日志挖掘的效率。
展开更多
关键词
WEB日志挖掘
浏览行为
MARKOV模型
数据清洗
会话识别
下载PDF
职称材料
改进的Web日志数据预处理技术
被引量:
3
12
作者
方元康
胡学钢
+1 位作者
夏启寿
朱勇
《计算机工程》
CAS
CSCD
北大核心
2009年第10期73-74,77,共3页
介绍Web日志挖掘预处理过程中一些特殊情况的处理方法,在会话识别阶段给出一种基于过滤框架网页与会话重组相结合的会话识别方法,在会话识别之前进行框架网页的过滤,根据传统的会话识别方法构造初始会话集,使用会话重组算法对初始会话...
介绍Web日志挖掘预处理过程中一些特殊情况的处理方法,在会话识别阶段给出一种基于过滤框架网页与会话重组相结合的会话识别方法,在会话识别之前进行框架网页的过滤,根据传统的会话识别方法构造初始会话集,使用会话重组算法对初始会话集进行优化。实验结果显示,该方法提高了会话识别的质量。
展开更多
关键词
WEB日志挖掘
数据预处理
frame页面
会话识别
下载PDF
职称材料
网络日志预处理中优化的会话识别算法
被引量:
4
13
作者
杨富华
《计算机仿真》
CSCD
北大核心
2011年第4期123-125,171,共4页
研究网络日志预处理中会话识别问题,会话识别是网络日志数据预处理中最重要的一个环节。为使用户准确快速地找到需要的资源,传统网络日志预处理方法采用固定阈值会话识别算法,不能适合网络日志的动态性和不能很好消除网络日志中的冗余信...
研究网络日志预处理中会话识别问题,会话识别是网络日志数据预处理中最重要的一个环节。为使用户准确快速地找到需要的资源,传统网络日志预处理方法采用固定阈值会话识别算法,不能适合网络日志的动态性和不能很好消除网络日志中的冗余信息,导致后继网络日志数据挖掘效率和挖掘精度低。为更好消除网络日志冗余信息,提高后继数据挖掘的效率和精度,提出一种改进的网络日志预处理会话识别算法。新算法可根据页面内容、站点结构确定页面重要程度,对阈值进行动态调整,克服传统固定阈值缺陷,根据用户对页面内容的兴趣度删除不感兴趣页面,消除冗余信息,并对该算法进行了仿真。结果表明,相对于传统网络预测的会话识别算法,新算法能更准确地确定页面访问时间阈值,消除了网络日志冗余信息,提高了网络日志预处理效率和数据挖掘精度。
展开更多
关键词
网络日志挖掘
会话识别
数据预处理
数据挖掘
下载PDF
职称材料
基于信息熵的加密会话检测方法
被引量:
5
14
作者
陈利
张利
+1 位作者
班晓芳
梁杰
《计算机科学》
CSCD
北大核心
2015年第1期142-143,174,共3页
传统协议分析方法在检测网络加密会话时大都通过端口识别,在加密应用使用非常规端口或者在周知明文端口出现加密流量时无法进行有效的检测。为此,提出基于信息熵的加密会话检测方法。该方法先对数据流按端口进行会话重组,再计算会话数...
传统协议分析方法在检测网络加密会话时大都通过端口识别,在加密应用使用非常规端口或者在周知明文端口出现加密流量时无法进行有效的检测。为此,提出基于信息熵的加密会话检测方法。该方法先对数据流按端口进行会话重组,再计算会话数据包字符熵,进而统计出整个会话字符熵,判断熵值是否属于训练模型正态分布置信区间,通过信息分布均匀度来检测加密会话。实验表明,该方法无需特征指纹库,且检测准确率高,并能实现实时检测和处理。
展开更多
关键词
信息熵
加密会话
协议识别
正态分布
入侵检测
下载PDF
职称材料
一种基于引用日志文件的启发式会话识别算法
被引量:
5
15
作者
张海强
胡学龙
《扬州大学学报(自然科学版)》
CAS
CSCD
2007年第3期57-61,共5页
为了将服务器日志分割为多个独一无二的用户的一次访问序列,提出了一种基于引用日志文件的启发式会话识别算法,并给予很好的算法实现.
关键词
WEB日志挖掘
引用日志文件
数据预处理
会话识别
下载PDF
职称材料
Web日志挖掘中的会话识别方法研究
被引量:
4
16
作者
顾兆军
李晓红
+1 位作者
王伟
黄杰培
《计算机技术与发展》
2012年第4期45-49,共5页
数据预处理是Web日志挖掘的首要环节,而会话识别是数据预处理中的关键步骤之一。为了更好地实现会话识别、提高会话识别的真实度,从而为后续的模式挖掘工作提供精确的挖掘数据,文中在分析了现有常用的会话识别方法后,提出了优化初始会...
数据预处理是Web日志挖掘的首要环节,而会话识别是数据预处理中的关键步骤之一。为了更好地实现会话识别、提高会话识别的真实度,从而为后续的模式挖掘工作提供精确的挖掘数据,文中在分析了现有常用的会话识别方法后,提出了优化初始会话集的方法。在该方法中,首先初始会话集的产生采用传统的基于访问时间的方法,然后对初始会话集进行合并和断开操作,生成优化的会话集。最后,采用实验实现了该方法。实验结果表明会话质量得到了提高。
展开更多
关键词
WEB日志挖掘
数据预处理
会话识别
会话重组
访问时间
下载PDF
职称材料
基于Web日志的数据预处理方法研究
被引量:
4
17
作者
张玺
张学玲
张洪欣
《滨州学院学报》
2014年第6期98-104,共7页
对基于Web日志的数据预处理过程做了相关研究,特别关注于用户识别和会话识别的启发式规则,对会话识别中基于时间的两条启发式方法进行了改进,形成新的基于时间的方法,并结合获取的数据予以验证,讨论分析了验证结果。新的方法提高了会话...
对基于Web日志的数据预处理过程做了相关研究,特别关注于用户识别和会话识别的启发式规则,对会话识别中基于时间的两条启发式方法进行了改进,形成新的基于时间的方法,并结合获取的数据予以验证,讨论分析了验证结果。新的方法提高了会话识别的准确性,为下一步的数据挖掘打下了基础。
展开更多
关键词
WEB日志
数据挖掘
数据预处理
会话识别
下载PDF
职称材料
Web日志挖掘数据预处理过程研究
被引量:
3
18
作者
韩法旺
《南京工业职业技术学院学报》
2012年第2期53-56,共4页
针对Web页面的访问日志对研究用户行为模式的重要性及Web服务器上保存的大量访问日志的不完整性,研究了Web日志的数据预处理过程,得出了一个数据预处理一般过程的模型。
关键词
WEB日志
数据预处理
用户识别
会话识别
路径补充
下载PDF
职称材料
基于URL相似度的会话识别方法
被引量:
3
19
作者
周松松
马建红
《计算机系统应用》
2014年第12期191-196,共6页
随着互联网的快速发展,Web日志的用户行为分析已经成为互联网技术领域的研究热点之一.会话识别是Web日志用户行为分析的关键步骤,精准的会话识别是有效进行用户行为分析的基础.本文在IIS Web日志分析的基础上,提出了一种基于URL相似度...
随着互联网的快速发展,Web日志的用户行为分析已经成为互联网技术领域的研究热点之一.会话识别是Web日志用户行为分析的关键步骤,精准的会话识别是有效进行用户行为分析的基础.本文在IIS Web日志分析的基础上,提出了一种基于URL相似度的会话识别方法.实验结果表明,此方法可以有效的识别出用户的真实会话.
展开更多
关键词
数据预处理
用户识别
会话识别
编辑距离
最长公共子序列
下载PDF
职称材料
Web日志挖掘数据预处理研究
被引量:
2
20
作者
夏成文
韩坚华
梁乘铭
《微型电脑应用》
2007年第10期50-53,6,共4页
在详细介绍ELF日志文件格式的基础上定义了会话表,并对预处理过程中几个主要步骤进行深入讨论,总结已有的各种处理手段提出新的改进方法,其中重点针对会话识别进行了改进并给出了新的算法。
关键词
WEB日志挖掘
数据预处理
用户识别
会话识别
事务识别
下载PDF
职称材料
题名
网络日志挖掘中基于时间间隔的会话切分
被引量:
24
1
作者
庄力可
寇忠宝
张长水
机构
清华大学自动化系
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2005年第1期115-118,共4页
文摘
针对网络日志挖掘中的会话切分问题,提出了一种基于时间间隔的方法。该方法在相邻页面访问时间间隔超出某阈值时切分会话,针对特定IP的阈值根据其频率矢量来定义。实验表明:代理服务器IP和单用户IP的频率矢量具有不同特性,代理服务器IP的频率矢量具有Power-law的特点,而单用户IP的频率矢量具有Gauss分布的特点,在此基础上提出一种基于Gauss假设的方法来设定不同单用户IP的阈值。与传统的对所有IP地址使用单一的先验阈值进行切分的方法相比,该方法更为合理有效。
关键词
数据库理论
网络日志挖掘
会话切分
时间间隔
频率矢量
Keywords
database
theory
Web
log
mining
session
identification
access
interval
frequency
vector
分类号
TP311.131 [自动化与计算机技术—计算机软件与理论]
原文传递
题名
Web访问挖掘的预处理技术的研究
被引量:
19
2
作者
熊忠阳
周亚峰
机构
重庆大学计算机学院
出处
《计算机技术与发展》
2007年第8期11-14,18,共5页
文摘
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,提出了基于时间和引用的启发式方法来构造会话。
关键词
WEB挖掘
WEB日志挖掘
数据预处理
用户会话
会话识别
Keywords
Web
mining
Web
log
mining
data
preprocessing
user
session
session
identification
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于用户访问模式挖掘的网页实时推荐研究
被引量:
12
3
作者
张慧颖
梁伟
机构
天津大学管理学院
出处
《计算机应用》
CSCD
北大核心
2004年第6期70-73,共4页
文摘
文中将数据挖掘技术用于Web日志文件的挖掘,提出一个简单高效的关联规则和序列模式挖掘算法Predictor,该算法具有较快的响应速度,可以满足实时页面推荐的需要,同时该算法还可以进行增量挖掘。
关键词
WEB使用挖掘
会话识别
关联规则
序列模式
Keywords
Web
usage
mining
session
identification
association
rule
sequence
pattern
分类号
TP311.132 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
Web日志挖掘中的会话识别方法
被引量:
13
4
作者
周爱武
程博
李孙长
夏松
机构
安徽大学计算机科学与技术学院
出处
《计算机工程与设计》
CSCD
北大核心
2010年第5期936-938,964,共4页
基金
安徽省高等学校省级自然科学研究基金项目(kj2008B092)
文摘
为更好地实现会话识别,从而为后续模式发现提供准确的挖掘数据,在分析现有常用的会话识别方法后,提出一种基于待挖掘站点首页的用户会话识别方法。该方法根据用户浏览站点的习惯,以站点首页作为用户新会话开始标识,并增强了用户会话的定义。最后利用数据库编程实现该方法,将识别出的会话存储在数据库中,便于后续数据挖掘使用。实验结果表明,该方法能识别出更多的用户会话,且识别会话的准确率也更高。
关键词
数据预处理
WEB日志
会话识别
站点首页
数据库
Keywords
data
preprocessing
web
log
session
identification
site
home
page
database
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
Web日志预处理中优化的会话识别方法
被引量:
11
5
作者
方元康
胡学钢
夏启寿
机构
合肥工业大学计算机与信息学院
池州学院计算机中心
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第7期49-51,共3页
基金
国家自然科学基金资助项目(050504F)
池州学院自然科学基金资助项目(XK0829)
文摘
针对Web日志数据预处理中会话识别这一重要环节,提出一种优化的会话识别算法。在用户识别后,通过过滤框架页面大幅度减少实验产生的有效页面数,为每个页面设置访问时间阈值,并根据页面重要程度对该阈值进行调整,页面的重要性由页面内容及站点结构确定。实验数据显示,与对所有页面使用单一的先验阈值进行会话识别的方法相比较,该方法得到了真实性更强的会话集。
关键词
WEB挖掘
数据预处理
阈值
Frame页面
会话识别
Keywords
Web
mining
data
preprocessing
threshold
Frame
page
session
identification
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web日志数据挖掘中数据预处理模型的研究与建立
被引量:
9
6
作者
赵莹莹
韩元杰
机构
桂林电子科技大学
出处
《现代电子技术》
2007年第4期103-105,共3页
文摘
数据的质量直的好坏接关系到数据挖掘的结果,因此数据预处理是Web日志数据挖掘首要的步骤,基于前期提出的几种数据预处理方法,提出了通用的Web日志挖掘的数据预处理模型,将Web日志数据的预处理分为5个步骤:数据清理、用户标识、会话标识、路径补充和格式化,并结合旅游网站进行了实例验证。证明该数据预处理模型是完全可行,并且具有良好的通用性和可扩展性。
关键词
WEB日志挖掘
数据挖掘
数据预处理
用户标识
会话标识
Keywords
Web
log
mining
data
mining
data
preprocessing
user
identification
session
identification
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web日志预处理中会话识别的优化
被引量:
10
7
作者
朱晋华
陈俊杰
机构
太原理工大学计算机与软件学院
出处
《太原理工大学学报》
CAS
北大核心
2008年第2期111-114,122,共5页
基金
国家自然科学基金资助项目(60773004)
山西省自然科学基金资助项目(2007011050)
文摘
针对目前的各种会话识别方法,提出了一种优化的会话切分方法。该方法基于对用户下载时间、对页面的平均阅读时间及页面的链入、链出数等几个参数的综合,得到每个用户页面的访问时间阈值,根据该阈值来切分用户会话,得到会话侯选集合;然后,根据用户对页面内容的兴趣度、浏览特性等来删除会话中的链接页面和不感兴趣的页面,生成一种最终有效的访问页面序列,从而为以后的模式发现提供良好的数据。实验结果表明,相对于所有用户使用单一先验阈值和使用统计方法结合页面内容确定阈值的方法,笔者提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。
关键词
日志挖掘
会话切分
阈值
兴趣度
Keywords
Web
log
mining
session
identification
threshold
interesting
degree
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web日志挖掘中的会话识别算法
被引量:
11
8
作者
蔡浩
贾宇波
黄成伟
黄志强
机构
浙江理工大学信息电子学院
出处
《计算机工程与设计》
CSCD
北大核心
2009年第6期1321-1323,1390,共4页
基金
浙江省教育厅科研计划基金项目(20060599)
浙江理工大学科学基金项目(111251A4Y04002)
文摘
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法。通过动态计算会话中请求记录间的平均时间间隔,个性化地调整页面的时间阈值,相对于传统的对所有用户页面使用单一的先验阈值,该方法能够更准确地识别出长对话。最后对生成的侯选会话集进行二次识别,使识别出的会话更为合理有效。实验结果表明,会话质量得到了提高。
关键词
WEB挖掘
数据预处理
会话识别
时间阈值
Keywords
web
mining
data
preparation
session
identification
threshold
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
TP393 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
Web日志挖掘中数据预处理技术的研究
被引量:
9
9
作者
于飞
丁华福
姜伦
机构
哈尔滨理工大学计算机科学与技术学院
出处
《计算机技术与发展》
2010年第5期47-50,共4页
基金
国家自然科学基金项目(60736014)
文摘
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。
关键词
WEB日志挖掘
数据预处理
会话识别
数据清洗
Keywords
Web
log
mining
data
preprocessing
session
identification
data
cleaning
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于H.323协议的VoIP语音流量识别
被引量:
6
10
作者
毕夏安
张大方
谢鲲
牟晓玲
机构
湖南大学计算机与通信学院
湖南大学软件学院
出处
《计算机应用》
CSCD
北大核心
2008年第9期2204-2206,共3页
基金
国防基础科研"十一五"项目(A1420060162)
文摘
通过分析H.323协议和H.323协议的会话流程,基于H.323协议的VoIP通信过程中出现的会话特征,提取出通信双方的元组信息来识别整个会话流量,设计出相应的流存储、搜索、更新方案和识别VoIP流量的算法。实验表明,该方法能够准确识别基于H.323协议的VoIP语音流量。
关键词
H.323
会话
业务流
流量识别
Keywords
H.323
session
traffic
flow
traffic
identification
分类号
TP393.03 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
关于提取Web用户浏览行为特征的研究
被引量:
5
11
作者
胡亚慧
赵红军
鲁汉榕
王海杰
机构
空军雷达学院
武汉理工大学
出处
《计算机工程与设计》
CSCD
北大核心
2006年第18期3416-3418,共3页
文摘
当前,Web日志挖掘技术已成为实现网站个性化服务的研究热点。运用Markov模型来预测用户的浏览模式,从而提高站点访问率、为站点重组提供有利信息是该领域广泛采用的方法之一。但传统方法建立的Markov模型,存在着数据冗余复杂、模型庞大繁琐等问题。针对这些问题,介绍了一种改进的Markov模型。其方法主要是在原有模型的基础之上,在数据清洗、用户会话识别过程中删除一些不予考虑的因素,大大简化了建立的Markov模型,提高了Web日志挖掘的效率。
关键词
WEB日志挖掘
浏览行为
MARKOV模型
数据清洗
会话识别
Keywords
web
log
mining
navigation
patterns
Markov
model
data
cleaning
session
identification
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
改进的Web日志数据预处理技术
被引量:
3
12
作者
方元康
胡学钢
夏启寿
朱勇
机构
池州学院计算机中心
合肥工业大学计算机与信息学院
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第10期73-74,77,共3页
基金
国家自然科学基金资助项目(050504F)
安徽省教育厅自然科学基金资助项目(XK0829,KJ2008B45ZC)
池州学院自然科学基金资助项目(2007XJ015)
文摘
介绍Web日志挖掘预处理过程中一些特殊情况的处理方法,在会话识别阶段给出一种基于过滤框架网页与会话重组相结合的会话识别方法,在会话识别之前进行框架网页的过滤,根据传统的会话识别方法构造初始会话集,使用会话重组算法对初始会话集进行优化。实验结果显示,该方法提高了会话识别的质量。
关键词
WEB日志挖掘
数据预处理
frame页面
会话识别
Keywords
Web
log
mining
data
preprocessing
frame
page
session
identification
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网络日志预处理中优化的会话识别算法
被引量:
4
13
作者
杨富华
机构
泸州医学院现代教育技术中心
出处
《计算机仿真》
CSCD
北大核心
2011年第4期123-125,171,共4页
文摘
研究网络日志预处理中会话识别问题,会话识别是网络日志数据预处理中最重要的一个环节。为使用户准确快速地找到需要的资源,传统网络日志预处理方法采用固定阈值会话识别算法,不能适合网络日志的动态性和不能很好消除网络日志中的冗余信息,导致后继网络日志数据挖掘效率和挖掘精度低。为更好消除网络日志冗余信息,提高后继数据挖掘的效率和精度,提出一种改进的网络日志预处理会话识别算法。新算法可根据页面内容、站点结构确定页面重要程度,对阈值进行动态调整,克服传统固定阈值缺陷,根据用户对页面内容的兴趣度删除不感兴趣页面,消除冗余信息,并对该算法进行了仿真。结果表明,相对于传统网络预测的会话识别算法,新算法能更准确地确定页面访问时间阈值,消除了网络日志冗余信息,提高了网络日志预处理效率和数据挖掘精度。
关键词
网络日志挖掘
会话识别
数据预处理
数据挖掘
Keywords
Web
log
mining
session
identification
Data
preprocessing
Data
mining
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于信息熵的加密会话检测方法
被引量:
5
14
作者
陈利
张利
班晓芳
梁杰
机构
中国信息安全测评中心
出处
《计算机科学》
CSCD
北大核心
2015年第1期142-143,174,共3页
文摘
传统协议分析方法在检测网络加密会话时大都通过端口识别,在加密应用使用非常规端口或者在周知明文端口出现加密流量时无法进行有效的检测。为此,提出基于信息熵的加密会话检测方法。该方法先对数据流按端口进行会话重组,再计算会话数据包字符熵,进而统计出整个会话字符熵,判断熵值是否属于训练模型正态分布置信区间,通过信息分布均匀度来检测加密会话。实验表明,该方法无需特征指纹库,且检测准确率高,并能实现实时检测和处理。
关键词
信息熵
加密会话
协议识别
正态分布
入侵检测
Keywords
Information
entropy
Encrypted
session
Protocol
identification
Normal
distribution
Intrusion
detection
分类号
TP303.0 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
一种基于引用日志文件的启发式会话识别算法
被引量:
5
15
作者
张海强
胡学龙
机构
扬州大学信息工程学院
出处
《扬州大学学报(自然科学版)》
CAS
CSCD
2007年第3期57-61,共5页
基金
扬州大学信息科学学科群科技攻关项目(ISG031602)
扬州大学信息工程学院科研启动基金资助项目
文摘
为了将服务器日志分割为多个独一无二的用户的一次访问序列,提出了一种基于引用日志文件的启发式会话识别算法,并给予很好的算法实现.
关键词
WEB日志挖掘
引用日志文件
数据预处理
会话识别
Keywords
web
log
mining
refer
log
files
data
preprocessing
session
identification
分类号
TP311.138 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
Web日志挖掘中的会话识别方法研究
被引量:
4
16
作者
顾兆军
李晓红
王伟
黄杰培
机构
中国民航大学计算机学院
出处
《计算机技术与发展》
2012年第4期45-49,共5页
基金
中国民航局科研基金项目(MHRD200808)
文摘
数据预处理是Web日志挖掘的首要环节,而会话识别是数据预处理中的关键步骤之一。为了更好地实现会话识别、提高会话识别的真实度,从而为后续的模式挖掘工作提供精确的挖掘数据,文中在分析了现有常用的会话识别方法后,提出了优化初始会话集的方法。在该方法中,首先初始会话集的产生采用传统的基于访问时间的方法,然后对初始会话集进行合并和断开操作,生成优化的会话集。最后,采用实验实现了该方法。实验结果表明会话质量得到了提高。
关键词
WEB日志挖掘
数据预处理
会话识别
会话重组
访问时间
Keywords
Web
log
mining
data
preprocessing
session
identification
session
reconstruction
visit
time
分类号
TP31 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于Web日志的数据预处理方法研究
被引量:
4
17
作者
张玺
张学玲
张洪欣
机构
北京邮电大学电子工程学院
国家无线电监测中心成都监测站
出处
《滨州学院学报》
2014年第6期98-104,共7页
基金
国家自然科学基金资助项目(61202390)
文摘
对基于Web日志的数据预处理过程做了相关研究,特别关注于用户识别和会话识别的启发式规则,对会话识别中基于时间的两条启发式方法进行了改进,形成新的基于时间的方法,并结合获取的数据予以验证,讨论分析了验证结果。新的方法提高了会话识别的准确性,为下一步的数据挖掘打下了基础。
关键词
WEB日志
数据挖掘
数据预处理
会话识别
Keywords
Web
log
data
mining
data
preprocessing
session
identification
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
Web日志挖掘数据预处理过程研究
被引量:
3
18
作者
韩法旺
机构
南京森林警察学院信息技术系
出处
《南京工业职业技术学院学报》
2012年第2期53-56,共4页
文摘
针对Web页面的访问日志对研究用户行为模式的重要性及Web服务器上保存的大量访问日志的不完整性,研究了Web日志的数据预处理过程,得出了一个数据预处理一般过程的模型。
关键词
WEB日志
数据预处理
用户识别
会话识别
路径补充
Keywords
Web
log
data-preprocessing
user
identification
session
identification
path
supplement
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于URL相似度的会话识别方法
被引量:
3
19
作者
周松松
马建红
机构
河北工业大学计算机科学与软件学院
出处
《计算机系统应用》
2014年第12期191-196,共6页
文摘
随着互联网的快速发展,Web日志的用户行为分析已经成为互联网技术领域的研究热点之一.会话识别是Web日志用户行为分析的关键步骤,精准的会话识别是有效进行用户行为分析的基础.本文在IIS Web日志分析的基础上,提出了一种基于URL相似度的会话识别方法.实验结果表明,此方法可以有效的识别出用户的真实会话.
关键词
数据预处理
用户识别
会话识别
编辑距离
最长公共子序列
Keywords
data
preprocessing
user
identification
session
identification
levenshtein
distance
longest
common
subsequence
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web日志挖掘数据预处理研究
被引量:
2
20
作者
夏成文
韩坚华
梁乘铭
机构
广东工业大学计算机学院
出处
《微型电脑应用》
2007年第10期50-53,6,共4页
文摘
在详细介绍ELF日志文件格式的基础上定义了会话表,并对预处理过程中几个主要步骤进行深入讨论,总结已有的各种处理手段提出新的改进方法,其中重点针对会话识别进行了改进并给出了新的算法。
关键词
WEB日志挖掘
数据预处理
用户识别
会话识别
事务识别
Keywords
Web
log
mining
ELF
Data
preprocessing
User
identification
session
identification
Affairs
identification
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
网络日志挖掘中基于时间间隔的会话切分
庄力可
寇忠宝
张长水
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2005
24
原文传递
2
Web访问挖掘的预处理技术的研究
熊忠阳
周亚峰
《计算机技术与发展》
2007
19
下载PDF
职称材料
3
基于用户访问模式挖掘的网页实时推荐研究
张慧颖
梁伟
《计算机应用》
CSCD
北大核心
2004
12
下载PDF
职称材料
4
Web日志挖掘中的会话识别方法
周爱武
程博
李孙长
夏松
《计算机工程与设计》
CSCD
北大核心
2010
13
下载PDF
职称材料
5
Web日志预处理中优化的会话识别方法
方元康
胡学钢
夏启寿
《计算机工程》
CAS
CSCD
北大核心
2009
11
下载PDF
职称材料
6
Web日志数据挖掘中数据预处理模型的研究与建立
赵莹莹
韩元杰
《现代电子技术》
2007
9
下载PDF
职称材料
7
Web日志预处理中会话识别的优化
朱晋华
陈俊杰
《太原理工大学学报》
CAS
北大核心
2008
10
下载PDF
职称材料
8
Web日志挖掘中的会话识别算法
蔡浩
贾宇波
黄成伟
黄志强
《计算机工程与设计》
CSCD
北大核心
2009
11
下载PDF
职称材料
9
Web日志挖掘中数据预处理技术的研究
于飞
丁华福
姜伦
《计算机技术与发展》
2010
9
下载PDF
职称材料
10
基于H.323协议的VoIP语音流量识别
毕夏安
张大方
谢鲲
牟晓玲
《计算机应用》
CSCD
北大核心
2008
6
下载PDF
职称材料
11
关于提取Web用户浏览行为特征的研究
胡亚慧
赵红军
鲁汉榕
王海杰
《计算机工程与设计》
CSCD
北大核心
2006
5
下载PDF
职称材料
12
改进的Web日志数据预处理技术
方元康
胡学钢
夏启寿
朱勇
《计算机工程》
CAS
CSCD
北大核心
2009
3
下载PDF
职称材料
13
网络日志预处理中优化的会话识别算法
杨富华
《计算机仿真》
CSCD
北大核心
2011
4
下载PDF
职称材料
14
基于信息熵的加密会话检测方法
陈利
张利
班晓芳
梁杰
《计算机科学》
CSCD
北大核心
2015
5
下载PDF
职称材料
15
一种基于引用日志文件的启发式会话识别算法
张海强
胡学龙
《扬州大学学报(自然科学版)》
CAS
CSCD
2007
5
下载PDF
职称材料
16
Web日志挖掘中的会话识别方法研究
顾兆军
李晓红
王伟
黄杰培
《计算机技术与发展》
2012
4
下载PDF
职称材料
17
基于Web日志的数据预处理方法研究
张玺
张学玲
张洪欣
《滨州学院学报》
2014
4
下载PDF
职称材料
18
Web日志挖掘数据预处理过程研究
韩法旺
《南京工业职业技术学院学报》
2012
3
下载PDF
职称材料
19
基于URL相似度的会话识别方法
周松松
马建红
《计算机系统应用》
2014
3
下载PDF
职称材料
20
Web日志挖掘数据预处理研究
夏成文
韩坚华
梁乘铭
《微型电脑应用》
2007
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
3
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部