-
题名一种改进的Web日志数据预处理研究
被引量:4
- 1
-
-
作者
孙名松
王艳丽
唐亮
-
机构
哈尔滨理工大学计算机科学与技术学院
-
出处
《自动化技术与应用》
2008年第3期23-25,共3页
-
基金
黑龙江省自然科学基金项目(编号F0306)
-
文摘
Web日志中包含大量的冗余信息,这给挖掘带来了不便。数据预处理就是处理这些冗余信息,经过数据净化、用户识别、会话识别、路径补全操作后得到能够用于挖掘的数据。本文详细介绍了预处理过程,同时对传统的会话识别算法加以改进。本文提到的实际系统是基于SQL语句的,能够显著缩短预处理时间。
-
关键词
Web习志挖掘
用户识别
会话识别
路径补全
-
Keywords
web log mining
user recognition
session recognition
pathway comolement
-
分类号
TP368
[自动化与计算机技术—计算机系统结构]
-
-
题名网络日志数据的预处理技术研究
被引量:1
- 2
-
-
作者
陈晗阳
陈建兵
梁立
-
机构
云南师范大学信息学院
-
出处
《云南师范大学学报(自然科学版)》
2018年第4期27-30,共4页
-
基金
国家自然科学基金资助项目(61562093)
云南省应用基础研究计划重点资助项目(2016FA024)
-
文摘
提出了基于web拓扑结构和访问页面兴趣度动态确定时间间隔的算法,将其应用到网络日志数据预处理研究中的会话识别阶段.以反向代理服务器采集的网络日志作为数据来源进行实验,结果表明该算法同其他会话识别算法相比,在精确度和完整度上有了很大的提高;能够有效保留用户访问校内网的日志数据特征,为后面完成推荐或者决策提供一个良好的基础.
-
关键词
校内网
日志数据
数据预处理
会话识别
-
Keywords
School network
Network log
Data preprocessing
session recognition
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名TRDFA:一种用于事务识别的DFA
- 3
-
-
作者
李文骏
黄金晶
-
机构
苏州大学图书馆
苏州工业职业技术学院信息工程系
-
出处
《计算机工程与应用》
CSCD
北大核心
2011年第34期161-163,共3页
-
文摘
在Web使用挖掘的预处理中,会话识别结束后需要经过路径补充将那些由于缓存而遗漏的页面补全,而后进行事务识别。构造了一个TRDFA,能从未经路径补充的会话中直接提取事务,并考虑了多窗口方式打开页面的情形。该方法对于只关心最终事务的用户而言,节省了整个预处理的时间,提高了效率。
-
关键词
会话识别
路径补充
事务识别
-
Keywords
session recognition
path supplement
transaction recognition
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-