-
题名基于聚类的多维数据热点发现算法
被引量:6
- 1
-
-
作者
邹磊
朱晶
聂晓辉
苏亚
裴丹
孙宇
-
机构
清华大学计算机系
北京小桔科技(滴滴出行)有限公司
-
出处
《小型微型计算机系统》
CSCD
北大核心
2019年第3期465-471,共7页
-
文摘
数据热点发现的目标是找出数据集中的区域,并以易于人理解的方式将其展示出来.本文针对同时包含数值型特征和类别型特征的多维数据设计了数据热点发现算法,该算法的核心是改进CLTree设计的聚类算法CLTree+.本文改进了CLTree,使其能够直接对同时包含数值型特征和类别型特征的数据进行聚类,并提升了具有周期性性质的数值型特征的聚类效果.除此之外,相比CLTree,CLTree+还大幅度提升了计算效率,使其可以用于处理大规模数据. CLTree+被应用于某大型互联网公司的业务数据,成功找出了若干个数据热点,并以易于理解的特征取值组合的方式将这些信息展示出来.
-
关键词
热点发现
聚类
数据挖掘
决策树
多维数据分析
-
Keywords
Hotspot detection
clustering
data mining
unsupervised decision tree
multi-dimensional data analysis
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名互联网软件错误日志聚类
被引量:6
- 2
-
-
作者
程世文
裴丹
王长进
-
机构
清华大学计算机系
北京小桔科技(滴滴出行)有限公司
-
出处
《小型微型计算机系统》
CSCD
北大核心
2018年第5期865-870,共6页
-
基金
国家自然科学基金项目(61472214)资助
-
文摘
互联网内容提供商在实际运营过程中,所维护的各项业务随时可能会遇到各种各样的问题,将相应的大量错误日志经过聚类后及时反馈给相应的研发人员是排除问题的首要因素.为了有效解决海量非规范的错误日志的聚类问题,本文提出互联网软件错误日志聚类方法.该方法通过引入日志模板提取、日志压缩方法降低日志规模;通过引入计算文档频率提取特征词方法提高聚类准确性并降低数据维度;结合Canopy聚类和K-means聚类算法提升聚类效果.通过在某互联网公司运维中实际系统的检验,本文提出的方法不但具有比较理想的聚类效果,而且满足生产环境中的性能要求.
-
关键词
聚类
错误日志
文档频率
Canopy算法
K-MEANS算法
-
Keywords
clustering
error log
document frequency
Canopy algorithm
K-means algorithm
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-