期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于聚类的多维数据热点发现算法 被引量:6
1
作者 邹磊 朱晶 +3 位作者 聂晓辉 苏亚 裴丹 孙宇 《小型微型计算机系统》 CSCD 北大核心 2019年第3期465-471,共7页
数据热点发现的目标是找出数据集中的区域,并以易于人理解的方式将其展示出来.本文针对同时包含数值型特征和类别型特征的多维数据设计了数据热点发现算法,该算法的核心是改进CLTree设计的聚类算法CLTree+.本文改进了CLTree,使其能够直... 数据热点发现的目标是找出数据集中的区域,并以易于人理解的方式将其展示出来.本文针对同时包含数值型特征和类别型特征的多维数据设计了数据热点发现算法,该算法的核心是改进CLTree设计的聚类算法CLTree+.本文改进了CLTree,使其能够直接对同时包含数值型特征和类别型特征的数据进行聚类,并提升了具有周期性性质的数值型特征的聚类效果.除此之外,相比CLTree,CLTree+还大幅度提升了计算效率,使其可以用于处理大规模数据. CLTree+被应用于某大型互联网公司的业务数据,成功找出了若干个数据热点,并以易于理解的特征取值组合的方式将这些信息展示出来. 展开更多
关键词 热点发现 聚类 数据挖掘 决策树 多维数据分析
下载PDF
互联网软件错误日志聚类 被引量:6
2
作者 程世文 裴丹 王长进 《小型微型计算机系统》 CSCD 北大核心 2018年第5期865-870,共6页
互联网内容提供商在实际运营过程中,所维护的各项业务随时可能会遇到各种各样的问题,将相应的大量错误日志经过聚类后及时反馈给相应的研发人员是排除问题的首要因素.为了有效解决海量非规范的错误日志的聚类问题,本文提出互联网软件错... 互联网内容提供商在实际运营过程中,所维护的各项业务随时可能会遇到各种各样的问题,将相应的大量错误日志经过聚类后及时反馈给相应的研发人员是排除问题的首要因素.为了有效解决海量非规范的错误日志的聚类问题,本文提出互联网软件错误日志聚类方法.该方法通过引入日志模板提取、日志压缩方法降低日志规模;通过引入计算文档频率提取特征词方法提高聚类准确性并降低数据维度;结合Canopy聚类和K-means聚类算法提升聚类效果.通过在某互联网公司运维中实际系统的检验,本文提出的方法不但具有比较理想的聚类效果,而且满足生产环境中的性能要求. 展开更多
关键词 聚类 错误日志 文档频率 Canopy算法 K-MEANS算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部