基于聚类的多维数据热点发现算法被引量：6

Detecting Hotspot in Multi-dimensional Data Through Clustering

下载PDF

导出

摘要数据热点发现的目标是找出数据集中的区域,并以易于人理解的方式将其展示出来.本文针对同时包含数值型特征和类别型特征的多维数据设计了数据热点发现算法,该算法的核心是改进CLTree设计的聚类算法CLTree+.本文改进了CLTree,使其能够直接对同时包含数值型特征和类别型特征的数据进行聚类,并提升了具有周期性性质的数值型特征的聚类效果.除此之外,相比CLTree,CLTree+还大幅度提升了计算效率,使其可以用于处理大规模数据. CLTree+被应用于某大型互联网公司的业务数据,成功找出了若干个数据热点,并以易于理解的特征取值组合的方式将这些信息展示出来. Hotspot detection in data aims at finding out those areas with high density of data,and presenting these areas in a interpretable way. In this work,hotspot detecting algorithm is designed to deal with multi-dimensional data containing numerical features as well as categorical features. The core of the algorithm is the clustering algorithm CLTree +,a significant improvement over the baseline CLTree. CLTree + is able to deal with numerical features and categorical features,and the clustering result of numerical features with periodical characteristics is also improved. Besides,the computational efficiency of CLTree + is also improved. CLTree + is applied to transaction data of large Internet businesses and find out a fewareas with high density of data,and these areas are presented as the easy to interpret combinations of attributes and its values.

作者邹磊朱晶聂晓辉苏亚裴丹孙宇 ZOU Lei;ZHU Jing;NIE Xiao-hui;SU Ya;PEI Dan;SUN Yu(Department of Compute Science and Techology,Tsinghua University,Beijing 100084,China;Beijing Didi Chuxing Company Limited,Beijing 100193,China)

机构地区清华大学计算机系北京小桔科技(滴滴出行)有限公司

出处《小型微型计算机系统》 CSCD 北大核心 2019年第3期465-471,共7页 Journal of Chinese Computer Systems

关键词热点发现聚类数据挖掘决策树多维数据分析 Hotspot detection clustering data mining unsupervised decision tree multi-dimensional data analysis

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1丁建立,杨博,雷雄.基于MapReduce的航空公司服务品质热点发现算法[J].计算机工程与科学,2013,35(4):130-135. 被引量：1
2魏德志,陈福集,林丽娜.基于MFIHC聚类和TOPSIS的微博热点发现方法[J].计算机应用研究,2018,35(4):1014-1017. 被引量：5
3李瑞,邱玉辉.基于离散点的蚁群聚类算法的研究[J].计算机科学,2005,32(6):111-113. 被引量：4

二级参考文献23

1HanJiawei MichelineKambe.数据挖掘概念与技术[M].北京：机械工业出版社,2001.. 被引量：149
2Alsabti K,Ranka S,Singh V. An efficient k-means clustering algorithm. In:Proc. of the First Workshop on High Performance Data Mining, Orlando, FL, March 1998 被引量：1
3Deneubourg J L,Goss S,Franks N,et al. The dynamics of collective sorting: Robot-like ants and ant-like robots. In: J -A Meyer and S Wilson, eds. Proc. of the First Intl. Conf. on Simulation of Adaptive Behaviour: From Animals to Animats 1, MIT Press,Cambridge, MA,1991. 356～365 被引量：1
4Lumer E D,Faieta B. Diversity and Adaptation in Populations of Clustering Ants. In:Cliff D,Husbands P,Meyer J. Wilson S,eds.From Animals to Animats 3, Proc. of the 3rd Int. Conf. on the Simulation of Adaptive Behavior. Cambridge, MA: The MIT Press/Bradford Books, 1994 被引量：1
5Handl J,Knowles J,Dorigo M. Ant-based Clustering: A Comparative study of its relative importance with respect to k-means, average link and 1D-SOM: [Technical Report TR/IRIDIA/2003-24]. Universite Libre de Bruxelles ,2003 被引量：1
6Kuntz P, Snyers D. Emergent colonization and graph partitioning. In: Proc. of the third Intl. Conf. on Simulation of Adaptive Behavior: From Animals to Animats 3 (SAB 94), D. Cliff, P. Husbands, J.A. Meyer, S W Wilson,eds. MIT Press,1994. 494～50 被引量：1
7Monmarch'e N, Slimane M,Venturini G. On improving clustering in numerical databases with artificial ants. In: Lecture Notes in Artificial Intelligence, D Floreano J D Nicoud, F Mondala, eds.Swiss Federal Institute of Technology, Lausanne, Switzerland,(13-17 September 1999). Springer-Verlag,1999. 626～635 被引量：1
8Hawkins D. Identification of Outliers. London: Chapman and Hall, 1980 被引量：1
9张霞,王素贞,尹怡欣,赵海龙.基于模糊粒度计算的K-means文本聚类算法研究[J].计算机科学,2010,37(2):209-211. 被引量：12
10张书彬,韩冀中,刘志勇,王凯.基于MapReduce实现空间查询的研究[J].高技术通讯,2010,20(7):719-726. 被引量：15

共引文献7

1张大斌,王婧,刘桂琴,朱侯.基于伪并行遗传算法的聚类分析方法[J].计算机工程与设计,2009,30(1):171-174. 被引量：2
2汤可宗,舒云.一种基于蚁群聚类的图像分割方法[J].科技视界,2013(25):50-51.
3金建国.聚类方法综述[J].计算机科学,2014,41(B11):288-293. 被引量：78
4蒋建洪,王珂.基于SA-LDA模型的美食热点发现研究[J].美食研究,2017,34(4):32-37. 被引量：2
5盖璇.基于聚类分析算法的垃圾邮件识别[J].计算机与现代化,2020(10):17-22. 被引量：3
6傅丽芳,赵菲菲.基于注意力机制LSTM模型的农业舆情预测与分析[J].数学的实践与认识,2021,51(17):64-76. 被引量：3
7崔金栋,李晨雨,李菲菲.大数据背景下主流融媒体热点发现机制研究[J].情报科学,2021,39(12):72-79. 被引量：9

同被引文献51

1赵华,赵铁军,张姝,王浩畅.基于内容分析的话题检测研究[J].哈尔滨工业大学学报,2006,38(10):1740-1743. 被引量：20
2洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
3张晓艳,王挺.话题发现与追踪技术研究[J].计算机科学与探索,2009,3(4):347-357. 被引量：21
4文志诚,陈志刚,唐军.基于时间序列分析的网络安全态势预测[J].华南理工大学学报（自然科学版）,2016,44(5):137-143. 被引量：12
5王亚民,胡悦.基于BTM的微博舆情热点发现[J].情报杂志,2016,35(11):119-124. 被引量：27
6邱辰霖,程礼,何卫锋.一种基于数据间相关性的激光喷丸声学监测技术[J].振动与冲击,2017,36(4):139-143. 被引量：6
7陆钊.嵌入式数据库中多维离散数据检测仿真[J].计算机仿真,2017,34(3):400-403. 被引量：9
8龚俭,臧小东,苏琪,胡晓艳,徐杰.网络安全态势感知综述[J].软件学报,2017,28(4):1010-1026. 被引量：169
9裘江南,谷文静,翟劼.基于用户影响力的热点话题检测方法研究[J].情报杂志,2017,36(4):156-161. 被引量：5
10曹通.一种基于语义分析的热点新闻发现方法[J].计算机与现代化,2017(6):30-33. 被引量：4

引证文献6

1尚文利,敖建松,赵剑明,刘贤达,尹隆.基于DAE的工控系统态势理解算法[J].小型微型计算机系统,2020,41(6):1231-1236. 被引量：6
2方加娟,李凯.基于聚类分析的多维离散数据相关性检测系统设计[J].现代电子技术,2020,43(21):143-146.
3席耀一,高鑫,王小明,云建飞.基于ETM模型的中亚国家“一带一路”网络舆情热点检测[J].情报杂志,2020,39(11):82-89. 被引量：3
4汪波.大数据在线多维分层采样技术研究[J].信息与电脑,2020,32(22):143-145.
5武雪梅.基于数据聚类算法的地理信息系统多模块化设计[J].经纬天地,2021(6):66-69.
6刘雯,王桂玲.iBelt:一种事件日志的可解释聚类分析方法[J].计算机集成制造系统,2022,28(10):3175-3186. 被引量：2

二级引证文献11

1王佰玲,刘红日,张耀方,吕思才,王子博,王启蒙.工业控制系统安全仿真关键技术研究综述[J].系统仿真学报,2021,33(6):1466-1488. 被引量：13
2周雪晴,吴鹏.基于嵌入式主题模型的中美疫情政策主题发现研究[J].情报理论与实践,2022,45(5):173-180. 被引量：5
3张建珍,闫波.浅析工业控制系统安全技术发展[J].新型工业化,2022,12(7):236-239. 被引量：1
4于雅洁,刘贤达,蒋启梅,张博文.融合LSTM-DNN的工业安全态势预测模型[J].小型微型计算机系统,2023,44(3):596-601. 被引量：2
5杨骏,王劲林,倪宏,盛益强.工控网络异常检测中基于灵敏度的动态迁移算法[J].计算机与现代化,2023(5):46-51.
6杨骏,王劲林,倪宏,盛益强.基于KG-DBN-SVM的工控网络安全态势感知算法[J].网络新媒体技术,2023,12(3):10-19. 被引量：1
7覃泽文,赵国新,刘昱,张强.基于稀疏自编码器的工控系统态势理解算法[J].计算机仿真,2023,40(7):368-372. 被引量：1
8王婷婷,李婧湲,秦琳杰.中国对“海上丝绸之路”国家双边贸易影响因素的新考察——基于网络舆情的影响[J].数理统计与管理,2024,43(3):465-480.
9董华松,连远锋.基于BayesShrink阈值估计的混合属性数据聚类优化仿真[J].计算机仿真,2024,41(5):460-464.
10崔雪莲,董海涛.基于关键节点识别的社交网络舆情控制策略研究[J].计算机工程与应用,2024,60(20):262-273.

1史雪艳,张周胜,董娜,吴樟生.基于自适应PSO-LSSVM多维开关柜数据的状态评估方法[J].水电能源科学,2019,37(1):179-182. 被引量：3
2李奇.多维数据在MATLAB中的可视化研究[J].数码世界,2018(11):47-47.
3吕亮亮.OLAP多维数据分析在企业决策管理中的应用[J].计算机产品与流通,2019,8(1):150-150. 被引量：1
4赵振威,宋闪.游泳运动员体型三维扫描数据与流线型体型研究[J].中国体育教练员,2018,26(4):29-31. 被引量：3
5刘心宇,黄俊,王钺,张林.移动监测在城市小尺度污染热点发现中的应用[J].环境与可持续发展,2019,44(2):66-69. 被引量：6
6章靓,黄钰莹,郭晓芳,邱水生.移动智能医疗系统的现状与挑战[J].海峡药学,2019,31(3):283-285. 被引量：2
7李连本,胡博,贾磊.一种高效的室分系统问题定位方法[J].电信工程技术与标准化,2019,32(4):55-60. 被引量：1
8徐建.报文分析技术在IEEE802.11协议教学中的应用[J].计算机时代,2019(4):79-82.
9崔剑峰.感知风险对消费者网络冲动购买的影响[J].社会科学战线,2019(4):254-258. 被引量：16
10王矛.Equation Chapter 1 Section 1水电站变压器经济运行方式分析[J].陕西水利,2019(3):203-204.

小型微型计算机系统

2019年第3期

浏览历史

内容加载中请稍等...

基于聚类的多维数据热点发现算法被引量：6

参考文献3

二级参考文献23

共引文献7

同被引文献51

引证文献6

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于聚类的多维数据热点发现算法 被引量：6

参考文献3

二级参考文献23

共引文献7

同被引文献51

引证文献6

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于聚类的多维数据热点发现算法被引量：6