面向大规模数据的DBSCAN加速算法综述被引量：4

Survey on DBSCAN Acceleration Algorithms for Large Scale Data

下载PDF

导出

摘要 DBSCAN(density-based spatial clustering of applications with noise)是应用最广的密度聚类算法之一.然而,它时间复杂度过高(O(n^(2))),无法处理大规模数据.因而,对它进行加速成为一个研究热点,众多富有成效的工作不断涌现.从加速目标上看,这些工作大体上可分为减少冗余计算和并行化两大类;就具体加速手段而言,可分为6个主要类别:基于分布式、基于采样化、基于近似模糊、基于快速近邻、基于空间划分以及基于GPU加速技术.根据该分类,对现有工作进行了深入梳理与交叉比较,发现采用多重技术的融合加速算法优于单一加速技术;近似模糊化、并行化与分布式是当前最有效的手段;高维数据仍然难以应对.此外,对快速化DBSCAN算法在多个领域中的应用进行了跟踪报告.最后,对本领域未来的方向进行了展望. DBSCAN(density-based spatial clustering of applications with noise)is one of the most widely used and studied density clustering algorithms for its simplicity and easy implementation.However,the high time complexity(O(n^(2)))yields large-scale data that it is unable to deal with,due to that DBSCAN has great number of redundant distance computations in the process of calculating density.Therefore,accelerating it,which aims to make it suitable for big data environment,has become a research hotspot,and much fruitful work has emerged.From the perspective of acceleration goals,these efforts can be broadly divided into two categories:reducing redundant computations and parallelization.In terms of specific acceleration means,they can be divided into six main categories:distributed technique,sampling,approximation,fast neighbor,space division and GPU acceleration.According to this classification,the existing work is thoroughly combed and cross compared.It is found that the fusion acceleration algorithms of multiple technologies are better than those that only use single acceleration technology;approximate fuzziness,parallelism and distribution are the most effective methods to accelerate DBSCAN at present;high-dimensional data are still difficult to deal with.In addition,the applications of fast DBSCAN in many fields are tracked and reported.Finally,the future direction of rapid DBSCAN is prospected.

作者陈叶旺曹海露陈谊康昭雷震杜吉祥 Chen Yewang;Cao Hailu;Chen Yi;Kang Zhao;Lei Zhen;Du Jixiang(College of Computer Science and Technology,Huaqiao University,Xiamen,Fujian 361021;Beijing Key Laboratory of Big Data Technology for Food Safety(Beijing Technology and Business University),Beijing 100048;School of Computer Science and Engineering,University of Electronic Science and Technology of China,Chengdu 611731;State Key Laboratory of Pattern Recognition(Institute of Automation,Chinese Academy of Sciences),Beijing 100190;Xiamen Key Laboratory of Data Security and Blockchain Technology(Huaqiao University),Xiamen,Fujian 361021;Fujian Key Laboratory of Big Data Intelligence and Security(Huaqiao University),Xiamen,Fujian 361021;Jiangsu Provincial Key Laboratory for Computer Information Processing Technology(Soochow University),Suzhou,Jiangsu 215006)

机构地区华侨大学计算机科学与技术学院食品安全大数据技术北京市重点实验室(北京工商大学) 电子科技大学计算机科学与工程学院模式识别国家重点实验室(中国科学院自动化所) 厦门市数据安全与区块链技术重点实验室(华侨大学) 福建省大数据智能与安全重点实验室(华侨大学) 江苏省计算机信息处理技术重点实验室(苏州大学)

出处《计算机研究与发展》 EI CSCD 北大核心 2023年第9期2028-2047,共20页 Journal of Computer Research and Development

基金国家自然科学基金项目(61673186,71771094,61876068,61972010) 福建省科技计划引导性项目(2021H0019) 福建省自然科学基金项目(2020J05059,2021J01317)。

关键词快速化DBSCAN 密度聚类聚类算法大数据数据挖掘 fast DBSCAN density clustering clustering algorithm big data data mining

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1李朋..聚类分析中新聚类有效性指标的研究[D].安徽大学,2018:
2朱文婕..模糊聚类有效性指标研究[D].合肥工业大学,2009:
3刘奇旭,陈艳辉,尼杰硕,罗成,柳彩云,曹雅琴,谭儒,冯云,张越.基于机器学习的工业互联网入侵检测综述[J].计算机研究与发展,2022,59(5):994-1014. 被引量：19
4朱素霞,王蕾,孙广路.满足本地差分隐私的分类变换扰动机制[J].计算机研究与发展,2022,59(2):430-439. 被引量：5
5曾东海..基于网格密度和空间划分树的聚类算法研究[D].厦门大学,2006:
6Yaobin HE,Haoyu TAN,Wuman LUO,Shengzhong FENG,Jianping FAN.MR-DBSCAN： a scalable MapReduce-based DBSCAN algorithm for heavily skewed data[J].Frontiers of Computer Science,2014,8(1):83-99. 被引量：18

二级参考文献31

1姚和平.电力系统计算机网络通信协议－ICCP[J].电力系统自动化,1996,20(2):49-53. 被引量：1
2Ester M, Kriegel H P, Sander J, Xu X. A densitybased algorithm for dis?covering clusters in large spatial databases. Data Mining and Knowl?edge Discovery, 1996,96: 226-231. 被引量：1
3MacQueen J B. Some methods for classification and analysis of multi?variate observations. In: Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. 1967,281-297. 被引量：1
4Zhang T, Ramakrishnan R, Livny M. Birch: an efficient data cluster?ing method for very large databases. In: Proceedings of 1996 the ACM SIGMOD Conference on Managemnet of Data. 1996, lO3-114. 被引量：1
5Dempster A P, Laird N M, Rubin D B. Maximum likelihood from in?complete data via the EM algorithm. Journal of the Royal Statisticai Societ, 1977,39(1): 1-38. 被引量：1
6Wang W, Yang J, Muntz R R. Sting: A statistical information grid ap?proach to spatial data mining. In: Proceedings of the 23rd International Conference on Very Large Data Bases, 1997, 186-195. 被引量：1
7Microsoft Academic Search. Top publications in data mining. http://academic.research.microsoft.com/CSDirectory/papeccategory_ 7.html. 2013. 被引量：1
8Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters. 2008, lO7-113. 被引量：1
9White T. Hadoop: The Definitive Guide, 1st edition. O'Reilly Media, Inc., 2009. 被引量：1
10Berger M, Bokhari S. A partitioning strategy for nonuniform problems on multiprocessors. IEEE Transactions on Computers, 1987,36: 570- 580. 被引量：1

共引文献39

1杨帆,徐建刚,周亮.基于DBSCAN空间聚类的广州市区餐饮集群识别及空间特征分析[J].经济地理,2016,36(10):110-116. 被引量：57
2J.E.Judith,J.Jayakumari.Distributed Document Clustering Analysis Based on a Hybrid Method[J].China Communications,2017,14(2):131-142. 被引量：2
3赵坤,张羽君,张建龙,王勇.基于SLIC分层分割的无人机图像极小目标检测方法[J].数据采集与处理,2017,32(4):737-745. 被引量：6
4Cheqing JIN,Jie CHEN,Huiping LIU.MapReduce-based entity matching with multiple blocking functions[J].Frontiers of Computer Science,2017,11(5):895-911. 被引量：1
5陈梅,林俊山,温晓芳.基于慕课的大数据课程翻转课堂研究[J].宁夏师范学院学报,2017,38(6):105-110. 被引量：4
6李晓旭,于亚新,张文超,王磊.Coteries轨迹模式挖掘及个性化旅游路线推荐[J].软件学报,2018,29(3):587-598. 被引量：12
7孟海东,任敬佩.基于云计算平台的动态增量密度算法研究[J].计算机应用与软件,2016,33(6):16-19. 被引量：1
8王荣荣,傅秀芬.一种改进的m_(pts)-HDBSCAN算法[J].广东工业大学学报,2017,34(3):49-53. 被引量：1
9刘雄峰,黄云.基于位置特征的景区图片搜索[J].福建电脑,2019,35(2):10-13.
10Jitao Li,Yongquan Liang,Jie Zhang,Jungang Yang,Pingjian Song,Wei Cui.A new automatic oceanic mesoscale eddy detection method using satellite altimeter data based on density clustering[J].Acta Oceanologica Sinica,2019,38(5):134-141. 被引量：1

同被引文献37

1赵彦荣,王伟平,孟丹,张书彬,李均.基于Hadoop的高效连接查询处理算法CHMJ[J].软件学报,2012,23(8):2032-2041. 被引量：36
2房俊,李冬,郭会云,王嘉怡.面向海量交通数据的HBase时空索引[J].计算机应用,2017,37(2):311-315. 被引量：9
3高强,张凤荔,王瑞锦,周帆.轨迹大数据:数据处理关键技术研究综述[J].软件学报,2017,28(4):959-992. 被引量：134
4王家耀,武芳,郭建忠,成毅,陈科.时空大数据面临的挑战与机遇[J].测绘科学,2017,42(7):1-7. 被引量：68
5陈喜洲.一种基于业务特征优化HIVE中两个大表不等值关联的方法[J].广东通信技术,2017,37(11):52-55. 被引量：1
6王华进,黎建辉,沈志宏,周园春.基于ORC元数据的Hive Join查询Reducer负载均衡方法[J].计算机科学,2018,45(3):158-164. 被引量：3
7马学森,宫帅,朱建,唐昊.动态凸包引导的偏优规划蚁群算法求解TSP问题[J].通信学报,2018,39(10):59-71. 被引量：11
8周洁,姜志彬,张远鹏,王士同.基于密度的模糊代表点聚类算法[J].控制与决策,2020,35(5):1123-1133. 被引量：11
9姚程文,杨苹,刘泽健.基于CNN-GRU混合神经网络的负荷预测方法[J].电网技术,2020,44(9):3416-3423. 被引量：125
10郑瑞骁,张姝,肖先勇,汪颖.考虑温度模糊化的多层长短时记忆神经网络短期负荷预测[J].电力自动化设备,2020,40(10):181-186. 被引量：28

引证文献4

1丁强龙,叶惠珠,袁弘强,李志新.大规模时空轨迹数据连接查询效率优化实践[J].计算机系统应用,2024,33(5):1-14. 被引量：1
2于平.融合改进DBSCAN聚类和多种进化策略的改进蝗虫优化算法[J].仪表技术与传感器,2024(5):98-105.
3王赟.通信大数据安全监管平台的设计与实践[J].湖南邮电职业技术学院学报,2024,23(3):8-13.
4李杰,李蓝青,曹帅,戴上.基于改进灰狼算法优化和极限学习机的电网电力负荷预测[J].微型电脑应用,2024,40(11):75-77.

二级引证文献1

1王璐雯.基于轨迹数据的目标聚类算法研究与应用[J].移动信息,2024,46(6):199-201.

1石小龙.超声引导下行神经阻滞超前镇痛对下肢骨折患者疼痛程度的影响[J].罕少疾病杂志,2023,30(7):87-89. 被引量：1
2田健.基于密度聚类算法的电力企业营销异常数据自动校核[J].中国新技术新产品,2023(15):142-144. 被引量：1
3熊维清,卞一州,李光宇,刘正培,张涵博,张宗久.我国省级职业健康政策文本量化研究——基于政策工具、责任主体和政策类型的三维框架[J].中国卫生政策研究,2023,16(6):66-72. 被引量：8
4刘波,万维威,邹大均,李立.基于聚类算法的电网告警数据分析与处理模型[J].通信技术,2023,56(7):915-922. 被引量：1
5王建华,戴一洲.基于密度聚类的共享单车区域流量分布与调度研究[J].经营与管理,2023(8):46-53.
6朱喜祥.中职“融合式”课程思政建设模式与实践——以重庆市渝中职业教育中心历史课程为例[J].亚太教育,2023(15):87-90.
7高欣,王若谷,高文菁,邓泽军,梁睿祺,杨騉.基于运行数据的储能电站电池组一致性评估方法[J].储能科学与技术,2023,12(9):2937-2945. 被引量：8
8李妮娜.学术期刊发展微信公众号的策略探析——以财经类学术期刊为例[J].新闻研究导刊,2023,14(8):179-181.
9杜联藩.深入调研人文湾区建设,推动主题教育走深走实[J].广东省社会主义学院学报,2023(3).
10闫东辉.基于密度聚类的低压台区归属关系及相位识别方法[J].南方能源建设,2023,10(5):149-156. 被引量：1

计算机研究与发展

2023年第9期

浏览历史

内容加载中请稍等...

面向大规模数据的DBSCAN加速算法综述被引量：4

参考文献6

二级参考文献31

共引文献39

同被引文献37

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向大规模数据的DBSCAN加速算法综述 被引量：4

参考文献6

二级参考文献31

共引文献39

同被引文献37

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向大规模数据的DBSCAN加速算法综述被引量：4