快速大样本同步聚类被引量：2

Fast clustering by synchronization on large sample

下载PDF

导出

摘要针对现有的Sync算法具有较高时间复杂度,在处理大样本数据集时有相当的局限性,提出了一种快速大样本同步聚类算法(Fast Clustering by Synchronization on Large Sample,FCSLS)。首先将基于核密度估计(KDE)的抽样方法对大样本数据进行抽样压缩,再在压缩集上进行同步聚类,通过Davies-Bouldin指标自动寻优到最佳聚类数,最后,对剩下的大规模数据进行聚类,得到最终聚类结果。通过在人造数据集以及UCI真实数据集上的实验,FCSLS可以在大规模数据集上得到任意形状、密度、大小的聚类且不需要预设聚类数。同时与基于压缩集密度估计和中心约束最小包含球技术的快速压缩方法相比,FCSLS在不损失聚类精度的情况下,极大地缩短了同步聚类算法的运行时间。 Since the existing clustering synchronization clustering algorithm Sync is highly complex in time, and it cannot be applied into the case of large sample, it proposes a new algorithm named Fast Clustering by Synchronization on Large Sample（FCSLS）. To apply this algorithm, it firstly condenses the large sample dataset by using the KDE based sampling method, and then, carries out the cluster synchronization of compressed dataset, finding out the best clustering data by using the Davies-Bouldin clustering criterion, finally, gets the final clustering results by clustering the rest objects in the large dataset. Based on the empirical result from the synthetic datasets and UCI real-world datasets, it concludes that FCSLS can detect clusters of any shape density and size without pre-setting the cluster number. Meanwhile, compar-ing with the compression algorithm based on RSDE and CCMEB, FCSLS can significantly reduce the operation time of the cluster synchronization algorithm without losing the clustering accuracy.

作者乔颖王士同

机构地区江南大学数字媒体学院

出处《计算机工程与应用》 CSCD 北大核心 2016年第23期159-166,219,共9页 Computer Engineering and Applications

基金国家自然科学基金(No.61272210)

关键词核密度估计(KDE) 抽样同步大样本聚类 Kernel Density Estimate （KDE ） sampling synchronization large sample clustering

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1边馥苓,万幼.k-邻近空间关系下的空间同位模式挖掘算法[J].武汉大学学报（信息科学版）,2009,34(3):331-334. 被引量：23
2钱鹏江,王士同,邓赵红.基于稀疏Parzen窗密度估计的快速自适应相似度聚类方法[J].自动化学报,2011,37(2):179-187. 被引量：6
3应文豪,许敏,王士同,邓赵红.在大规模数据集上进行快速自适应同步聚类[J].计算机研究与发展,2014,51(4):707-720. 被引量：11

二级参考文献51

1李存华,孙志挥,陈耿,胡云.核密度估计及其在聚类算法构造中的应用[J].计算机研究与发展,2004,41(10):1712-1719. 被引量：64
2张廷宪,郑志刚.耦合非线性振子系统的同步研究[J].物理学报,2004,53(10):3287-3292. 被引量：15
3Shekhar S, Huang Y. Co-location Rules Mining.. A Summary of Results [C]. The 7th International Symposium on Spatio and Temporal Database (SSTD), New York, 2001 被引量：1
4Morimoto Y. Mining Frequent Neighboring Class Sets in Spatial Databases[C]. The 7th ACM SIGKDD International Conf on Knowledge Discovery and Data Mining, San Franciscc, California, 2001 被引量：1
5Huang Yan, Shashi S, Xiong Hui. Discovering Colocation Patterns from Spatial Datasets: A General Approach[J]. Transactions on Knowledge and Data Engineening, 2004,16 (6) : 被引量：1
6Yoo J, Shekhar S. A Partial Join Approach for Mining Co-location Patterns[C]. The 12nd Annual ACM International Workshop on Geographic Information Systems ( ACM-GIS), Washington D C, USA, 2004 被引量：1
7Yoo J, Shekhar S, Celik M. A Join-less Approach for Co-location Pattern Mining: A Summary of Results[C]. The 5th IEEE International Conference on Data Mining(ICDM'05), Houston, USA, 2005 被引量：1
8Huang Yan, Pei Jian, Xiong Hui. Mining Co-Location Patterns with Rare Events from Spatial Data Sets[J]. GeoInformatica, 2006(10):239-260 被引量：1
9Cover T M, Hart P E. Nearest Neighbor Pattern Classification [ J ]. Knowledge Based Systems, 1995, 8(6): 373-389 被引量：1
10Zhou Shuigeng, Zhao Yue, Guan Jihong, et al. A Neighborhood-based Clustering Algorithm [M]. Berlin/Heidelberg : Springer, 2005 被引量：1

共引文献36

1马娟,方源敏,赵文亮,冯瑜瑾.利用空间微分块与动态球策略的k近邻搜索算法研究[J].武汉大学学报（信息科学版）,2011,36(3):358-362. 被引量：8
2马娟,朵云峰,赵文亮.两种空间分块策略K近邻搜索算法的比较研究[J].中国图象图形学报,2011,16(9):1676-1680. 被引量：6
3李景奎,张义民.正态分布连续体结构可靠性拓扑优化设计[J].东北大学学报（自然科学版）,2011,32(9):1304-1307. 被引量：6
4钱鹏江,王士同,邓赵红.快速核密度估计定理和大规模图论松弛聚类方法[J].自动化学报,2011,37(12):1422-1434. 被引量：5
5李景奎,张义民.基于K邻近算法的连续体结构拓扑优化设计[J].组合机床与自动化加工技术,2012(1):5-7. 被引量：2
6李景奎,张义民.基于KNN方法的多约束下连续体结构拓扑优化设计[J].机械设计,2012,29(3):74-77. 被引量：2
7李景奎,张义民.基于KNN方法的多载荷作用下连续体结构拓扑优化设计[J].机械科学与技术,2012,31(6):873-876. 被引量：2
8胡文军,王士同,王娟,应文豪.一般化最小包含球的大样本快速学习方法[J].自动化学报,2012,38(11):1831-1840. 被引量：3
9李中元,边馥苓.空间同位模式挖掘研究进展[J].地理空间信息,2013,11(6):90-93. 被引量：1
10陈新泉,苏锦钿.基于半监督学习的k平均聚类框架[J].广西大学学报（自然科学版）,2014,39(5):1074-1082. 被引量：3

同被引文献8

1杨宜东,孙志挥,朱玉全,杨明,张柏礼.基于动态网格的数据流离群点快速检测算法[J].软件学报,2006,17(8):1796-1803. 被引量：22
2朱茵,孟志勇,阚叔愚.用层次分析法计算权重[J].北方交通大学学报,1999,23(5):119-122. 被引量：332
3黄健斌,白杨,康剑梅,钟翔,张鑫,孙鹤立.一种基于同步动力学模型的网络社团发现方法[J].计算机研究与发展,2012,49(10):2198-2207. 被引量：3
4于会,刘尊,李勇军.基于多属性决策的复杂网络节点重要性综合评价方法[J].物理学报,2013,62(2):46-54. 被引量：147
5黄健斌,康剑梅,齐俊杰,孙鹤立.一种基于同步动力学模型的层次聚类方法[J].中国科学：信息科学,2013,43(5):599-610. 被引量：7
6应文豪,许敏,王士同,邓赵红.在大规模数据集上进行快速自适应同步聚类[J].计算机研究与发展,2014,51(4):707-720. 被引量：11
7麻景豪,蔡世民.基于同步理论的股票网络社团识别研究[J].复杂系统与复杂性科学,2014,11(4):48-53. 被引量：1
8王习特,申德荣,白梅,聂铁铮,寇月,于戈.BOD:一种高效的分布式离群点检测算法[J].计算机学报,2016,39(1):36-51. 被引量：29

引证文献2

1朱利,邱媛媛,于帅,原盛.一种基于快速k-近邻的最小生成树离群检测方法[J].计算机学报,2017,40(12):2856-2870. 被引量：30
2杨旭,钱晓东.基于改进的Vicsek模型的社会网络同步聚类算法[J].数据分析与知识发现,2020,4(4):119-128. 被引量：1

二级引证文献31

1颜金彪,郑文武,段晓旗,邓运员,郭元军,胡最.改进的最小生成树自适应空间点聚类算法[J].地球信息科学学报,2018,20(7):887-894. 被引量：3
2白王梓松,刘新,侯岚,李亭葳.一种体质测试数据异常检测融合算法[J].中国教育信息化,2018,24(12):88-92.
3包翔,刘桂锋,杨国立.基于多示例学习框架的专利文本分类方法研究[J].情报理论与实践,2018,41(11):144-148. 被引量：9
4乔天成.高维数据集之中基于距离的离群快速检测算法[J].科技创新与生产力,2017(11):67-71.
5刘颖.供应链金融大数据分布特征的分析与洞见[J].计算机科学,2019,46(2):1-10. 被引量：7
6肖雪,薛善良.基于改进的OPTICS聚类和LOPW的离群数据检测算法[J].计算机工程与科学,2019,41(5):885-892. 被引量：6
7牛少章,欧毓毅,凌捷,顾国生.基于网格查询的局部离群点检测算法[J].计算机工程与应用,2019,55(17):89-94. 被引量：2
8刘芳,齐建鹏,于彦伟,曹磊,赵金东.基于密度的Top-n局部异常点快速检测算法[J].自动化学报,2019,45(9):1756-1771. 被引量：14
9冯嘉琛,蔡江辉,杨海峰.一种改进隔离森林的快速离群点检测算法[J].小型微型计算机系统,2019,40(11):2418-2423. 被引量：8
10王康,周治平.高斯核密度估计方法检测健康数据异常值[J].计算机科学与探索,2019,13(12):2094-2102. 被引量：7

1李陶深,曾明霏,葛志辉.一种基于网络编码的组播路由算法[J].计算机科学,2010,37(7):122-124. 被引量：2
2应文豪,许敏,王士同,邓赵红.在大规模数据集上进行快速自适应同步聚类[J].计算机研究与发展,2014,51(4):707-720. 被引量：11
3李学,苗夺谦,冯琴荣.基于数据场的粗糙聚类算法[J].计算机科学,2009,36(2):203-206. 被引量：9
4毕凯,王晓丹,邢雅琼.基于证据空间有效性指标的聚类选择性集成[J].通信学报,2015,36(8):135-145. 被引量：5
5屈婉玲,袁崇义.一个图增广问题的NC算法[J].北京大学学报（自然科学版）,1998,34(5):694-699.
6赵小强,杨佳敏.一种适应于不平衡数据集的改进TANC算法[J].兰州理工大学学报,2014,40(5):86-89. 被引量：1
7贾瑞玉,耿锦威,宁再早,何成刚.基于代表点的快速聚类算法[J].计算机工程与应用,2010,46(33):121-123. 被引量：7
8戴维迪,何丕廉,刘振华,张倩.一种基于窗口的快速聚类算法——F-CABDET[J].计算机应用,2006,26(5):1127-1129.
9袁永琼.无线多跳网络中一种基于网络编码的机会路由[J].现代导航,2015,6(3):276-281. 被引量：1
10Tianfa XIE,Guoying LI.LARGE SAMPLE AND ROBUST PROPERTIES OF L^2-MEDIAN[J].Journal of Systems Science & Complexity,2010,23(6):1133-1142.

计算机工程与应用

2016年第23期

浏览历史

内容加载中请稍等...

快速大样本同步聚类被引量：2

参考文献3

二级参考文献51

共引文献36

同被引文献8

引证文献2

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

快速大样本同步聚类 被引量：2

参考文献3

二级参考文献51

共引文献36

同被引文献8

引证文献2

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

快速大样本同步聚类被引量：2