基于快速地标采样的大规模谱聚类算法被引量：10

Large Scale Spectral Clustering Based on Fast Landmark Sampling

下载PDF

导出

摘要为避免传统谱聚类算法高复杂度的应用局限,基于地标表示的谱聚类算法利用地标点与数据集各点间的相似度矩阵,有效降低了谱嵌入的计算复杂度。在大数据集情况下,现有的随机抽取地标点的方法会影响聚类结果的稳定性,k均值中心点方法面临收敛时间未知、反复读取数据的问题。该文将近似奇异值分解应用于基于地标点的谱聚类,设计了一种快速地标点采样算法。该算法利用由近似奇异向量矩阵行向量的长度计算的抽样概率来进行抽样,同随机抽样策略相比,保证了聚类结果的稳定性和精度,同k均值中心点策略相比降低了算法复杂度。同时从理论上分析了抽样结果对原始数据的信息保持性,并对算法的性能进行了实验验证。 The applicability of traditional spectral clustering is limited by its high complexity in large-scale data sets. Through construction of affinity matrix between landmark points and data points, the Landmark-based Spectral Clustering （LSC） algorithm can significantly reduce the computational complexity of spectral embedding. It is vital for clustering results to apply the suitable strategies of the generation of landmark points. While considering big data problems, the existing generation strategies of landmark points face some deficiencies： the unstable results of random sampling, along with the unknown convergence time and the repeatability of data reading in k-means centers method. In this paper, a rapid landmark-sampling spectral clustering algorithm based on the approximate singular value decomposition is designed, which makes the sampling probability of each landmark point decided by the row norm of the approximate singular vector matrix. Compared with LSC algorithm based on random sampling, the clustering result of new algorithm is more stable and accurate; compared with LSC algorithm based on k-means centers, the new algorithm reduces the computational complexity. Moreover, the preservation of information in original data is analyzed for the landmark-sampling results theoretically. At the same time, the performance of new approach is verified by the experiments in some public data sets.

作者叶茂刘文芬 YE Mao LIU Wenfen(PLA Information Engineering University, Zhengzhou 450002, China State Key Laboratory of Mathematical Engineering and Advanced Computing, Zhengzhou 450002, China)

机构地区解放军信息工程大学数学工程与先进计算国家重点实验室

出处《电子与信息学报》 EI CSCD 北大核心 2017年第2期278-284,共7页 Journal of Electronics & Information Technology

基金国家973计划(2012CB315905) 国家自然科学基金(61502527 61379150)~~

关键词地标点采样大数据谱聚类近似奇异值分解 Landmark sampling Big data Spectral clustering Approximate singular value decomposition

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：330
2丁世飞,贾洪杰,史忠植.基于自适应Nystrm采样的大数据谱聚类算法[J].软件学报,2014,25(9):2037-2049. 被引量：26

二级参考文献102

1Labrinidis A, Jagadish H V. Challenges and Opportunities with Big Data. Proc of the VLDB Endowment, 2012, 5(12) : 2032-2033. 被引量：1
2Bizer C, Boncz P, Brodie M L, et al. The Meaningful Use of Big Data : Four Perspectives-Four Challenges. ACM SIGMOD Record, 2012, 40(4) : 56-60. 被引量：1
3Wang F Y. A Big-Data Perspective on AI: Newton, Merton, and An- alytics Intelligence. IEEE Intelligent Systems, 2012, 27 (5) : 2-4. 被引量：1
4Simon H A. Why Should Machines Learn?//Michalski R S, Car- bonell J G, Mitchell T M, et al. , eds. Machine Learning: An Arti- ficial Intelligence Approach. Berlin, Germany: Springer, 1983: 25 -37. 被引量：1
5Hart P. The Condensed Nearest Neighbor Rule. IEEE Trans on In- formation Theory, 1968, 14(3) : 515-516. 被引量：1
6Gates G. The Reduced Nearest Neighbor Rule. IEEE Trans on In- formation Theory, 1972, 18(3) : 431-433. 被引量：1
7Brighton H, Mellish C. Advances in Instance Selection for Instance- Based Learning Algorithms. Data Mining and Knowledge Discovery, 2002, 6(2) : 153-172. 被引量：1
8Li Y H, Maguire L. Selecting Critical Patterns Based on Local Geo- metrical and Statistical Information. IEEE Trans on Pattern Analysis and Machine Intelligence, 2011, 33(6) : 1189-1201. 被引量：1
9Angiulli F. Fast Nearest Neighbor Condensation for Large Data Sets Classification. IEEE Trans on Knowledge and Data Engineering, 2007, 19(11): 1450-1464. 被引量：1
10Angiulli F, Folino G. Distributed Nearest Neighbor-Based Conden- sation of Very Large Data Sets. IEEE Trans on Knowledge and Da- ta Engineering, 2007, 19(12): 1593-1606. 被引量：1

共引文献354

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2陈欣宇.基于大数据背景的机器学习算法研究[J].计算机产品与流通,2020,0(3):85-85. 被引量：1
3张毅,田浩.XGBoost在量化选股中的应用研究[J].金融管理研究,2020(2):122-132.
4朱赫夫.论证型式:司法人工智能的希冀[J].法大研究生,2021(1):83-101.
5李玥.机器学习的分类、聚类研究[J].电脑知识与技术,2020,0(4):161-162. 被引量：5
6宋东翔,马伽洛伦,王怡然,袁铭举.基于云原生和区块链的高校智能人事系统的研究[J].新一代信息技术,2022,5(6):67-70.
7王刚.大数据在硝酸生产中的应用[J].自动化与仪器仪表,2016(7):242-244. 被引量：1
8莫春柳.CAI的实践和再认识[J].电化教育研究,2000,21(9):47-48. 被引量：1
9谢彦祥,刘天琪,苏学能.Hadoop架构下基于分布式粒子群算法的暂态稳定评估特征量选择[J].电网技术,2018,42(12):4107-4115. 被引量：7
10牛文生.基于天地一体化信息网络的智能航空客运系统[J].航空学报,2019,40(1):231-244. 被引量：11

同被引文献46

1Jingshu Liu,Li Wang,Jinglei Liu.Efficient Preference Clustering via Random Fourier Features[J].Big Data Mining and Analytics,2019,2(3):195-204. 被引量：1
2张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
3唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
4周林,平西建,徐森,张涛.基于谱聚类的聚类集成算法[J].自动化学报,2012,38(8):1335-1342. 被引量：62
5何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：330
6丁世飞,贾洪杰,史忠植.基于自适应Nystrm采样的大数据谱聚类算法[J].软件学报,2014,25(9):2037-2049. 被引量：26
7金建国.聚类方法综述[J].计算机科学,2014,41(B11):288-293. 被引量：78
8贾洪杰,丁世飞,史忠植.求解大规模谱聚类的近似加权核k-means算法[J].软件学报,2015,26(11):2836-2846. 被引量：31
9邱云飞,杨倩,唐晓亮.基于粒子群优化的软子空间聚类算法[J].模式识别与人工智能,2015,28(10):903-912. 被引量：4
10蒋盛益,杨博泓,王连喜.一种基于增量式谱聚类的动态社区自适应发现算法[J].自动化学报,2015,41(12):2017-2025. 被引量：21

引证文献10

1费博雯,邱云飞,刘万军,刘大千.距离决策下的模糊聚类集成模型[J].电子与信息学报,2018,40(8):1895-1903. 被引量：1
2邱云飞,刘畅.基于加权集成Nystr?m采样的谱聚类算法[J].模式识别与人工智能,2019,32(5):420-428. 被引量：4
3张敏,周治平.结合度量融合和地标表示的自编码谱聚类算法[J].智能系统学报,2020,15(4):687-696. 被引量：1
4刘静姝,王莉,刘惊雷.无需特征分解的快速谱聚类算法[J].计算机应用,2020,40(12):3413-3422. 被引量：2
5申锐,吴睿.抽样改进加权核大数据谱聚类算法[J].机械设计与制造,2021(1):171-174. 被引量：3
6徐航帆,刘丛,唐坚刚,彭敦陆.改进地标点采样的加速谱聚类算法[J].电子科技,2021,34(5):47-53.
7刘晓丽,牟意红.基于主动学习的半监督谱聚类算法研究[J].甘肃高师学报,2021,26(2):41-45.
8李鹏,刘力军,黄永东.基于地标表示的联合谱嵌入和谱旋转的谱聚类算法[J].计算机科学,2021,48(S01):220-225.
9马睿,周治平.结合地标点与自编码的快速多视图聚类网络[J].智能系统学报,2022,17(2):333-340.
10毕志臻,杨德刚,冯骥.面向超大规模数据的自适应谱聚类算法[J].智能系统学报,2023,18(2):251-259.

二级引证文献9

1李鹏,刘力军,黄永东.基于地标表示的联合谱嵌入和谱旋转的谱聚类算法[J].计算机科学,2021,48(S01):220-225.
2白璐,赵鑫,孔钰婷,张正航,邵金鑫,钱育蓉.谱聚类算法研究综述[J].计算机工程与应用,2021,57(14):15-26. 被引量：27
3徐金东,赵甜雨,冯国政,欧世峰.基于上下文模糊C均值聚类的图像分割算法[J].电子与信息学报,2021,43(7):2079-2086. 被引量：25
4何选森,何帆,孟凡臣,徐丽.信源数量估计的可视化线性聚类方法[J].高技术通讯,2021,31(12):1261-1268.
5原虹,赵丽,王溢琴.链接文档中基于子空间分解的高效谱聚类算法[J].太赫兹科学与电子信息学报,2022,20(9):965-972. 被引量：1
6刘世豪,罗洪峰,马庆芬,邱娜.面向热带特色产业的机械类本科专业改革探讨[J].中国现代教育装备,2022(23):124-127.
7张鹏飞,江岸,熊念.Hadoop平台下基于优化X-means算法的大数据聚类研究[J].计算机测量与控制,2023,31(12):284-289. 被引量：1
8王珂.并行处理网络下半结构化大数据快速聚类方法[J].信息技术与信息化,2024(1):126-130. 被引量：1
9徐童童,解滨,张春昊,张喜梅.融合转移概率矩阵的多阶最近邻图聚类算法[J].计算机应用,2024,44(5):1527-1538.

1陆如松,闪四清.基于抽样策略的关联规则算法[J].大众科技,2006,8(2):52-53. 被引量：1
2蒋炼.物联网标识公共服务平台推出[J].电子商务,2010,11(11):32-32.
3林洋,李燕,董玮,刘延昕,任丽晔.复杂网络社区的抽样概率分布估计检测算法[J].西南师范大学学报（自然科学版）,2016,41(10):96-103. 被引量：1
4徐杨,张学东.基于结构的指纹特征抽取方法[J].华东师范大学学报（自然科学版）,2007(1):84-90. 被引量：2
5刘丽,王春枝.抽样在数据挖掘中的应用[J].软件导刊,2008,7(7):97-98. 被引量：2
6庞天杰,梁吉业.一种基于抽样的大规模混合数据聚类集成算法[J].计算机科学,2016,43(9):209-212. 被引量：3
7王玉银.SQL Server 2012的列存储索引技术有效运用[J].电子技术与软件工程,2017(6):165-165. 被引量：2
8姜建国,叶华,马亚华.一种采用抽样策略的PSO算法[J].控制与决策,2015,30(10):1779-1784. 被引量：1
9王德朋,娄震.一种融合Hough变换和ASM定位瞳孔中心点方法[J].计算机系统应用,2016,25(3):182-186. 被引量：1
10梁焕,吴鸣宇.AutoCAD软件的尺寸标注中二次开发技术的应用[J].机械工程与自动化,2015(2):203-204.

电子与信息学报

2017年第2期

浏览历史

内容加载中请稍等...

基于快速地标采样的大规模谱聚类算法被引量：10

参考文献2

二级参考文献102

共引文献354

同被引文献46

引证文献10

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于快速地标采样的大规模谱聚类算法 被引量：10

参考文献2

二级参考文献102

共引文献354

同被引文献46

引证文献10

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于快速地标采样的大规模谱聚类算法被引量：10