大规模数据集谱聚类并行优化算法

Spark Parallel Optimization Large-scale Spectral Clustering Algorithm

下载PDF

导出

摘要为解决传统谱聚类算法在应用于大规模数据上时,复杂度较高且资源占用较大,导致算法聚类效果不好甚至无法聚类的问题,提出基于并行框架和采样相结合的改进谱聚类算法,算法在自适应相似矩阵计算基础上,通过数据分块和单向节点并行,提高算法相似矩阵的计算效率,通过Nyström加权抽样逼近,减少拉普拉斯矩阵特征向量的计算复杂度,最后通过KD树结构避免k-mean聚类过程的距离计算,从而提高了聚类效率。仿真实验结果表明,文中算法在取得与传统算法相近的聚类性能的同时,取得更好的加速比,验证了算法对大规模集的良好适应性。 To solve the problem of high complexity and large resource occupancy of the traditional spectral clustering algorithm applying to large-scale data,resulting in the poor clustering effect of the algorithm or even the inability to cluster.An improved spectral clustering algorithm based on the combination of parallel framework and sampling is proposed.The data block and unidirectional node parallelism are used to improve the calculation efficiency of the algorithm similarity matrix based on the adaptive similarity matrix calculation.And then,the Nyström weighted sampling approximation is used to reduce the computational complexity of the Laplacian matrix eigenvectors.Finally,the KD tree structure is used to avoid the distance calculation of the k-mean clustering process,thereby improving the clustering efficiency.The experimental results show that,the proposed algorithm achieves a better speedup than that of traditional algorithms,with the similar clustering performance verifying the algorithm′s good adaptability to large-scale sets.

作者郝笑弘尹青山 HAO Xiao-hong;YIN Qing-shan(School of Shanxi Conservancy Technical Institute,Shanxi Taiyuan 030032,China;Software College,Jilin University,Jilin Changchun 130012,China)

机构地区山西水利职业技术学院吉林大学软件学院

出处《机械设计与制造》北大核心 2021年第10期211-214,共4页 Machinery Design & Manufacture

基金亚太经济合作组织(APEC)项目(No.ZGYZJY2019YB)。

关键词大规模谱聚类自适应相似矩阵计算单向节点并行 Nyström加权抽样 KD树优化 Large-scale Clustering Adaptive Similarity Matrix Calculation One-way Node Parallel Computing Nyström Weighted Sampling KD-Tree Optimization

分类号 TH16 [机械工程—机械制造及自动化] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献9

1王宇钢,修世超.核模糊聚类和BP神经网络的切削工艺绿色度评价[J].机械设计与制造,2018(11):41-44. 被引量：2
2张远鹏,周洁,邓赵红,钟富礼,蒋亦樟,杭文龙,王士同.代表点一致性约束的多视角模糊聚类算法[J].软件学报,2019,30(2):282-301. 被引量：15
3姜健伟,殷俊.基于正交约束的分块不完整多视角聚类[J].模式识别与人工智能,2020,33(1):41-49. 被引量：2
4吴其平,吴成茂.一种快速鲁棒核空间图形模糊聚类分割算法[J].智能系统学报,2019,14(4):804-811. 被引量：6
5金辉,钱雪忠.自然最近邻优化的密度峰值聚类算法[J].计算机科学与探索,2019,13(4):711-720. 被引量：22
6李文杰,闫世强,蒋莹,张松芝,王成良.自适应确定DBSCAN算法参数的算法研究[J].计算机工程与应用,2019,55(5):1-7. 被引量：105
7刘东江,黎建辉.基于Spark的并行图聚类算法研究[J].系统仿真学报,2020,32(6):1038-1050. 被引量：3
8王万良,张兆娟,高楠,赵燕伟.基于人工智能技术的大数据分析方法研究进展[J].计算机集成制造系统,2019,25(3):529-547. 被引量：131
9胡小强,吴翾,闻立杰,王建民.基于Spark的并行分布式过程挖掘算法[J].计算机集成制造系统,2019,25(4):791-797. 被引量：7

二级参考文献46

1丁震,胡钟山,杨静宇,唐振民.FCM算法用于灰度图象分割的研究[J].电子学报,1997,25(5):39-43. 被引量：50
2冯少荣,肖文俊.DBSCAN聚类算法的研究与改进[J].中国矿业大学学报,2008,37(1):105-111. 被引量：87
3夏鲁宁,荆继武.SA-DBSCAN:一种自适应基于密度聚类算法[J].中国科学院研究生院学报,2009,26(4):530-538. 被引量：81
4汪廷华,陈峻婷.核函数的选择研究综述[J].计算机工程与设计,2012,33(3):1181-1186. 被引量：53
5吴昊,倪志伟,王会颖.基于MapReduce的蚁群算法[J].计算机集成制造系统,2012,18(7):1503-1509. 被引量：22
6王洁,戴清灏,曾宇,杨东日.云制造环境下并行频繁模式增长算法优化[J].计算机集成制造系统,2012,18(9):2124-2129. 被引量：5
7周红芳,王鹏.DBSCAN算法中参数自适应确定方法的研究[J].西安理工大学学报,2012,28(3):289-292. 被引量：42
8郝晓飞,谭跃生,王静宇.Hadoop平台上Apriori算法并行化研究与实现[J].计算机与现代化,2013(3):1-4. 被引量：26
9伍晓榕,张树有,裘乐淼,孙良峰.面向绿色制造的加工工艺参数决策方法及应用[J].机械工程学报,2013,49(7):91-100. 被引量：28
10窦蒙,闻立杰,王建民,闫志强.基于MapReduce的海量事件日志并行转化算法[J].计算机集成制造系统,2013,19(8):1784-1793. 被引量：11

共引文献278

1周坤,李小松.人工智能与计算智能在物联网方面的应用探索[J].计算机产品与流通,2020,9(11):152-152. 被引量：5
2邱莉萍,鞠海军,龚晓敏,邓拓,刘林玉.分布式计算框架的大数据机器学习探析[J].计算机产品与流通,2020(10):179-179.
3郭恒川.人工智能中的机器学习技术应用[J].电子技术（上海）,2021,50(10):294-296. 被引量：2
4胡常礼,邵剑飞.基于分布式计算框架的机器学习系统分析[J].电视技术,2021,45(11):115-118. 被引量：2
5周润,滕奇志.基于改进DBSCAN算法的金相图像晶粒聚集检测方法[J].智能计算机与应用,2021,11(4):44-48. 被引量：1
6魏巍巍.空间数据挖掘的方法进展及其问题探究[J].产业与科技论坛,2020(8):35-36.
7聂辰辰,程峰,王成,王金亮,吴骏恩.地面激光雷达点云数据乔灌分离方法研究[J].测绘科学,2024,49(1):106-116.
8杨德建.大数据分析中的计算智能研究现状与展望[J].新一代信息技术,2022,5(7):120-122.
9商挺.浅谈基于云计算的大数据挖掘及解决方案[J].中国新通信,2018,20(23):68-68. 被引量：4
10王一鹤,杨飞,王卷乐,刘丽峰,马娅.农业大数据研究与应用进展[J].中国农业信息,2018,30(4):48-56. 被引量：10

1曹永正,王立鹏,高山,温连杰,王翠.多维数组库Xarray在数据处理中的应用[J].科学技术创新,2021(30):106-110.
2白杨.标签关联与学习模型相结合的用户兴趣变化识别算法[J].辽东学院学报（自然科学版）,2021,28(3):180-186.
3冯宪.基于Xception网络的虚假人脸图像检测[J].移动信息,2021(5):1-4.
4黄学雨,向驰,陶涛.基于MapReduce和改进密度峰值的划分聚类算法[J].计算机应用研究,2021,38(10):2988-2993. 被引量：6
5高子建,张晗睿,窦万春,徐江民,孟顺梅.基于谱聚类和隐语义模型的智能协同推荐方法[J].计算机集成制造系统,2021,27(9):2517-2524. 被引量：6
6杨辉,彭晗,朱建勇,聂飞平.一种高效的双边聚类集成算法[J].计算机仿真,2021,38(8):328-332. 被引量：1
7顾亦然,陈禹洲.基于SOM-K-means算法的商品评论研究[J].软件导刊,2021,20(10):68-72. 被引量：3
8江凯文,张超.配电网运维管理及技术改造[J].安防科技,2021(23):47-47.
9欧琦媛,祝恩.基于压缩子空间对齐的多核聚类算法[J].计算机工程与科学,2021,43(10):1730-1735. 被引量：2
10黄云香,林浩,覃思宁,郑芒英,陈康轩.基于云计算平台的电费智能核算方法研究[J].安防科技,2021(18):47-47.

机械设计与制造

2021年第10期

浏览历史

内容加载中请稍等...

大规模数据集谱聚类并行优化算法

参考文献9

二级参考文献46

共引文献278

相关作者

相关机构

相关主题

浏览历史