云计算环境中k-mean大数据聚类方法应用研究

Application of K-mean Big Data Clustering Method in Cloud Computing Environment

下载PDF

导出

摘要传统k-mean算法解决数据聚类问题时容易陷入局部最优,且单位时间内聚类数据的效率不高等问题,本文针对这些缺点对k-mean算法进行改进。在MapReduce框架下并行化布局k-mean聚类算法,基于分治策略将大数据集分为数据块,同时削减spill文件的合并以降低Map节点计算量输出;基于密度参数选取k-mean聚类算法的中心点,使用误差平方和确定算法聚类个数,避免数据聚类陷入局部最优。实验结果显示,该方法在聚类精度与效率方面均展现其优势,具有较强的数据聚类实际应用价值。 Absrtact:The traditional k-mean algorithm is easy to fall into the local optimum when solving the data clustering problem,and the efficiency of clustering data per unit time is not high,so this paper improves the k-mean algorithm in view of these shortcomings.Under the MapReduce framework,the parallel layout k-mean clustering algorithm divides the large data set into data blocks based on the divide and conquer strategy,and reduces the merge of spike files to reduce the computation output of the map node.The center point of k-mean clustering algorithm is selected based on density parameters,and the number of clustering algorithms is determined by using the sum of squares of errors to avoid data clustering falling into local optimization.Finally,the experimental results show that this method shows its advantages in clustering accuracy and efficiency,and has strong practical application value in data clustering.

作者李英杰王芮尚影 LI Ying-jie;WANG Rui;SHANG Ying(Fuyang Preschool Teachers College,Fuyang 236015,Anhui Province,China)

机构地区阜阳幼儿师范高等专科学校

出处《景德镇学院学报》 2022年第6期28-30,共3页 Journal of JingDeZhen University

基金安徽省高等学校省级质量工程教学团队项目(2020jxtd194) 安徽高校自然科学重点研究项目(KJ2021A1573) 安徽省高等学校省级质量工程线下课程项目(2020kfkc387)。

关键词云计算 MAPREDUCE框架 k-mean算法大数据聚类 cloud computing MapReduce framework K-mean algorithm big data clustering

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1孙倩,陈昊,李超.基于改进人工蜂群算法与MapReduce的大数据聚类算法[J].计算机应用研究,2020,37(6):1707-1710. 被引量：14
2何婕,赖敏.云计算平台中分布式Hadoop数据挖掘关键技术研究（英文）[J].机床与液压,2018,46(24):144-149. 被引量：10
3杨博宁.基于k-mean聚类算法的加密云数据排序搜索仿真[J].计算机仿真,2020,37(9):451-455. 被引量：4
4孙艺,赵瑛珲,王天棋,马彦凯,赵佳琪.一种K-均值优化算法的研究与改进[J].自动化技术与应用,2021,40(9):1-5. 被引量：3
5夏永泉,孙静茹,WU Xin-wen,支俊,王兵,谢希望.基于改进K均值聚类算法的星点聚类研究[J].图学学报,2019,40(2):358-363. 被引量：4
6李爽,陈瑞瑞,林楠.面向大数据挖掘的Hadoop框架K均值聚类算法[J].计算机工程与设计,2018,39(12):3734-3738. 被引量：22
7陈洲,陆南.基于K-Means算法的Web日志用户聚类研究[J].计算机与数字工程,2020,48(3):643-647. 被引量：5
8全海金,何映思.基于大数据的改进模糊K-means算法[J].重庆理工大学学报（自然科学）,2018,32(12):145-148. 被引量：8
9宋阳,石鸿雁.基于MapReduce框架下的K-means聚类算法的改进[J].计算机与现代化,2019,0(8):28-32. 被引量：7

二级参考文献78

1张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
2刘琦,林怀忠,陈纯.模糊聚类的最大树算法在Web页面分类中的应用[J].计算机应用研究,2004,21(11):286-287. 被引量：12
3李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
4孙士保,秦克云.改进的k-平均聚类算法研究[J].计算机工程,2007,33(13):200-201. 被引量：50
5王春歆,沈同圣,张玉叶.基于层次聚类的弱小目标检测算法[J].计算机工程与应用,2008,44(19):24-27. 被引量：7
6全伟,房建成.一种基于蚁群聚类算法的快速星图识别方法[J].宇航学报,2008,29(6):1814-1818. 被引量：6
7卞亦文.大样本数据聚类的改进方法[J].统计与决策,2009,25(1):12-13. 被引量：5
8郑超,苗夺谦,王睿智.基于密度加权的粗糙K-均值聚类改进算法[J].计算机科学,2009,36(3):220-222. 被引量：25
9刘越.云计算综述与移动云计算的应用研究[J].信息通信技术,2010,4(2):14-20. 被引量：80
10张红云,李萍萍.一种基于层次聚类的k均值算法研究[J].微计算机信息,2010,26(12):228-229. 被引量：7

共引文献67

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2尹延华,杨林,付梅.工业大数据技术助力煤矿安全生产管控初探[J].煤炭加工与综合利用,2019,0(6):122-125. 被引量：2
3段琪.数据挖掘中的聚类算法分析[J].信息与电脑,2019,0(15):39-40. 被引量：2
4王建行.云技术在西部高校图书馆中的应用研究[J].价值工程,2019,38(29):254-256.
5张凤霞.大数据环境下基于云计算的图书馆用户信息挖掘技术研究[J].现代电子技术,2019,42(21):36-40. 被引量：5
6何志红,孙会龙,刘贞,徐德会,包秀莉,叶杨.基于BIM+VR技术的装配式建筑远程协同平台设计[J].重庆理工大学学报（自然科学）,2019,33(10):96-102. 被引量：10
7段勇强,廖红华,郑才,樊姗,滕召波.基于改进Kmeans算法的富硒绿茶嫩芽识别[J].湖北民族学院学报（自然科学版）,2019,37(4):445-448. 被引量：4
8李凯军,李兆宇.钢铁企业云计算平台研究及应用[J].电脑知识与技术,2019,15(10X):76-77. 被引量：1
9李鹏飞.基于K-means聚类算法的高校图书馆用户分类及价值评价[J].电子元器件与信息技术,2019,3(9):73-76. 被引量：7
10任培花,李健浩.基于大数据车辆模拟运行及日志收集仿真研究[J].计算机技术与发展,2020,30(2):197-201. 被引量：1

1姜红,林凡琦,满吉.X射线荧光光谱结合聚类分析检验快递塑料包装袋[J].包装工程,2021,42(19):158-165. 被引量：5
2叶敏.基于K-mean聚类对电商AI智能客服已接听人群特征研究[J].通讯世界,2021,28(6):171-172.
3辛峰,尤向阳,葛笑寒,马宁.基于空间相量模型的三相电压暂降扰动特征提取与分类[J].电力系统保护与控制,2022,50(8):58-65. 被引量：9
4李移隆,王迪,李楠楠,黄倩,王琼华.大尺寸全息3D显示系统[J].激光与光电子学进展,2022,59(20):135-139. 被引量：1
5杨治学,王静静.基于Hadoop大数据集群的搭建[J].信息与电脑,2022,34(20):130-133. 被引量：2
6王湛昱,黄金泉,许善新,周宗震,沈聪.一种X光下铸造零部件缺陷区域自动检测方法[J].计算机应用文摘,2023,39(1):117-119.
7王静.云计算环境下的中小企业会计信息化管理模式的构建[J].财富生活,2022(20):142-144.
8湛小刚.漫谈热尔曼定理[J].中学生数理化（八年级数学）（人教版）,2023(1):51-51.
9赵菲.云计算环境下的联网审计实现方法研究[J].环渤海经济瞭望,2022(11):118-120. 被引量：1
10Feilong Ren,Wenjian Hu,Cheng Wang,Pin Wang,Wenbo Li,Congping Wu,Yingfang Yao,Wenjun Luo,Zhigang Zou.An Extrinsic Faradaic Layer on CuSn for High-Performance Electrocatalytic CO_(2) Reduction[J].CCS Chemistry,2022,4(5):1610-1618. 被引量：1

景德镇学院学报

2022年第6期

浏览历史

内容加载中请稍等...

云计算环境中k-mean大数据聚类方法应用研究

参考文献9

二级参考文献78

共引文献67

相关作者

相关机构

相关主题

浏览历史