大数据k-Means聚类挖掘优化算法被引量：6

Big Data K-Means Clustering Mining Optimization Algorithm

下载PDF

导出

摘要基于数据规模导致难以应对的存储量、数据规模导致传统算法失效、大数据复杂的数据关联性导致高复杂度的计算等问题,对大数据下的k-means聚类优化算法进行研究,给出了适用于大数据任务处理的MapReduce软件架构的模型机制,通过改进k-means初始聚类中心的选取,提出了一种基于MapReduce模型的k-means聚类优化算法.最后将改进的算法应用于煤炭煤质的分析中,结果显示较传统算法,改进算法的效率有明显提高. For the difficulty of storage capacity dealing with big data, failure of traditional algorithms for big scale data and high complexity computation, k-means clustering mining optimization algorithm is studied based on big data, and a MapReduce software architecture is proposed. It is suitable for large data processing mechanism, provides an improved method for selecting initial clustering centers and puts forward a k-means algorithm optimization based on MapReduce model. The improved algorithm is applied to coal quality analysis, and the result shows that compared with traditional algorithms, the optimization algorithm improves the efficiency obviously, and the accuracy is also enhanced.

作者宋旭东朱文辉邱占芝

机构地区大连交通大学软件学院

出处《大连交通大学学报》 CAS 2015年第3期91-94,共4页 Journal of Dalian Jiaotong University

基金国家自然科学基金资助项目(61074029) 大连市科技计划资助项目(2014A11GX006)

关键词大数据数据挖掘 K-MEANS算法 MAPREDUCE模型 big data data mining k-means algorithm MapReduce model

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1苏锦旗,薛惠锋,詹海亮.基于划分的K-均值初始聚类中心优化算法[J].微电子学与计算机,2009,26(1):8-11. 被引量：34
2仝雪姣,孟凡荣,王志晓.对k-means初始聚类中心的优化[J].计算机工程与设计,2011,32(8):2721-2723. 被引量：29
3李正兵,罗斌,翟素兰,等.基于关联图划分的Kmeans算法[EB/OL].计算机工程与应,2012.http://www.cnki.net/kcms/detail/11.2127.TP.20120615.1726.025.html. 被引量：1
4邓海,覃华,孙欣.一种优化初始中心的K-Means聚类算法[EB/OL].计算机技术与发展,2013.http://www.cnki.net/kcms/detail/61.1450.TP.20130724.0945.012.html. 被引量：1
5周炜奔,石跃祥.基于密度的K-means聚类中心选取的优化算法[J].计算机应用研究,2012,29(5):1726-1728. 被引量：48
6LAMMEL R.Google's MapReduce Programming ModelRevisited[J].Science of Computer Programming,2008,70(1):1-30. 被引量：1
7SATISH NARAYANA SRIRAMA,PELLE JAKOVITS,EERO VAINIKKO.Adapting scientific computing problems to clouds using MapReduce[J].Future generations computer systems,2012,28(1):184-192. 被引量：1
8刘鹏主编..实战Hadoop[M].北京:电子工业出版社,2011:456.
9Jiawei Han,Micheline Kamber(著),范明,孟小峰(译).数据挖掘概念与技术[M].北京:机械工业出版社,2007.3.2. 被引量：64
10周爱武,崔丹丹,潘勇.一种优化初始聚类中心的K-means聚类算法[J].微型机与应用,2011,30(13):1-3. 被引量：15

二级参考文献34

1袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
2万志华,欧阳为民,张平庸.一种基于划分的动态聚类算法[J].计算机工程与设计,2005,26(1):177-179. 被引量：16
3杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：192
4钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
5李业丽,秦臻.一种改进的k-means算法[J].北京印刷学院学报,2007,15(2):63-65. 被引量：9
6王洪春,彭宏.基于模糊C-均值的增量式聚类算法[J].微电子学与计算机,2007,24(6):156-157. 被引量：22
7袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：154
8黄光球,王西邓,刘冠.基于网格划分策略的改进人工鱼群算法[J].微电子学与计算机,2007,24(7):83-86. 被引量：18
9HANJ,KAMBERM.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2006. 被引量：5
10Han J W, Kamber M. Data mining concepts and techniques[ M].北京:高等教育出版社,2002:335-394. 被引量：1

共引文献182

1张红荣,张峰.传统的K-means聚类算法的研究与改进[J].咸阳师范学院学报,2010,25(4):59-62. 被引量：4
2张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
3周爱武,汪贤惠,刘慧婷.基于HowNet词汇相关性的文本聚类[J].微电子学与计算机,2015,32(4):90-93. 被引量：4
4刘勇,宁爱兵,许秋艳,马良.聚类分析的竞争决策算法[J].数学的实践与认识,2008,38(21):58-62.
5赵晓丹,齐志.非线性PCA方法在股价预测中的应用研究[J].吉林师范大学学报（自然科学版）,2008,29(4):70-73. 被引量：1
6李洪奇,李雄炎,谭锋奇,郭海峰,于红岩.基于数据挖掘技术的测井评价方法[J].测井技术,2009,33(1):16-21. 被引量：3
7郭伟业,赵晓丹,庞英智,奇志.数据挖掘中SOM神经网络的聚类方法研究[J].情报科学,2009,27(6):874-876. 被引量：14
8张宇,郝忠孝.多关系决策树分类算法[J].哈尔滨理工大学学报,2009,14(A01):37-39.
9祝世东,李卓玲.数据挖掘的异常检测技术分析[J].沈阳工程学院学报（自然科学版）,2009,5(3):265-268. 被引量：4
10甄彤,鲍圣洁,吴建军.储粮害虫防治专家系统的研究[J].华北水利水电学院学报,2009,30(3):47-50. 被引量：1

同被引文献55

1贺建风,李宏煜.大数据背景下基于社交网络的聚类随机游走抽样算法研究[J].统计研究,2021(4):131-144. 被引量：9
2陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
3田小林,焦李成,缑水平.基于PSO优化空间约束聚类的SAR图像分割[J].电子学报,2008,36(3):453-457. 被引量：12
4李乔,郑啸.云计算研究现状综述[J].计算机科学,2011,38(4):32-37. 被引量：435
5吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：166
6仝雪姣,孟凡荣,王志晓.对k-means初始聚类中心的优化[J].计算机工程与设计,2011,32(8):2721-2723. 被引量：29
7边鹏,赵妍,苏玉召.一种改进的K-means算法最佳聚类数确定方法[J].现代图书情报技术,2011(9):34-40. 被引量：12
8庄威,桂小林,林建材,王刚,代敏.云环境下基于多属性层次分析的虚拟机部署与调度策略[J].西安交通大学学报,2013,47(2):28-32. 被引量：30
9刘寒梅,张鹏.基于模拟退火算法对K-means聚类算法的优化[J].中国西部科技,2013,12(6):23-24. 被引量：2
10吴一全,宋昱,周怀春.基于灰度熵多阈值分割和SVM的火焰图像状态识别[J].中国电机工程学报,2013,33(20):66-73. 被引量：33

引证文献6

1张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
2王焱.基于K-means和蝙蝠算法的云计算虚拟机智能调度[J].现代电子技术,2016,39(21):21-23. 被引量：4
3杨扬,许厚泽,常军.一种基于属性值变化程度定权的聚类算法[J].测绘科学,2018,43(5):1-4. 被引量：2
4张万桢,刘同来,邬满,匡振曦.使用环形过滤器的K值自适应KNN算法[J].计算机工程与应用,2019,55(23):45-52. 被引量：12
5汤正华.基于改进蝙蝠优化自确定的模糊C-均值聚类算法[J].计量学报,2020,41(4):505-512. 被引量：8
6张鹏飞,江岸,熊念.Hadoop平台下基于优化X-means算法的大数据聚类研究[J].计算机测量与控制,2023,31(12):284-289. 被引量：1

二级引证文献46

1王洋.混合聚类算法的电子商务网站安全分析模型[J].科技通报,2021,37(5):26-30. 被引量：2
2邵海军.基于容器技术的云计算资源合理调度方法研究[J].现代电子技术,2017,40(22):33-35. 被引量：2
3吕正萍,纪汉霖.数种基于SPSS统计工具的聚类算法效率对比[J].软件导刊,2018,17(11):81-85. 被引量：9
4宋阳,石鸿雁.基于MapReduce框架下的K-means聚类算法的改进[J].计算机与现代化,2019,0(8):28-32. 被引量：7
5李果,袁小凯,许爱东,张乾坤,张福铮.基于MapReduce的人工蜂群算法在大数据中的应用[J].计算机与数字工程,2020,48(1):124-129. 被引量：3
6崔艺馨,陈晓东.Spark框架优化的大规模谱聚类并行算法[J].计算机应用,2020,40(1):168-172. 被引量：10
7张戈.课程推荐预测模型优化方案及数据离散化算法[J].计算机系统应用,2020,29(4):248-253.
8邬满.新一代信息技术在数字海洋建设中的应用分析[J].新一代信息技术,2019,2(24):36-42. 被引量：3
9文莉莉,邬满.基于大数据与知识图谱的知识共享服务平台[J].电子元器件与信息技术,2020,4(3):103-105. 被引量：5
10文莉莉,邬满.基于区块链的海洋数据采集与共享系统[J].信息技术与网络安全,2020,39(7):9-13. 被引量：4

1李远方,贾时银,邓世昆,韩月阳.基于树结构的MapReduce模型[J].计算机技术与发展,2011,21(8):149-152. 被引量：9
2杜娟.移动通信业务中的数据关联性分析[J].福建电脑,2004,20(5):14-15. 被引量：1
3田茵,施梅芳.VFP中的数据关联性[J].福建电脑,2002,18(1):21-22.
4孙秀娟.加权平均值的改进k-means算法[J].电子技术与软件工程,2014(4):198-198. 被引量：1
5王小英,白灵,孙晓玲,郭娜.弱关联字符型数据的密文检索模型优化仿真[J].计算机仿真,2014,31(2):432-435. 被引量：4
6尹青,李永伟,舒辉.数据关联性分析辅助漏洞挖掘[J].计算机应用研究,2014,31(2):583-585. 被引量：1
7刘治,章云.基于模糊参考模型机制的网络自适应拥塞控制[J].计算机工程,2008,34(7):89-91. 被引量：3
8卜旭松,刘立波,石磊.基于PAM和簇阈值的改进K-Means聚类算法[J].湖北工程学院学报,2015,35(3):36-39. 被引量：2
9刘澎,陆介平.基于MapReduce的改进k-means文本聚类算法[J].信息技术,2016,40(11):201-205. 被引量：3
10范晶晶,邢桂山.基于改进K—Means聚类算法的网络流量预测系统研究[J].中国科技投资,2014(A02):219-219.

大连交通大学学报

2015年第3期

浏览历史

内容加载中请稍等...

大数据k-Means聚类挖掘优化算法被引量：6

参考文献10

二级参考文献34

共引文献182

同被引文献55

引证文献6

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

大数据k-Means聚类挖掘优化算法 被引量：6

参考文献10

二级参考文献34

共引文献182

同被引文献55

引证文献6

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

大数据k-Means聚类挖掘优化算法被引量：6