云计算平台中分布式Hadoop数据挖掘关键技术研究（英文）被引量：10

Research on key technologies of distributed Hadoop data mining in cloud computing platform

下载PDF

导出

摘要云计算环境下的大数据特征挖掘是大数据统计及分析的基础。为了提高聚类的准确度和速度,设计了一种基于分布式Hadoop平台和熵加权特征选择的数据挖掘方案。该方案首先采用无回路有向图对Hadoop平台下的Map Reduce作业流调度问题进行了分析。然后采用并行Map Reduce执行过程完成分布式计算。最后,采用熵加权聚类算法实现海量数据挖掘。仿真结果显示,提出的数据挖掘方案具有较好聚类效果和运行效率。 Big data feature mining in cloud computing environment is the basis for big data statistics and analysis. In order to improve the accuracy and speed of clustering,a data mining scheme based on distributed Hadoop platform and entropy weighted feature selection was designed in this paper.This scheme firstly uses the no-loop directed graph to analyze the problem of Map Reduce job stream scheduling under Hadoop platform,and then uses the parallel Map Reduce execution to complete the distributed computing.Finally,massive data mining is implemented by using the entropy weighted clustering algorithm.Simulation results show that the proposed data mining scheme has good clustering effect and operation efficiency.

作者何婕赖敏 Jie HE;Min LAI(College of Electronic Information Engineering,Chongqing Radio and Television University ,ChongQing 401520,China;Chongqing Institute of Engineenng,College of Software Engineering&Computer Science,Chongqing 401320,China)

机构地区重庆广播电视大学电子信息工程学院重庆工程学院软件与计算机学院

出处《机床与液压》北大核心 2018年第24期144-149,共6页 Machine Tool & Hydraulics

基金 Chongqing Science and Technology Research Project of the Education Commission(KJ1737458)~~

关键词云计算大数据挖掘 MAP REDUCE HADOOP 熵加权聚类算法 Cloud computing Big data mining Map Reduce Hadoop Entropy weighting Clustering algorithm

分类号 TN91 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献5

1刘莹,罗兴宇,王宁,罗强.基于任务进度感知的异构Hadoop云平台任务调度方案[J].计算机应用研究,2017,34(10):3139-3143. 被引量：5
2邓强,杨燕,王浩.一种改进的多视图聚类集成算法[J].计算机科学,2017,44(1):65-70. 被引量：8
3李晓瑜,俞丽颖,雷航,唐雪飞.一种K-means改进算法的并行化实现与应用[J].电子科技大学学报,2017,46(1):61-68. 被引量：49
4王磊,陈青,高洪雨,马志广,张艳杰,何登森.基于大数据挖掘技术的智能变电站故障追踪架构[J].电力系统自动化,2018,42(3):84-91. 被引量：69
5唐一韬,黄晶,肖球.一种基于DAG的MapReduce任务调度算法[J].计算机科学,2014,41(S1):42-46. 被引量：7

二级参考文献34

1栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,30(9):94-96. 被引量：112
2郭创新,朱传柏,曹一家,吴欣.电力系统故障诊断的研究现状与发展趋势[J].电力系统自动化,2006,30(8):98-103. 被引量：134
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1069
4Jeffrey Dean,Sanjay Ghemawat.MapReduce[J].Communications of the ACM.2008(1) 被引量：9
5Luis M. Vaquero,Luis Rodero-Merino,Juan Caceres,Maik Lindner.A break in the clouds[J].ACM SIGCOMM Computer Communication Review.2008(1) 被引量：2
6雷小锋,谢昆青,林帆,夏征义.一种基于K-Means局部最优性的高效聚类算法[J].软件学报,2008,19(7):1683-1692. 被引量：113
7张健沛,杨悦,杨静,张泽宝.基于最优划分的K-Means初始聚类中心选取算法[J].系统仿真学报,2009,21(9):2586-2590. 被引量：61
8陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348. 被引量：1311
9周世兵,徐振源,唐旭清.新的K-均值算法最佳聚类数确定方法[J].计算机工程与应用,2010,46(16):27-31. 被引量：90
10韩凌波,王强,蒋正锋,郝志强.一种改进的k-means初始聚类中心选取算法[J].计算机工程与应用,2010,46(17):150-152. 被引量：92

共引文献131

1沈学利,盛方严.异构资源环境下Hadoop节点能力自适应调度算法[J].计算机应用研究,2020,37(2):547-550. 被引量：4
2张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
3骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
4李航晨,秦小麟,沈尧.数据本地性感知的MapReduce负载均衡策略[J].计算机科学,2015,42(10):50-56. 被引量：4
5周水清,陈雯,龚仕林.基于IaaS云中的任务调度分配算法的研究与实现[J].微型机与应用,2016,35(5):22-25. 被引量：3
6李金涛,艾萍,岳兆新,马梦梦,边世哲.基于K-means聚类算法的改进[J].国外电子测量技术,2017,36(6):9-13. 被引量：21
7王荣丽,侯秀萍.基于优先级权重的Hadoop YARN调度算法[J].吉林大学学报（信息科学版）,2017,35(4):443-448. 被引量：3
8张晶,梁燕,魏文俊.基于改进K-means算法的公共自行车站点区域划分[J].信息通信,2017,30(4):42-44. 被引量：2
9马洋春,王兴芬.基于Spark的K-means聚类的并行实现与优化[J].福建电脑,2017,33(11):1-4. 被引量：1
10张天骐,杨强,宋玉龙,熊梅.一种K-means改进算法的软扩频信号伪码序列盲估计[J].电子与信息学报,2018,40(1):226-234. 被引量：16

同被引文献98

1黄建军.论城市图书馆的档案管理数字化建设[J].山西财经大学学报,2019,0(S01):32-34. 被引量：7
2刘炜.图书馆需要一朵怎样的“云”?[J].大学图书馆学报,2009,27(4):2-6. 被引量：206
3李靖,吴智勇.联盟资源中心建立统一检索平台接口规范构想[J].长江大学学报（社会科学版）,2010,33(5):106-108. 被引量：5
4温明章.基于云计算的非书资源应用分析——以广州高校图书馆联盟为例[J].图书馆学刊,2012,34(12):112-114. 被引量：4
5王铁毅,曹永彬,王伟.钢铁企业云计算平台研究及应用[J].冶金自动化,2013,37(5):12-15. 被引量：4
6苗红,赵润博,黄鲁成,娄岩.基于LDA-SVM分类算法的技术融合测度研究[J].科学学与科学技术管理,2018,39(10):13-29. 被引量：12
7邱祝文.基于redis的分布式缓存系统架构研究[J].网络安全技术与应用,2014(10):52-52. 被引量：18
8胡睿,陈清华.云计算中大数据的MapReduce处理方法简析[J].信息技术与信息化,2015(10):86-87. 被引量：1
9史红娟,唐静.高校图书馆联盟发展趋势之软件联盟架构探析[J].农业图书情报学刊,2016,28(12):15-18. 被引量：4
10赵军锋,庄怀东,赵亮,杜庆伟.大规模数据并发环境下视频监控系统的研究与实现[J].都市快轨交通,2016,29(6):11-15. 被引量：5

引证文献10

1王建行.云技术在西部高校图书馆中的应用研究[J].价值工程,2019,38(29):254-256.
2李凯军,李兆宇.钢铁企业云计算平台研究及应用[J].电脑知识与技术,2019,15(10X):76-77. 被引量：1
3任培花,李健浩.基于大数据车辆模拟运行及日志收集仿真研究[J].计算机技术与发展,2020,30(2):197-201. 被引量：1
4耿德志,徐乾.基于K-Means聚类算法的HDMA数据挖掘方法[J].计算机仿真,2021,38(2):308-312. 被引量：5
5纪冲,刘岩.基于半监督深度学习法的网络大数据集成挖掘[J].计算机仿真,2021,38(7):313-316. 被引量：8
6谢晖.基于语义网技术的海量数字档案智能挖掘方法[J].北京印刷学院学报,2021,29(9):183-186. 被引量：1
7杨薇薇,曾凌静.区块链框架下基于优化决策树模型的大数据分类算法研究[J].沈阳工程学院学报（自然科学版）,2021,17(4):57-62. 被引量：5
8李英杰,王芮,尚影.云计算环境中k-mean大数据聚类方法应用研究[J].景德镇学院学报,2022,37(6):28-30.
9侯本忠,张永强,尚颖,梁昕,刘甜甜,苏江文.基于自然语言的云数据库非结构化数据提取[J].信息技术,2023,47(3):57-63. 被引量：5
10陈竞,杜杰,李宇远.智慧能源大数据库下的智能电网云平台快速响应方法[J].微型电脑应用,2023,39(7):109-113.

二级引证文献26

1张逸飞,游江.自动控制系统网络集成技术研究[J].新一代信息技术,2022,5(3):64-67.
2贺庆,王勇为,罗成彬,官晶(指导),朱华欣(指导).基于AI技术的游戏交易平台设计研究[J].信息通信,2020,0(1):83-84.
3刘洋.基于数据交换技术的信息集成平台开发[J].信息技术与信息化,2021(12):133-135. 被引量：2
4皮小明.基于深度学习的无线传感器网络数据压缩算法研究[J].科技经济市场,2021(10):37-39. 被引量：2
5陆汝梅.基于知识库的多媒体视频信息云存储方法[J].沈阳工程学院学报（自然科学版）,2022,18(1):66-69. 被引量：2
6张文彬,陈文,张立彬.网络大数据系统运营体系研究[J].现代信息科技,2021,5(22):71-74. 被引量：2
7文硕,吴琪,郑锦莹.大数据智能化时代非接触性犯罪的侦查模式——以电信网络诈骗为例[J].政法学刊,2022,39(2):12-17. 被引量：5
8张劲松,周迪,陈明举,熊兴中,杨志文.基于稀疏主成分分析白酒GC-MS图谱分类识别技术[J].中国酿造,2022,41(4):216-221. 被引量：4
9曾姣艳,高宋俤,曾美艳.基于SQL模版的大数据批处理设计与实现[J].沈阳工程学院学报（自然科学版）,2022,18(2):90-96.
10覃日升,况华,何鑫,段锐敏.基于改进PSO-Kmeans算法的实际日负荷曲线聚类分析[J].电工技术,2022(11):1-6. 被引量：2

1崔鹏宇.共享局部算法的数据分析[J].数字技术与应用,2018,36(1):138-139.
2杨明,李铁冰,姜茸,高提雷,王佳.基于AHP的大数据可用性及挖掘方案模型研究[J].计算机技术与发展,2018,28(5):51-54. 被引量：2
3张宏达,郑则诚,张军达.基于数据挖掘的居民客户电子渠道营销策略研究[J].科技创新导报,2017,14(35):153-154. 被引量：2
4王敏,戴磊.基于大数据的O2O平台改进设计与实现[J].现代电子技术,2019,42(2):54-57. 被引量：2
5缪丰羽,王宏志,阮群生.一种基于MapReduce的不确定图上的相似性连接方法[J].计算机科学,2018,45(12):298-307.
6年伏宝,华江林.一种改进的路径选择算法研究[J].九江学院学报（自然科学版）,2018,33(4):76-78.
7兰荣亨,朱格,杨文,田野,朱明.基于聚类的网络直播群体行为建模分析[J].计算机系统应用,2019,28(1):69-74. 被引量：8
8袁泉,常伟鹏.基于Hadoop平台的图书推荐服务Apriori优化算法[J].现代电子技术,2019,42(1):180-182. 被引量：7
9胡媛媛.我院2016年药物不良反应报告分析[J].临床合理用药杂志,2018,11(35):160-161. 被引量：3
10朱维军,张春艳,周清雷,陈永华.有向图k顶点导出子图的DNA粘贴算法[J].计算机科学,2019,46(1):309-313.

机床与液压

2018年第24期

浏览历史

内容加载中请稍等...

云计算平台中分布式Hadoop数据挖掘关键技术研究（英文）被引量：10

参考文献5

二级参考文献34

共引文献131

同被引文献98

引证文献10

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

云计算平台中分布式Hadoop数据挖掘关键技术研究（英文） 被引量：10

参考文献5

二级参考文献34

共引文献131

同被引文献98

引证文献10

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

云计算平台中分布式Hadoop数据挖掘关键技术研究（英文）被引量：10