Hadoop环境下基于并行熵的FIUT算法挖掘被引量：6

Mining research on FIUT algorithm based on parallel entropy in Hadoop environment

下载PDF

导出

摘要针对传统频繁项集挖掘算法效率低下的问题,提出基于Hadoop平台的并行BMR-FIUT算法。通过引入FIU-Tree(frequent items ultrametric tree)结构挖掘频繁项集,避免传统算法的缺陷;改进FIUT算法的分解过程,使之适应于Map-Reduce框架下的并行计算,达到并行化的目的;利用并行熵作为集群系统的负载均衡度量,使系统尽可能在各节点间合理分发数据以平衡负载。实验结果表明,BMR-FIUT算法能够有效减少并行化过程中节点负载倾斜的问题,较现有的PFP-Growth算法具有更好的性能,适用于海量数据挖掘。 Focusing on the inefficient problem of traditional algorithms for mining frequent itemsets, a parallel algorithm named Balanced _ MapReduce _ FIUT (BMR-FIUT) based on Hadoop platform was proposed. By introducing frequent items ultrametric tree (FIU-Tree) structure, frequent itemsets were mined, effectively avoiding the defects of the traditional algorithm. The process of decomposition was improved with FIUT algorithm to adapt to its parallel computing under the framework of MapReduce, achieving the purpose of parallelization. The parallel entropy was used as the load balance measurement in cluster system, so that system could in all reasonable to distribute data as much as possible between every nodes. Experimental results show that BMR-FIUT algorithm can effectively reduce the problem about load inclination of any node in the process of parallelization, it is superior to the existing PFP-Growth algorithm and it has better performance on mining volume big data.

作者晏依徐苏 YAN Yi;XU Su(School of Information Engineering,Nanchang University,Nanchang 330031,China)

机构地区南昌大学信息工程学院

出处《计算机工程与设计》北大核心 2019年第3期685-690,787,共7页 Computer Engineering and Design

关键词数据挖掘频繁项集 MapReduce编程模型 FIUT算法并行熵负载均衡 data mining frequent items MapReduce programming model FIUT algorithm parallel entropy load balance

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1杜江,张铮,张杰鑫,邰铭.MapReduce并行编程模型研究综述[J].计算机科学,2015,42(S1):537-541 564. 被引量：24
2刘木林,朱庆华.基于Hadoop的关联规则挖掘算法研究——以Apriori算法为例[J].计算机技术与发展,2016,26(7):1-5. 被引量：18
3陈兴蜀,张帅,童浩,崔晓靖.基于布尔矩阵和MapReduce的FP-Growth算法[J].华南理工大学学报（自然科学版）,2014,42(1):135-141. 被引量：22
4郭进伟,皮建勇.一种基于FP-growth的并行SON算法的实现[J].微型机与应用,2014,33(8):60-63. 被引量：2
5朱志祥,许辉辉,王雄.基于云计算的弹性负载均衡方案[J].西安邮电大学学报,2013,18(6):43-47. 被引量：9
6叶枫,王志坚,徐新坤,王丽娜,张雪洁.一种基于QoS的云负载均衡机制的研究[J].小型微型计算机系统,2012,33(10):2147-2152. 被引量：11
7聂世青,钟勇,崔梦天.一种基于负载熵的层次负载均衡算法[J].计算机应用,2016,36(A02):33-36. 被引量：7

二级参考文献78

1孙瑞锋,赵政文.基于云计算的资源调度策略[J].航空计算技术,2010,40(3):103-105. 被引量：43
2章志刚,吉根林.基于迭代式MapReduce的Apriori算法设计与实现[J].华中科技大学学报（自然科学版）,2012,40(S1):9-12. 被引量：8
3周文煜,陈华平,杨寿保,方君.基于虚拟机迁移的虚拟机集群资源调度[J].华中科技大学学报（自然科学版）,2011,39(S1):130-133. 被引量：37
4李文中,郭胜,许平,陆桑璐,陈道蓄.服务组合中一种自适应的负载均衡算法[J].软件学报,2006,17(5):1068-1077. 被引量：41
5孙宏元,谢维信,杨勋,陆克中.基于并行计算熵的同构集群负载均衡算法[J].深圳大学学报（理工版）,2007,24(1):64-68. 被引量：5
6AgrawalR,SrikantR.Fastalgorithmsforminingassociationrules[C]∥Proceedingsofthe20thVLDBConference.SanFrancisco:MorganKaufmannPublishersInc,1994:487499. 被引量：1
7ParkJ,ChenM,YuP.Usingahashbasedmethodwithtransactiontrimmingforminingassociationrules[J].IEEETransactionsonKnowledgeandDataEngineering,1997,9(5):813825. 被引量：1
8ZelSA,GuvenirHA.Analgorithmforminingassociationrulesusingperfecthashinganddatabasepruning[C]∥Proceedingsofthe10thTurkishSymposium onArtificialIntelligenceandNeuralNetworks.Berlin:SpringerVerlag,2001:257264. 被引量：1
9BrinS,MotwaniR,UllmanJD,etal.Dynamicitemsetcountingandimplicationrulesformarketbasketdata[C]∥Proceedingsofthe1997ACM SIGMOD InternationalConferenceonManagementofData.New York:ACM,1997:255264. 被引量：1
10HanJiawei,PeiJian,YinYiwen.Miningfrequentpatternswithoutcandidategeneration[C]∥ Proceedingsofthe2000ACMSIGMODInternationalConferenceonManagementofData.Dallas:ACM,2000:112. 被引量：1

共引文献86

1张笑东,夏筱筠,吕海峰,公绪超,廉梦佳.大数据网络并行计算环境中生理数据流动态负载均衡[J].吉林大学学报（工学版）,2020,50(1):247-254. 被引量：11
2张平.并行计算模型MapReduce的工作原理探究[J].吉林广播电视大学学报,2021(6):154-157. 被引量：3
3徐丞.计算机负载均衡器在企业云系统中的应用[J].数字技术与应用,2014,32(2):71-71.
4丁慧.云计算环境下基于并行计算熵的负载均衡算法[J].计算机测量与控制,2014,22(5):1493-1495. 被引量：1
5谢晓燕,张静雯.一种基于Linux集群技术的负载均衡方法[J].西安邮电大学学报,2014,19(3):64-68. 被引量：18
6刘芳,吴广潮.一种基于压缩矩阵的改进Apriori算法[J].山东大学学报（工学版）,2018,48(6):82-88. 被引量：9
7邰滢滢,薄旭,庞影,付云鹏.一种运用模糊综合评判的实时服务器负载均衡算法[J].小型微型计算机系统,2019,40(1):93-97. 被引量：3
8杨寅.Web应用服务器集群典型负载分配算法的改进研究[J].网络安全技术与应用,2015(4):155-156. 被引量：2
9顾永立,叶亮.多集群系统中作业控制的研究与实现[J].软件产业与工程,2015(3):35-38. 被引量：1
10孙凌宇,冷明,朱平,李金忠.云计算环境下基于禁忌搜索的负载均衡任务调度优化算法[J].小型微型计算机系统,2015,36(9):1948-1952. 被引量：24

同被引文献50

1王鹏,王健安,郭畅,巴济慈.基于云计算及数据挖掘技术的海量数据处理研究[J].长春理工大学学报（自然科学版）,2013,36(6):157-160. 被引量：10
2黄冬梅,杜艳玲,贺琪.混合云存储中海洋大数据迁移算法的研究[J].计算机研究与发展,2014,51(1):199-205. 被引量：42
3吴继康,于徐红.混合云环境中多用户数据共享问题研究[J].计算机应用研究,2016,33(11):3435-3441. 被引量：8
4毛国君,胡殿军,谢松燕.基于分布式数据流的大数据分类模型和算法[J].计算机学报,2017,40(1):161-175. 被引量：54
5李飞,刘建昌,石怀涛,傅梓瑛.基于分解和差分进化的多目标粒子群优化算法[J].控制与决策,2017,32(3):403-410. 被引量：30
6林海铭.基于Hadoop MapReduce的大规模线性有限元法并行实现[J].计算机应用与软件,2017,34(3):21-26. 被引量：3
7韩德志,陈旭光,雷雨馨,戴永涛,张肖.基于Spark Streaming的实时数据分析系统及其应用[J].计算机应用,2017,37(5):1263-1269. 被引量：30
8周传华,江超,赵伟.混合云可扩展视频编码的视频直播机制研究[J].计算机系统应用,2017,26(7):258-262. 被引量：2
9陈星,兰兴土,李隘鹏,郭文忠,黄罡.基于运行时模型的混合云管理方法[J].软件学报,2017,28(7):1881-1897. 被引量：6
10陈鸿俊.基于数据挖掘技术的移动互联网业务研究[J].计算机与数字工程,2017,45(8):1597-1600. 被引量：3

引证文献6

1王辉,潘俊辉,王浩畅,张强.基于Hadoop的数据挖掘实践平台研究与应用[J].赤峰学院学报（自然科学版）,2020,36(2):51-53. 被引量：2
2李华,刘占伟,郭育艳.并行PSO结合粗糙集的大数据属性约简算法[J].计算机工程与设计,2020,41(8):2238-2244. 被引量：5
3钟章生,陈世炉,陈志龙.利用并行惯性权重OOL-FA的大数据分类[J].计算机工程与设计,2020,41(10):2818-2824.
4颜烨,张学文,王立婧.基于迭代MapReduce的混合云大数据分析[J].计算机工程与设计,2021,42(4):1028-1035. 被引量：4
5尹旭熙.基于Hadoop和Spark的可扩展性化工类大数据分析系统设计[J].粘接,2021(6):81-83. 被引量：1
6李静,赵青杉,高媛.基于机器学习的大数据隐私非交互式查询研究[J].计算机仿真,2023,40(8):334-338.

二级引证文献12

1吴钰,杜庆东.基于大数据技术的随机森林算法研究[J].现代工业经济和信息化,2020,10(9):24-25. 被引量：3
2张立志,李学文.基于Hadoop的视频监控系统开发和应用[J].机械制造与自动化,2021,50(4):197-200. 被引量：1
3孙想,吴华瑞,郭旺,李庆学,彭程.数字乡村大数据平台设计与应用[J].江苏农业科学,2021,49(18):181-188. 被引量：9
4刘攀.基于云计算的城市路网最短路径算法研究[J].现代科学仪器,2023,40(1):175-180.
5郑文丽,熊贝贝,程立勋,蔡伊娜,包先雨.基于两阶分区的MapReduce实验室系统负载均衡研究[J].计算机测量与控制,2023,31(4):252-257. 被引量：1
6裴康鹭.基于邻域相似性的多源异构大数据属性约减方法[J].信息与电脑,2023,35(3):19-21.
7陈榆,何慧敏,梁志胜,欧旭.基于MapReduce的健康大数据并行挖掘算法研究[J].现代电子技术,2023,46(12):79-83.
8徐鑫乾,何宏杰,张华,张可抒.基于智能感知与特征识别的电力工程数据处理技术研究[J].电子设计工程,2023,31(22):134-138. 被引量：1
9张伟利,杨喆,孙晓海,刘铭,韩成浩.基于大数据技术的火灾风险智能感知预警方法[J].吉林大学学报（工学版）,2023,53(11):3253-3259. 被引量：2
10贾俊青,周佳,郭杉.面向智能电网广域通信的可靠路由算法研究[J].电子设计工程,2024,32(8):59-63. 被引量：1

1赵向兵,张景安.集群环境下企业应用系统的关联规则算法研究[J].山西大同大学学报（自然科学版）,2018,34(6):31-33.
2王钊,刘钊远.一种改进的流媒体集群动态负载均衡调度算法[J].计算机与数字工程,2018,46(2):241-246. 被引量：5
3陈伟锋.大数据技术支持下的电子商务系统的MapReduce架构设计与分析[J].计算机产品与流通,2018,7(4):160-160. 被引量：1
4陶泽,刘媛.粗糙集基础上海量数据挖掘的算法分析[J].中国战略新兴产业,2018(10X):158-158. 被引量：2
5张航,张欣,张平康,李琪.基于MapReduce的并行加权FIUT算法[J].微电子学与计算机,2018,35(7):41-44. 被引量：1
6张琦.高性能计算集群云化部署[J].中国管理信息化,2019,22(3):144-146.
7何婕,赖敏.云计算平台中分布式Hadoop数据挖掘关键技术研究（英文）[J].机床与液压,2018,46(24):144-149. 被引量：10
8国邦清洁设备:“i-Synergy”,“智造”卓越品质[J].城市开发（物业管理）,2018(9):42-42.
9万民.移动IP在TETRA系统中的应用研究[J].科技创新与应用,2019,0(8):181-182.
10李芬田,王红梅,潘超.滑动窗口中FP-Tree的频繁项集挖掘算法的研究[J].小型微型计算机系统,2019,40(1):45-49. 被引量：6

计算机工程与设计

2019年第3期

浏览历史

内容加载中请稍等...

Hadoop环境下基于并行熵的FIUT算法挖掘被引量：6

参考文献7

二级参考文献78

共引文献86

同被引文献50

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

Hadoop环境下基于并行熵的FIUT算法挖掘 被引量：6

参考文献7

二级参考文献78

共引文献86

同被引文献50

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

Hadoop环境下基于并行熵的FIUT算法挖掘被引量：6