基于MapReduce的并行频繁项集挖掘算法研究被引量：7

Research on parallel frequent itemset mining algorithm based on MapReduce

下载PDF

导出

摘要针对并行MRPrePost(parallel prepost algorithm based on MapReduce)频繁项集挖掘算法在大数据环境存在运行时间长、内存占用量大和节点负载不均衡的问题,提出一种基于DiffNodeset的并行频繁项集挖掘算法(parallel frequent itemsets mining using DiffNodeset,PFIMD)。该算法首先采用一种数据结构DiffNodeset,有效地避免了N-list基数过大的问题;此外提出一种双向比较策略(2-way comparison strategy,T-wcs),以减少两个DiffNodeset在连接过程中的无效计算,极大地降低了算法时间复杂度;最后考虑到集群负载对并行算法效率的影响,进一步提出了一种基于动态分组的负载均衡策略(load balancing strategy based on dynamic grouping,LBSBDG),该策略通过将频繁1项集F-list中的每项进行均匀分组,降低了集群中每个计算节点上PPC-Tree树的规模,进而减少了先序后序遍历PPC-Tree树所需的时间。实验结果表明,该算法在大数据环境下进行频繁项集挖掘具有较好的效果。 Aiming at the problem of excessive time,space complexity and unbalanced load for each node based on the parallel frequent itemset mining algorithm MRPrePost,this paper proposed an optimization parallel frequent itemset mining algorithm based on MapReduce,named PFIMD.Firstly,this algorithm adopted a data structure called DiffNodeset,which effectively avoided the defect that the N-list cardinality got very large in the MRPrePost algorithm.Secondly,in order to reduce the time complexity of this algorithm,it designed the T-wcs to avoid the invalid calculation in the procession of two DiffNodesets connection.Finally,considering the impact of cluster load on the efficiency of parallel algorithm,it proposed the LBSBDG,which decreased the size of PPC-Tree on each computing node and reduced the amount of time required to traverse the PPC-Tree by evenly grouping each item in the F-list.The experimental results show that the modified algorithm has better performance on mining frequent itemset in a big data environment.

作者刘卫明张弛毛伊敏 Liu Weiming;Zhang Chi;Mao Yimin(School of Information Engineering Jiangxi University of Science&Technology,Ganzhou Jiangxi 341099,China)

机构地区江西理工大学信息工程学院

出处《计算机应用研究》 CSCD 北大核心 2021年第3期689-695,共7页 Application Research of Computers

基金国家自然科学基金资助项目(41562019) 国家重点研发计划资助项目(2018YFC1504705)。

关键词 DiffNodeset数据结构 MAPREDUCE T-wcs策略 LBSBDG策略频繁项集挖掘 DiffNodeset structure MapReduce 2-way comparison strategy load balancing strategy based on dynamic grouping frequent item mining

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献14

1章志刚,吉根林,唐梦梦.并行挖掘频繁项目集新算法——MREclat[J].计算机应用,2014,34(8):2175-2178. 被引量：4
2张春,汲磊举.基于MapReduce的Eclat改进算法研究与应用[J].北京交通大学学报,2016,40(3):1-6. 被引量：4
3冯兴杰,潘轩.基于Spark的并行Eclat算法[J].计算机应用研究,2019,36(1):18-21. 被引量：11
4米允龙,米春桥,刘文奇.海量数据挖掘过程相关技术研究进展[J].计算机科学与探索,2015,9(6):641-659. 被引量：36
5DENG ZhiHong,WANG ZhongHui,JIANG JiaJian.A new algorithm for fast mining frequent itemsets using N-lists[J].Science China(Information Sciences),2012,55(9):2008-2030. 被引量：25
6杨勇,王伟.一种基于MapReduce的并行FP-growth算法[J].重庆邮电大学学报（自然科学版）,2013,25(5):651-657. 被引量：29
7尹远,张昌,文凯,郑云俊.基于DiffNodeset结构的最大频繁项集挖掘算法[J].计算机应用,2018,38(12):3438-3443. 被引量：5
8黄山,王波涛,王国仁,于戈,李佳佳.MapReduce优化技术综述[J].计算机科学与探索,2013,7(10):865-885. 被引量：30
9高权,万晓冬.基于负载均衡的并行FP-Growth算法[J].计算机工程,2019,45(3):32-35. 被引量：7
10程阳,章韵.基于MapReduce-HBase的Apriori算法的改进与研究[J].南京邮电大学学报（自然科学版）,2018,38(5):91-99. 被引量：6

二级参考文献213

1施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
2张尧学.透明计算:概念、结构和示例[J].电子学报,2004,32(F12):169-174. 被引量：48
3邹翔,张巍,刘洋,蔡庆生.分布式序列模式发现算法的研究[J].软件学报,2005,16(7):1262-1269. 被引量：19
4Dean J, Ghemmawat S. MapReduce: simplied data processing on large clusters [ C ]//Proceedings of the 6th Sympesium on Operating System Design and Implementation. New York: ACM Press, 2004:137 -150. 被引量：1
5Ranger C, Raghuraman R, Penmetsa A. Evaluating MapReduce for multicore and mutiprocessor systems [ C ] //Proceedings of the 2007 IEEE 13th International Symposium on High Performance Computer Architecture. Washington: IEEE Computer Society, 2007 : 13 -24. 被引量：1
6Kruuf M D, Sankaralinggam K. MapReduce for the cell B.E. architecture [ R ]. Madison: University of Wisconsin - Madison, 2007. 被引量：1
7He Bing - sheng, Fang Wen - bin, Naga K Govindaraju, et al. Mars : a MapReduce framework on graphics processors [ C ] // Proceedings of the 17th International Conference on Parallel Architectures and Compilation Techniques. New York: ACM Press, 2008 : 260 "269. 被引量：1
8Zaharia M, Konwinski A, Joseph A D. Improving MapReduce performance in heterogeneous environments [ C ] //Proceedings of the 8th USENIX Symposium on Operating Systems Design and Implementation. New York: ACM Press, 2008:29 -42. 被引量：1
9Tomwhite.Hadoop权威指南:中文版[M].曾大聃,周傲英,译.北京:清华大学出版社,2010. 被引量：1
10Chu Chen -tao, Kim S K, Lin Yian, et al. Map -Reduce for machine learning on muhicore [ C]//Twentieth Annual Conference on Neural Information Processing Systems, Vancouver: [ s. n. ], 2006 : 281 - 288. 被引量：1

共引文献214

1陈珂.“互联网+”背景下业财融合路径研究[J].投资与创业,2021(5):52-54. 被引量：2
2王越,赵静,杜冠瑶,万巍,龙春.网络空间安全日志关联分析的大数据应用[J].网络新媒体技术,2020(3):1-7. 被引量：2
3赵欣灿,朱云,毛伊敏.基于MapReduce的Apriori算法增量挖掘[J].计算机应用研究,2020,37(S02):73-75. 被引量：6
4黄东,陈光,李海滨,杨朔.Spark个性化地点推荐系统[J].辽宁工程技术大学学报（自然科学版）,2020(6):533-540. 被引量：1
5周琴.基于科技成果转化报告管理系统的研究与应用[J].新一代信息技术,2022,5(5):86-88.
6丁振,项颖.基于Hadoop的关联规则算法在电子商务中的应用[J].计算机与现代化,2012(8):122-125. 被引量：4
7张步忠,程玉胜,王则林.基于片上多核的频繁项集并行挖掘算法[J].计算机科学,2014,41(3):55-58. 被引量：3
8李强,刘晓峰.基于模拟植物生长算法的云作业调度模型[J].系统仿真学报,2018,30(12):4649-4658. 被引量：9
9刘芳,吴广潮.一种基于压缩矩阵的改进Apriori算法[J].山东大学学报（工学版）,2018,48(6):82-88. 被引量：9
10解晨光,刘明刚.并行框架下基于位图索引的多表星型连接算法[J].计算机工程与设计,2014,35(9):3107-3112.

同被引文献108

1钱军,杨欣,杨娟.情报研究方法的聚类分析[J].情报科学,2006,24(10):1561-1567. 被引量：34
2谢华成,陈向东.面向云存储的非结构化数据存取[J].计算机应用,2012,32(7):1924-1928. 被引量：50
3王洁,戴清灏,曾宇,杨东日.云制造环境下并行频繁模式增长算法优化[J].计算机集成制造系统,2012,18(9):2124-2129. 被引量：5
4毕达天,邱长波,张晗.数据降维技术研究现状及其进展[J].情报理论与实践,2013,36(2):125-128. 被引量：24
5武文杰,徐艳.现代汉语视觉动词语义相容度认知分析[J].河北大学学报（哲学社会科学版）,2013,38(6):90-92. 被引量：6
6李芬田,王红梅,潘超.滑动窗口中FP-Tree的频繁项集挖掘算法的研究[J].小型微型计算机系统,2019,40(1):45-49. 被引量：6
7梅梅,刘颖,唐小利,张玢.微博非结构化数据的情绪挖掘方法及在旅游预测中的应用[J].情报资料工作,2019,40(1):64-72. 被引量：9
8程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：736
9刘东维.情报研究方法论纲[J].情报学报,1988,7(3):186-192. 被引量：8
10王元卓,贾岩涛,刘大伟,靳小龙,程学旗.基于开放网络知识的信息检索与数据挖掘[J].计算机研究与发展,2015,52(2):456-474. 被引量：95

引证文献7

1刘建华,常发财.基于一卡通学生行为的知识库构建与应用[J].西安邮电大学学报,2021,26(3):98-104.
2贺丽,张哲,黄林竹.大数据技术在公路治超管理平台中的应用探究[J].电脑知识与技术,2022,18(19):20-21.
3赵炎.基于人工智能的数据整合系统设计[J].自动化与仪器仪表,2022(7):339-343. 被引量：3
4崔志鹏,吉卫喜,曹桢淼,陈琛,周姝含.FP-Growth-DW算法在离散车间的数据挖掘分析[J].现代制造工程,2023(3):45-54. 被引量：1
5董美玲,周榴照,章桢,万静文,尹亮,庄严.面向电力大数据的云审计研究与应用[J].电力大数据,2023,26(4):90-96.
6安然,储继华,洪先锋.面向非结构化数据的情报分析方法体系框架研究[J].情报理论与实践,2024,47(2):143-150. 被引量：4
7郭振华,孙艳青,王中兴.基于并行式频繁项集的党政收费平台[J].电子设计工程,2024,32(5):31-36.

二级引证文献8

1袁甜甜,李凤莲,左婷.改进MAHAKIL的过采样技术[J].电子设计工程,2023,31(17):1-6.
2何达齐.机器学习算法在数据挖掘中的应用[J].长江信息通信,2023,36(9):50-52. 被引量：3
3张小凡,李涛.融合多维注意力机制与动态尺度的数据校核算法[J].电子设计工程,2024,32(3):22-26.
4马宝华.自然资源数据整合系统设计[J].经纬天地,2024(2):91-94.
5姚辉,尹慧超,梁满玉,尹尚先,侯恩科,连会青,夏向学,张金福,吴传实.机器学习方法在矿井水防治理论体系研究中的应用思考[J].煤田地质与勘探,2024,52(5):107-117.
6安然,卢小宾,郑彦宁.数智融合视域下产业技术情报分析方法体系研究——基于图书情报领域论文的分析[J].情报理论与实践,2024,47(8):43-52.
7许娟,范开红,毛利,杨璐遥,赵雪慧,周琪.四川地震灾害损失预评估调查数据库设计与实现[J].地震科学进展,2024,54(8):523-531.
8于婷.大数据环境下情报分析方法的变化思考[J].办公自动化,2024,29(16):81-83.

1吴丹.助产士产前教育对初产妇产程及分娩方式的影响分析[J].世界最新医学信息文摘,2020(29):218-218. 被引量：1
2沈春媚.运用比较策略,体悟言语表达——以四年级下册“阅读链接”的运用为例[J].语文建设,2020(24):19-23. 被引量：2
3冯国军,贺占庄,吕瑛.基于DBAF算法的MongoDB负载均衡策略[J].微电子学与计算机,2021,38(2):52-55. 被引量：3
4刘财辉,谢德华,温燕军,凌敏.计算覆盖粗糙集最大和最小描述的矩阵新方法[J].山西大学学报（自然科学版）,2020,43(4):735-745. 被引量：3
5冯小和,吴启超,张振威,王彦芦,薄玉琨,崔朝阳,姜耀文,李文娟,王炜康,杨红建.全株玉米青贮和谷草干草不同比例组合对杜湖杂交肉羊增重、屠宰性能与育肥效益的影响[J].中国畜牧杂志,2021,57(2):125-129. 被引量：9
6钱相飞,郭巧能,杨仕娥,王明星,刘强,王杰芳.Cu/Al浇铸界面连接及拉伸性能的分子动力学模拟[J].中国有色金属学报,2020,30(12):2886-2900. 被引量：7
7周蜜,丁文汉,王建国,蔡力,樊亚东.闪电连接高度对地面电场波形的影响[J].电工技术学报,2021,36(4):857-868. 被引量：10
8汪志峰,赵宇海,王国仁.异构Flink集群中负载均衡算法研究与实现[J].南京大学学报（自然科学版）,2021,57(1):110-120. 被引量：8
9赵洪岩,谭小波,徐飞.MLSRP:一种面向Ad Hoc网络的路由协议[J].沈阳理工大学学报,2020,39(5):25-29. 被引量：1
10周孟然,宋红萍,胡锋,来文豪,王锦国.谱聚类结合LIF在矿井突水水源类型识别中的应用[J].光谱学与光谱分析,2021,41(2):435-440. 被引量：6

计算机应用研究

2021年第3期

浏览历史

内容加载中请稍等...

基于MapReduce的并行频繁项集挖掘算法研究被引量：7

参考文献14

二级参考文献213

共引文献214

同被引文献108

引证文献7

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的并行频繁项集挖掘算法研究 被引量：7

参考文献14

二级参考文献213

共引文献214

同被引文献108

引证文献7

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的并行频繁项集挖掘算法研究被引量：7