大数据环境下基于前缀树的频繁项集挖掘被引量：1

Frequent Itemset Mining Using Prefix Tree in Big Data Environment

下载PDF

导出

摘要针对大数据环境下频繁项查找效率低和可扩展性问题,提出了一种基于MapReduce框架运行的新分布式FIM算法。首先,使用前缀序列树来构建候选序列子集,避免了昂贵的扫描过程。接着,使用宽幅支持度的方法产生频繁项集,每个MapReduce迭代将修剪掉非频繁项集,显著地压缩内存消耗,以及每一个MapReduce作业的迭代时间。最后,在不同事务规模和支持度下,与不同算法进行实验对比。实验结果表明,提出的序列增长算法获得了良好的效率和可扩展性,特别是在处理大数据集和长项集方面。 For the problems of low efficiency and scalability in frequent itemset mining, a new distributed FIM algorithm is proposed, and implements it on MapReduce framework. Firstly, the algorithm applies the idea of prefix sequence to construct a tree, by which all frequent itemsets can be found without exhaustive search over the transaction databases. Then, it produces frequent itemsets in a breadth-wide support-based approach. In each Map Reduce iteration, the infrequent itemsets will be pruned away. It significantly deducts memory consumption and iteration time of each MapReduce job. Finally, the experimental comparison with different algorithms is performed under different scales of business and support degree. The results show the good efficiency and scalability of sequence-growth especially for dealing with big data and long itemsets.

作者黄彩娟刘卓华所辉杨滨 HUANG Cai-juan;LIU Zhuo-hua;SUO Hui;YANG Bin(School of Computer and Design,Guangdong Mechanical&Electrical Polytechnic,Guangzhou 510515,China;School of Design,Jiangnan University,Wuxi 214122,China)

机构地区广东机电职业技术学院计算机与设计学院江南大学设计学院

出处《控制工程》 CSCD 北大核心 2019年第11期2136-2140,共5页 Control Engineering of China

基金广东省高等学校优秀青年教师培养计划资助项目(Yq2013171)

关键词频繁项集挖掘 MAPREDUCE 前缀序列树模糊支持度大数据 Frequent itemset mining MapReduce prefix sequence tree fuzzy support big data

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1阚宝朋,崔利.基于渐近取样的频繁项集挖掘近似算法[J].控制工程,2017,24(9):1786-1791. 被引量：2
2熊富蕊,桑应朋.基于MapReduce的隐私保护的关联规则挖掘算法的研究[J].智能计算机与应用,2015,5(6):42-45. 被引量：2
3王芳,王培群,朱春节.基于频繁序列挖掘的预取算法研究与实现[J].计算机研究与发展,2016,53(2):443-448. 被引量：4
4杨勇,王伟.一种基于MapReduce的并行FP-growth算法[J].重庆邮电大学学报（自然科学版）,2013,25(5):651-657. 被引量：29
5陆维嘉.关联规则挖掘结合PSO的基因-疾病关系自动提取方法[J].湘潭大学自然科学学报,2016,38(3):64-68. 被引量：5
6谢志明,王鹏.基于MapReduce架构的并行矩阵Apriori算法[J].计算机应用研究,2017,34(2):401-404. 被引量：23
7孙鹤旭,孙泽贤,林涛.基于云计算的最大频繁项集挖掘算法[J].中南民族大学学报（自然科学版）,2016,35(3):102-106. 被引量：2

二级参考文献62

1邹翔,张巍,刘洋,蔡庆生.分布式序列模式发现算法的研究[J].软件学报,2005,16(7):1262-1269. 被引量：19
2AGRAWAL R, IMIELINSKI T, SWAMI A. Mining As- sociation Rules between Sets of Items in Large Data Bases [ C ]// Proc of the 1993 ACM-SIGMOD International Conference on Management of Data ( SIGMOD ' 93 ). Washington, DC :ACM, 1993:207-216. 被引量：1
3AGRAWAL R, SRIKANT R. Fast Algorithms for Mining Association Rules [ C ]// Proc of the 1994 International Conferenee on Very Large Data Bases ( VLDB' 94). San- tiago, Chile: Conference Publieations, 1994:487499. 被引量：1
4HAN J, PEI J, YIN Y. Mining Frequent Patterns without Candidate Generation[ C]//Proc of 2000 ACM-SIGMOD International Conference on Management of Data (SIG- MOD' 00 ). Dallas :Conference Publications, 2000 : 1-12. 被引量：1
5LI L, ZHANG Y. Optimization of Frequent hemset Min- ing on Muhiple-core Proeessor [ C ]// Proe. of the 33^rd International Conference on Very Large Data Bases. Vien- na, Austria: VLDB Endowmen, 2007 : 1275-1285. 被引量：1
6LAMINE M, NHIEN L, TAHAR M. Distributed frequent itemsets mining in heterogeneous platforms [ J ]. Journal of Engineering, Computing and Architecture, 2007:1 (2) :1-12. 被引量：1
7MOHAMMAD E, OSMAR R. ParalLel Leap: Large-Scale Maximal Pattern Mining in a Distributed Environment [ C ]//Proc of the 12th International Conference on Paral- lel and Distributed Systems. Minneapolis MN: Confer- ence Publications, 2006: 135-142. 被引量：1
8MUHAIMENUL A, REDA A. A Bounded and Adaptive Memory-Based Approach to Mine Frequent Patterns from Very Large Databases [ J ]. IEEE Transactions on Sys- tems, man, and cybernetics-part B : cybernetics, 2011,41 ( 1 ) :154-172. 被引量：1
9JEFFREY D, SAN JAY G. MapReduce: Simplified Data Processing on Large Clusters[ J ]. Communications of the ACM, 2008, 51(1) :107-113. 被引量：1
10HAN J W,MICHELINEK.数据挖掘:概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2004:146-183. 被引量：1

共引文献58

1李强,吴裕雄,古国照,陈锡林,陈晔.智能辅助诊疗平台设计与探索[J].医学信息学杂志,2019,40(11):32-35. 被引量：2
2王越,赵静,杜冠瑶,万巍,龙春.网络空间安全日志关联分析的大数据应用[J].网络新媒体技术,2020(3):1-7. 被引量：2
3黄东,陈光,李海滨,杨朔.Spark个性化地点推荐系统[J].辽宁工程技术大学学报（自然科学版）,2020(6):533-540. 被引量：1
4周国军.一种基于MapReduce的关联规则挖掘算法[J].玉林师范学院学报,2014,35(5):128-134. 被引量：1
5周国军,梁燕红,唐微.AprioriTid算法的MapReduce并行化实现[J].微型机与应用,2015,34(24):22-24.
6曹军威,袁仲达,明阳阳,张华赢.能源互联网大数据分析技术综述[J].南方电网技术,2015,9(11):1-12. 被引量：66
7张振友,孙燕,丁铁凡,刘鹏飞.一种新型的基于Hadoop框架的分布式并行FP-Growth算法[J].河北工业科技,2016,33(2):169-177. 被引量：7
8符彩珍,周国军,莫丽清,岑月明,梁徐萍.基于Hadoop的排序算法并行化改进[J].软件导刊,2016,15(4):68-71. 被引量：1
9马月坤,刘鹏飞,张振友,孙燕,丁铁凡.改进的FP-Growth算法及其分布式并行实现[J].哈尔滨理工大学学报,2016,21(2):20-27. 被引量：13
10朱文飞,齐建东,洪剑珂.Hadoop下负载均衡的频繁项集挖掘算法研究[J].计算机应用与软件,2016,33(5):35-39. 被引量：4

同被引文献9

1李芬田,王红梅,潘超.滑动窗口中FP-Tree的频繁项集挖掘算法的研究[J].小型微型计算机系统,2019,40(1):45-49. 被引量：6
2吕国,肖瑞雪,白振荣,孟凡兴.大数据挖掘中的MapReduce并行聚类优化算法研究[J].现代电子技术,2019,42(11):161-164. 被引量：21
3卢雨祥,周峰,郭建明.大数据人工智能对预警探测领域的影响分析[J].现代雷达,2019,41(11):6-9. 被引量：4
4廖彬,张陶,于炯,黄静莱,国冰磊,刘炎.多MapReduce作业协同下的大数据挖掘类算法资源效率优化[J].计算机应用研究,2020,37(5):1321-1325. 被引量：32
5王常武,尹松林,刘文远,魏小梅,郑红军,杨继萍.HUIM-IPSO:一个改进的粒子群优化高效用项集挖掘算法[J].小型微型计算机系统,2020,41(5):1084-1090. 被引量：10
6张娅.基于K均值聚类的大数据频繁项集挖掘研究[J].计算机仿真,2020,37(8):457-461. 被引量：7
7李洁,朱洪亮,陈玉玲,辛阳.基于哈希存储与事务加权的并行Apriori改进算法[J].计算机工程,2020,46(11):109-116. 被引量：8
8谭怀英,王丁禾,郭建明,张龙.大数据挖掘技术在预警探测信息处理领域的应用前景[J].现代雷达,2020,42(11):1-5. 被引量：7
9黄金国,刘涛,周先春,严锡君.基于可变粒度机会调度的网络大数据知识扩充算法[J].计算机应用研究,2019,36(3):896-898. 被引量：6

引证文献1

1张婷曼,牛奕翔,李娜.基于fg-growth算法的大数据频繁项集挖掘方法[J].现代雷达,2021,43(11):63-67. 被引量：4

二级引证文献4

1董琴,杨涛.基于RBF神经网络的关联数据一致性挖掘仿真[J].计算机仿真,2023,40(7):457-461.
2闫利霞,凌兴宏,尼洪涛.基于Apriori算法的混合型数据频繁项集挖掘算法[J].计算机仿真,2023,40(12):538-542. 被引量：1
3李萍,刘金金.基于改进模糊聚类算法的大数据随机挖掘仿真[J].计算机仿真,2024,41(2):496-499.
4解海燕,李杰,赵国栋.非结构化高维大数据异常流量时间点挖掘算法[J].计算机仿真,2024,41(7):474-478.

1王斌,吕瑞瑞,房新秀,马俊杰.多最小效用阈值的频繁高效用项集快速挖掘算法[J].计算机应用研究,2019,36(12):3623-3627. 被引量：1
2郑斌.Apriori算法改进及其在资产管理中的应用[J].重庆科技学院学报（自然科学版）,2019,21(5):54-56. 被引量：1
3穆晓芳,邓红霞,郭虎升,赵鹏.基于快速高效用项集挖掘的大规模消息流预测算法研究与应用[J].计算机应用与软件,2019,36(11):243-249. 被引量：1
4韩天鹏,王峰.一种基于本地分区的挖掘算法研究[J].赤峰学院学报（自然科学版）,2019,35(11):57-61.
5云凯.小议长输管道施工的质量控制[J].区域治理,2018,0(40):295-295.
6李超.基于Hadoop的电力数据接入方案设计[J].江苏科技信息,2019,36(33):38-41. 被引量：3
7苏浩,刘其成,牟春晓.基于MapReduce的商品评论热点发现算法研究[J].中国科学技术大学学报,2019,49(2):112-118. 被引量：1
8邹静昭,赵宁,卢翠荣,武琳.复杂属性环境非关系型分布式大数据挖掘仿真[J].计算机仿真,2019,36(10):334-338. 被引量：2
9余海涛.一种高效的持久性内存管理系统设计[J].无线互联科技,2019,16(20):47-49. 被引量：1
10朱林,郎乾雯,邢媛媛.高速嵌入式系统隐私数据安全传输建模与仿真[J].计算机仿真,2019,36(10):165-168. 被引量：7

控制工程

2019年第11期

浏览历史

内容加载中请稍等...

大数据环境下基于前缀树的频繁项集挖掘被引量：1

参考文献7

二级参考文献62

共引文献58

同被引文献9

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

大数据环境下基于前缀树的频繁项集挖掘 被引量：1

参考文献7

二级参考文献62

共引文献58

同被引文献9

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

大数据环境下基于前缀树的频繁项集挖掘被引量：1