基于MapReduce的top-k高效用模式挖掘算法被引量：7

Top-k high utility pattern mining algorithm based on MapReduce

下载PDF

导出

摘要高效用模式挖掘被广泛地应用于数据挖掘领域。为了挖掘指定数量的高效用模式,一些基于树结构和效用表结构的top-k高效用挖掘算法被提出,但前者在挖掘过程中产生了大量候选模式,后者在效用模式增长时需要进行多次比较;同时,由于在信息社会,数据量呈爆炸性增长,所以在数据集过大的情况下,挖掘高效用模式需以大量存储空间以及计算开销为代价。为了解决这两个问题,基于MapReduce的top-k高效用模式挖掘算法(TKHUP_MaR)被提出。该算法通过两次扫描数据库,利用三次MapReduce来实现并行top-k高效用模式的挖掘。通过实验表明TKHUP_MaR算法在并行挖掘top-k高效用模式的过程中是有效的。 High utility pattern mining has been widely applied in the field of data mining. Some top-k high utility pattern mining algorithms based on tree-like and list-like structures were proposed. However, tree-like algorithms generated a large number of candidates, and comparing operation was costly during the process of utility pattern growth in list-like algorithms. In addition, the amount of information data increased exponentially in information society. Thus, it required memory usage and computational cost in mining process, especially the dataset size was huge. In order to address above issues, this paper proposed top-k high utility pattern mining algorithm based on MapReduee, called TKHUP_MaR. TKHUP_MaR needed to scan database twice and used three MapReduce phases to parallelize top-k high utility pattern mining. The experiment results show that TKHUP_MaR is effective in the process of mining top-k high utility patterns on parallel environment.

作者吴倩王林平罗相洲崔建群王海

机构地区华中师范大学计算机学院华中师范大学科技处

出处《计算机应用研究》 CSCD 北大核心 2017年第10期2897-2900,2932,共5页 Application Research of Computers

基金国家自然科学基金资助项目(61370108)

关键词数据挖掘 TOP-K 高效用模式 MAPREDUCE 并行算法 data mining top-k high utility pattern MapReduce parallel algorithm

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1陈光鹏,杨育彬,高阳,商琳.一种基于MapReduce的频繁闭项集挖掘算法[J].模式识别与人工智能,2012,25(2):220-224. 被引量：18
2杨勇,高松松.基于MapReduce的关联规则并行增量更新算法[J].重庆邮电大学学报（自然科学版）,2014,26(5):670-678. 被引量：10
3唐颖峰,陈世平.一种基于后缀项表的并行闭频繁项集挖掘算法[J].计算机应用研究,2014,31(2):373-377. 被引量：11

二级参考文献27

1HAN Jia-wei, CHENG Hong, XIN Dong, et al. Frequent pattern mi- ning: current status and future directions [J]. Data Mining and Knowledge Discovery,2007,15( 1 ) :55-86. 被引量：1
2AGRAWALR,IMIELISKIT,SWAMIA.Miningassociationrulesbetweensetsofitemsinlargedatabases[J].ACM SIGMOD Record,1993,22(2):207-216. 被引量：1
3HANJiawei,PEIJian,YINYiwen.Miningfrequentpatternswithoutcandidategeneration[J].ACMSIGMODRecord,2000,29(2):1-12. 被引量：1
4ZA?ANEOR,ELHAJJM,LUP.Fastparallelassociationruleminingwithoutcandidacygeneration[C]//ProcofIEEE International ConferenceonDataMining.2001:665-668. 被引量：1
5PRAMUDIONOI,KITSUREGAWA M.ParallelFPgrowthonPCcluster[C]//Procofthe7thPacificAsiaConferenceonAdvancesinKnowledgeDiscoveryandDataMining.Berlin: SpringerVerlag,2003:467-473. 被引量：1
6LILi,ZHAIDong,JINFan.Aparallelalgorithmforfrequentitemsetmining[C]//Procofthe4thInternationalConferenceonParallelandDistributedComputing,ApplicationsandTechnologies.2003:868-871. 被引量：1
7DEANJ,GHEMAWATS.MapReduce:simplifieddataprocessingonlargeclusters[J].CommunicationsoftheACM,2008,51(1):107-113. 被引量：1
8LIHaoyuan,WANGYi,ZHANGDong,etal.PFP:parallelFPGrowthforqueryrecommendation[C]//ProcofACM ConferenceonRecommenderSystems.2008:107-114. 被引量：1
9OWENS,ANILR,DUNNINGT,etal.Mahoutinaction[M].[S.l.]:ManningPublications,2011. 被引量：1
10WANGSuqi,YANGYubin,CHENGuangpeng,etal.MapReducebasedclosedfrequentitemsetminingwithefficientredundancyfiltering[C]//Procofthe12thIEEEInternationalConferenceonDataMiningWorkshops.2012:449-453. 被引量：1

共引文献34

1郭鑫,颜一鸣,徐洪智,覃遵跃.动态云平台下的快速闭树聚类并行算法[J].计算机工程,2013,39(9):80-83. 被引量：2
2郭鑫,颜一鸣.一种动态云模型下树数据挖掘算法[J].小型微型计算机系统,2013,34(12):2749-2752. 被引量：8
3杨泽民.云计算模型中关联规则增量更新方法[J].计算机工程与设计,2014,35(2):504-508. 被引量：5
4颜一鸣,郭鑫.一种基于Hadoop的动态树增量更新方法[J].计算机工程,2014,40(3):67-70. 被引量：1
5周爱武,王浩,温春林.基于AFOPT-tree的最大频繁项集挖掘[J].微型机与应用,2014,33(11):86-88.
6丁勇,朱辉生,高广银.改进的频繁闭情节挖掘算法[J].计算机工程与设计,2014,35(12):4213-4216.
7黄金晶,叶施仁,何福男.基于MapReduce的频繁项集挖掘算法研究[J].物流技术,2015,34(8):178-181. 被引量：3
8刘猛.一种基于云计算的高效数据挖掘框架研究[J].微型电脑应用,2015,31(6):15-19. 被引量：2
9付婷婷,杨世平.基于MapReduce的频繁闭项集挖掘算法改进[J].微型机与应用,2015,34(24):66-69.
10张步忠,江克勤,张玉州.增量关联规则挖掘研究综述[J].小型微型计算机系统,2016,37(1):18-23. 被引量：12

同被引文献25

1毛宇星,施伯乐.基于扩展自然序树的概化关联规则增量挖掘方法[J].计算机研究与发展,2012,49(3):598-606. 被引量：8
2陈光鹏,杨育彬,高阳,商琳.一种基于MapReduce的频繁闭项集挖掘算法[J].模式识别与人工智能,2012,25(2):220-224. 被引量：18
3杨勇,高松松.基于MapReduce的关联规则并行增量更新算法[J].重庆邮电大学学报（自然科学版）,2014,26(5):670-678. 被引量：10
4陈明福.缩小候选集的top-k高效模式挖掘算法[J].数字技术与应用,2015,33(3):122-123. 被引量：1
5程思远,马超,李聪聪.基于MapReduce的高效用序列模式挖掘算法[J].计算机系统应用,2015,24(12):228-232. 被引量：2
6廖彬,张陶,于炯,刘继,尹路通,郭刚.温度感知的MapReduce节能任务调度策略[J].通信学报,2016,37(1):61-75. 被引量：8
7刘志刚,宋洋,韩烨,汪宏睿,张静,韩志伟.高速铁路接触网研究进展[J].西南交通大学学报,2016,51(3):495-518. 被引量：32
8邱飞岳,莫雷平,王丽萍,江波.周期性变量分解的多目标进化算法研究[J].小型微型计算机系统,2016,37(6):1318-1322. 被引量：2
9赵兴旺,梁吉业.一种基于信息熵的混合数据属性加权聚类算法[J].计算机研究与发展,2016,53(5):1018-1028. 被引量：42
10廖彬,张陶,于炯,尹路通,郭刚,国冰磊.MapReduce能耗建模及优化分析[J].计算机研究与发展,2016,53(9):2107-2131. 被引量：11

引证文献7

1李艳,张庆,田苏慧敏.改进的数据挖掘模糊聚类算法研究与分析[J].宁夏师范学院学报,2018,39(1):36-47. 被引量：2
2何登平,何宗浩,李培强.基于Spark的并行化高效用项集挖掘算法[J].计算机工程与科学,2019,41(10):1723-1730. 被引量：6
3廖彬,张陶,于炯,黄静莱,国冰磊,刘炎.多MapReduce作业协同下的大数据挖掘类算法资源效率优化[J].计算机应用研究,2020,37(5):1321-1325. 被引量：32
4赵航,高仕斌.基于高效用序列挖掘算法的接触网故障防护模型[J].电气化铁道,2020,31(5):46-49. 被引量：2
5邹小云,林文学.基于多目标演化算法和改进概率分类的重尾时间序列预测[J].计算机应用与软件,2020,37(12):273-279. 被引量：6
6张春砚,韩萌,孙蕊,杜诗语,申明尧.高效用模式挖掘关键技术综述[J].计算机应用研究,2021,38(2):330-340. 被引量：4
7李珊珊.基于知识图谱在移动数据库的综述研究[J].计算机产品与流通,2018,7(8):82-82.

二级引证文献52

1王钊,竺佳,金姗,张晓娜,张喆.对象代理数据库的分布式存储负载均衡算法[J].科技通报,2020(11):21-25. 被引量：3
2<<药品非临床研究质量管理规范>>(试行)[J].中国医药情报,2000,6(1):21-27.
3赵怀鑫,张英杰,邓然然,丁明航,孙朝云,李伟.基于快速峰值聚类的高速公路异常事件识别方法[J].长安大学学报（自然科学版）,2018,38(5):205-212. 被引量：2
4陈志忠.数据挖掘算法在云平台应用中的优化与实施[J].电子元器件与信息技术,2019,0(3):8-11. 被引量：8
5段琪.数据挖掘中的聚类算法分析[J].信息与电脑,2019,0(15):39-40. 被引量：2
6何南.云计算下环形网络大数据协同挖掘方法分析[J].数码设计,2020,9(12):9-9.
7李孜颖,石振国.面向大数据任务的调度方法[J].计算机应用,2020,40(10):2923-2928. 被引量：12
8贾丽娜.基于大数据处理平台的计算任务调度的配置优化[J].电脑编程技巧与维护,2021(1):106-107. 被引量：1
9宋蓓蓓.基于差分进化算法的网络多属性大数据聚类挖掘方法[J].宁夏师范学院学报,2021,42(1):91-97. 被引量：5
10于晓翠,陈亮,林泽源.基于人工智能的大数据信息快速抽取算法研究[J].电子设计工程,2021,29(5):149-153. 被引量：5

1崔英花.基于二进制树的RFID系统自适应多分支防碰撞算法[J].高技术通讯,2017,27(5):398-403. 被引量：1
2耿增民,杜剑侠,陈迪,周毅灵,邵熙雯.基于结构和链接分析的网页文档分类算法研究[J].中北大学学报（自然科学版）,2017,38(3):354-359. 被引量：1
3王佳楠,陈默,巩树凤,于戈.地理社交网络中基于K近邻的兴趣组查询[J].计算机科学,2017,44(9):200-207. 被引量：3
4邓佳,王永利,董振江.面向位置预测的动态轨迹模式挖掘[J].计算机应用研究,2017,34(10):2984-2988. 被引量：6

计算机应用研究

2017年第10期

浏览历史

内容加载中请稍等...

基于MapReduce的top-k高效用模式挖掘算法被引量：7

参考文献3

二级参考文献27

共引文献34

同被引文献25

引证文献7

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的top-k高效用模式挖掘算法 被引量：7

参考文献3

二级参考文献27

共引文献34

同被引文献25

引证文献7

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的top-k高效用模式挖掘算法被引量：7