-
题名大数据环境下基于前缀树的频繁项集挖掘
被引量:1
- 1
-
-
作者
黄彩娟
刘卓华
所辉
杨滨
-
机构
广东机电职业技术学院计算机与设计学院
江南大学设计学院
-
出处
《控制工程》
CSCD
北大核心
2019年第11期2136-2140,共5页
-
基金
广东省高等学校优秀青年教师培养计划资助项目(Yq2013171)
-
文摘
针对大数据环境下频繁项查找效率低和可扩展性问题,提出了一种基于MapReduce框架运行的新分布式FIM算法。首先,使用前缀序列树来构建候选序列子集,避免了昂贵的扫描过程。接着,使用宽幅支持度的方法产生频繁项集,每个MapReduce迭代将修剪掉非频繁项集,显著地压缩内存消耗,以及每一个MapReduce作业的迭代时间。最后,在不同事务规模和支持度下,与不同算法进行实验对比。实验结果表明,提出的序列增长算法获得了良好的效率和可扩展性,特别是在处理大数据集和长项集方面。
-
关键词
频繁项集挖掘
MAPREDUCE
前缀序列树
模糊支持度
大数据
-
Keywords
Frequent itemset mining
MapReduce
prefix sequence tree
fuzzy support
big data
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-