-
题名基于MapReduce的高维数据频繁项集挖掘
被引量:8
- 1
-
-
作者
赵欣灿
朱云
毛伊敏
-
机构
江西理工大学理学院
江西理工大学信息工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第3期81-89,共9页
-
基金
国家重点研发计划(2018YFC1504705)
国家自然科学基金(41562019)
江西省教育厅科技项目(GJJ151528,GJJ151531)。
-
文摘
传统的数据挖掘算法在面向大规模高维数据的挖掘过程中,存在数据特征捕捉准确率低、节点负载不均衡、数据交互频繁、频繁项集紧凑化程度低等问题。提出基于MapReduce的并行挖掘算法PARDG-MR,结合高维数据特征,设计基于维度粒化算法和负载均衡算法的DGPL策略,并对数据进行预处理,以解决高维复杂数据特征属性捕捉困难及数据划分中节点负载不均衡的问题。通过构建基于PJPFP-Tree树的频繁项集并行挖掘策略PARM,实现频繁项集的并行化分组过程,从而提高数据处理的运行效率。在此基础上,提出基于剪枝前缀推论的整合节点剪枝算法PJPFP,提高频繁项集挖掘过程中的剪枝效率,增强频繁项集的紧凑化程度。在Webdocs、NDC、Gisette 3个数据集上的实验结果表明,相比PFP-growth、PWARM、MRPrePost算法,该算法的运行时间平均缩短了约20%,能够有效提高数据挖掘效率且降低内存空间。
-
关键词
高维数据
频繁项集
维度粒化
并行化
候选剪枝策略
-
Keywords
high-dimensional data
frequent itemset
dimensional granulation
parallel
candidate pruning strategy
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名改进的Eclat算法研究与应用
被引量:8
- 2
-
-
作者
崔馨月
孙静宇
-
机构
太原理工大学计算机科学与技术学院
-
出处
《计算机工程与设计》
北大核心
2018年第4期1059-1063,1147,共6页
-
文摘
为了解决使用Eclat算法在挖掘事务数或项目数较多的数据时,存在效率低、系统内存不足等问题,从候选集优化和剪枝策略两方面降低算法的时间复杂度,同时采用可以降低算法空间消耗的位存储结构,并基于此提出改进算法Eclat’。通过设计对比实验,进一步证明了改进算法的有效性,算法性能较原算法提高了20.37%。并将改进算法用于真实的手机用户数据上实现手机软件(Application,APP)的合理推荐。
-
关键词
Eclat算法
候选集优化
剪枝策略
有效性
手机用户
-
Keywords
Eclat algorithm
optimized candidate set
pruning strategy
effectiveness
mobile phone users
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种聚类矩阵和剪枝策略结合的关联规则算法
被引量:1
- 3
-
-
作者
许珂乐
-
机构
咸阳职业技术学院信息工程学院
-
出处
《现代计算机》
2023年第24期46-50,60,共6页
-
基金
咸阳职业技术学院科研基金项目(2021KJB05)。
-
文摘
在医学领域,Apriori关联规则算法在慢性病等方面有广泛应用。然而,该算法存在一些问题,比如需要多次扫描病例数据库、产生大量数据集和冗余规则。针对出现的相关问题,提出一种结合聚类矩阵和剪枝策略的关联规则数据挖掘算法。通过添加约束条件,并采用聚类矩阵方法来压缩存储事务数据库。同时,引入前剪枝和后剪枝策略优化算法。实验证明,这种优化算法显著减少了数据库的扫描次数,降低了候选项目集的数量,缩短了算法的执行时间,大大提高了运行效率。
-
关键词
数据挖掘
关联规则
APRIORI算法
候选项集
聚簇矩阵
剪枝策略
-
Keywords
data mining
association rules
Apriori association rule algorithm
candidate item set
clustering matrix
pruning strategy
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-