-
题名基于磁盘表存储FP-TREE的关联规则挖掘算法
被引量:14
- 1
-
-
作者
申彦
宋顺林
朱玉全
-
机构
江苏大学信息管理与信息系统系
江苏大学计算机科学与通信工程系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2012年第6期1313-1322,共10页
-
基金
国家自然科学基金项目(70971067)
国家科技支撑计划基金项目(2010BAI88B00)
+2 种基金
江苏省基础研究计划基金项目(BK2010331)
博士研究生创新计划基金项目(CX10B_016X)
江苏大学高级人才基金项目(08JDG057)
-
文摘
随着现实待挖掘数据库规模不断增长,系统可使用的内存成为用FP-GROWTH算法进行关联规则挖掘的瓶颈.为了摆脱内存的束缚,对大规模数据库中的数据进行关联规则挖掘,基于磁盘的关联规则挖掘成为重要的研究方向.对此,改进原始的FP-TREE数据结构,提出了一种新颖的基于磁盘表的DTRFP-GROWTH(disk table resident FP-TREE growth)算法.该算法利用磁盘表存储FP-TREE,降低内存使用,在传统FP-GROWTH算法占用过多内存、挖掘工作无法进行时,以独特的磁盘表存储FP-TREE技术,减少内存使用,能够继续完成挖掘工作,适合空间性能优先的场合.不仅如此,该算法还将关联规则挖掘和关系型数据库整合,克服了基于文件系统相关算法效率较低、开发难度较大等问题.在真实数据集上进行了验证实验以及性能分析.实验结果表明,在内存空间有限的情况下,DTRFP-GROWTH算法是一种有效的基于磁盘的关联规则挖掘算法.
-
关键词
FP-TREE
关联规则
磁盘存储
频繁项目集
DTRFP-GROWTH算法
FP-GROWTH算法
数据挖掘
-
Keywords
FP-TREE
association rules disk resident
frequent itemsets
DTRFP-GROWTH
FP-GROWTH
data mining
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-