基于间隔链表改进的频繁项集挖掘算法被引量：4

Improved frequent itemset mining algorithm based on interval list

下载PDF

导出

摘要针对PrePost算法中需要建立复杂的前序和后序编码树(PPC-tree)和节点链表(N-list)的问题,提出一种基于间隔链表(I-list)改进的高效频繁项集挖掘算法。首先,该算法采用了比频繁模模式树(FP-tree)更加压缩的数据存储结构间隔编码的频繁模式树(IFP-tree),无需迭代地建立条件FP-tree;其次,该算法利用更简洁的I-list代替了PrePost中复杂的N-list,从而提高了建树和挖掘速度;最后,对于单分支路径的情况,该算法通过组合的方法,直接求得某些频繁项集,以提高算法的时间性能。实验结果表明:一方面,对于同一数据集在相同支持数下挖掘的结果相同,验证了改进算法的正确性;另一方面,无论在时间还是空间上改进算法的整体性能均比PrePost算法提高约10%;且对于稀疏型数据库或密集型数据库的挖掘都有较好的应用。 Focusing on the problem that Pre Post algorithm needs to build complex Pre-order and Post-order Code tree（ PPC-tree） and Node list（ N-list）,an improved frequent itemset mining algorithm based on the Interval list（ I-list） was proposed. Firstly,data storage structure with more compression compared to Frequent Pattern tree（ FP-tree）,called Interval FP-tree（ IFP-tree）,was adopted,which mined frequent itemsets without iteratively establishing conditional tree. Secondly,the more concise method called I-list was used to replace the complex N-list in Pre Post so as to improve mining speed.Finally,in the case of single branch path,some frequent itemsets were directly obtained by the method of combination. The experimental results prove the correctness of the proposed algorithm by getting the same results for the same dataset under same minimum supports,the proposed algorithm is superior to Pre Post algorithm by about 10 percent in terms of time and space which has a good application in sparse database or intensive database.

作者徐永秀刘旭敏徐维祥

机构地区首都师范大学信息工程学院北京交通大学交通运输学院

出处《计算机应用》 CSCD 北大核心 2016年第4期997-1001,共5页 journal of Computer Applications

基金国家自然科学基金资助项目(61272029)~~

关键词数据挖掘关联规则频繁项集频繁模式树间隔链表 data mining association rule frequent itemset Frequent Pattern tree（FP-tree） Interval list（I-list）

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1AGRAWAL R,IMIEILNSKI T,SWAMI A.Mining association rules between sets of items in large databases[C]//Proceedings of 1993 ACM SIGMOD Conference on Management Data.New York:ACM,1993:207-216. 被引量：1
2AGRAWAL R,SRIKANT R.Fast algorithms for mining association rules[C]//VLDB 1994:Proceedings of the 20th International Conference on Very Large Data Bases.San Francisco:Morgan Kaufmann Publishers,1994:487-499. 被引量：1
3LIN K C,LIAO I E,CHEN Z S.An improved frequent pattern growth method for mining association rules[J].Expert Systems with Applications,2011,38(5):5154-5161. 被引量：1
4GUPTA R,SATSANGI C S.An efficient range partitioning method for finding frequent patterns from huge database[J].International Journal of Advanced Computer Research,2012,2(2):62-69. 被引量：1
5李也白,唐辉,张淳,贺玉明.基于改进的FP-tree的频繁模式挖掘算法[J].计算机应用,2011,31(1):101-103. 被引量：21
6SUCAHYO Y G,GOPALAN R P.CT-PRO:a bottom-up non recursive frequent itemset mining algorithm using compressed FP-tree data structure[C]//FIMI 2004:Proceedings of the IEEE ICDM Workshop on Frequent Itemset Mining Implementations.Piscataway,NJ:IEEE,2004:212-223. 被引量：1
7ZAKI M J,GOUDA K.Fast vertical mining using diffsets[C]//Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data mining.New York:ACM,2003:326-335. 被引量：1
8LI Z F,LIU X F,CAO X.A study on improved Eclat data mining algorithm[J].Advanced Materials Research,2011,328/329/330:1896-1899. 被引量：1
9DENG ZhiHong,WANG ZhongHui,JIANG JiaJian.A new algorithm for fast mining frequent itemsets using N-lists[J].Science China(Information Sciences),2012,55(9):2008-2030. 被引量：25
10LIN K C,LIAO I E,CHANG T P.A frequent itemset mining algorithm based on the principle of inclusion-exclusion and transaction mapping[J].Information Sciences,2014,276:278-289. 被引量：1

二级参考文献41

1AGRAWAL R, IMIELINSKI T, SWAMI A. Mining association rules between sets of items in large databases[ C]// Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data. New York: ACM, 1993:207-216. 被引量：1
2AGRAWAL R, SRIKANT R. Fast algorithms for mining association rules[ C]// VLDB 1994: Proceedings of the 20th International Conference on Very Large Database. [ S. l. ] : Morgan Kaufmann, 1994: 478 - 499. 被引量：1
3HAN JIAWEI, KAMBER M. Data mining: Concepts and techniques [M].影印版.北京:高等教育出版社,2001. 被引量：1
4HAN JIAWEI, PEI JIAN, YIN YIWEN. Mining frequent patterns without candidate generation[J]. ACM SIGMOD Record, 2000, 29 (2): 1-12. 被引量：1
5ZHOU QINGHUA, CHU W W, LU BAOJING. SmartMiner: A depth first algorithm guided by tail information for mining maximal frequent itemsets[ C]//ICDM 2002: Proceedings of IEEE International Conference on Data Mining. Washington, DC: IEEE, 2002: 570- 577. 被引量：1
6GRAHNE G, ZHU JIANFEI. Fast algorithms for frequent itemset mining using FP-trees[ J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(10) : 1347 - 1362. 被引量：1
7PIETRACAPRINA A, ZANDOLIN D. Mining frequent itemsets using patficia tries[C] //FIMI '03: Proceedings of the 1st Workshop on Frequent Itcmset Mining Implementations. Melbourne, Florida, USA: [ s. n. ], 2003:204 -208. 被引量：1
8朱明.数据挖掘[M].2版.合肥:中国科学技术大学出版社,2008. 被引量：10
9Frequent itemset mining implementations repository[ EB/OL]. [ 2010 -01 -25]. http: //tirol. cs. helsinkl. ft. 被引量：1
10HaHan J W, Pei J, Yin Y W. Mining frequent itemsets without candidate generation. In: The 2000 ACM SIGMOD International Conference on Management of data (SIGMOD’00), New York, 2000. 1-12. 被引量：1

共引文献41

1蒋廷耀,廖强.一种基于局部重构树的改进频繁子图挖掘算法[J].武汉理工大学学报（信息与管理工程版）,2011,33(6):864-867.
2王会金.中观信息系统审计风险控制体系研究——以COBIT框架与数据挖掘技术相结合为视角[J].审计与经济研究,2012,27(1):16-23. 被引量：24
3王体春,陈炳发,卜良峰.基于公理化设计的产品方案设计可拓配置模型[J].中国机械工程,2012,23(19):2269-2275. 被引量：6
4吐尔地·托合提,维尼拉·木沙江,艾斯卡尔·艾木都拉.基于频繁模式挖掘的维吾尔文智能组词方法[J].计算机应用,2012,32(10):2920-2922. 被引量：6
5杨艳霞,张伟丰.卷烟产品销售规律挖掘算法的应用[J].数字技术与应用,2013,31(1):121-121. 被引量：1
6杨艳霞,杨丽华,张伟丰.基于FP-Growth算法的卷烟产品销售规律挖掘研究[J].科技创业月刊,2013,26(4):31-32. 被引量：1
7刘彩苹,毛建频,毛建旭,屈卫兰,蔡玉武.基于格的快速频繁项集挖掘算法[J].湖南大学学报（自然科学版）,2013,40(10):52-57. 被引量：2
8陈刚,闫英战,刘秉权.一种基于CAN-tree快速构建算法[J].微电子学与计算机,2014,31(1):76-82. 被引量：4
9马强,杨金民.基于MapReduce的频繁项集并行挖掘算法[J].计算机应用与软件,2015,32(9):13-16. 被引量：9
10沈戈晖,刘沛东,邓志鸿.NB-MAFIA:基于N-List的最长频繁项集挖掘算法[J].北京大学学报（自然科学版）,2016,52(2):199-209. 被引量：5

同被引文献27

1DENG ZhiHong,WANG ZhongHui,JIANG JiaJian.A new algorithm for fast mining frequent itemsets using N-lists[J].Science China(Information Sciences),2012,55(9):2008-2030. 被引量：25
2翟悦,何丹丹.基于概念格的频繁闭项集挖掘方法[J].计算机应用与软件,2014,31(11):54-57. 被引量：4
3张启徽.关联规则挖掘中查找频繁项集的改进算法[J].统计与决策,2015,31(4):32-35. 被引量：21
4杨俊瑶,蒙祖强,蒋亮.一种基于拓扑信息的物流频繁路径挖掘算法[J].计算机科学,2015,42(4):258-262. 被引量：7
5翟悦,秦放.基于概念格的无冗余关联规则提取算法[J].计算机应用与软件,2015,32(4):46-49. 被引量：4
6黄金晶,叶施仁,何福男.基于MapReduce的频繁项集挖掘算法研究[J].物流技术,2015,34(8):178-181. 被引量：3
7麦丞程.基于Apriori算法的关联规则挖掘系统设计与实现[J].电脑编程技巧与维护,2015(11):33-35. 被引量：3
8张玉峰,曾奕棠.基于动态数据挖掘的物流信息分析模型研究[J].情报科学,2016,34(1):15-19. 被引量：12
9程广,王晓峰.基于MapReduce的并行关联规则增量更新算法[J].计算机工程,2016,42(2):21-25. 被引量：12
10罗芳.一种基于裁剪FP-Tree的频繁项集挖掘算法[J].宜春学院学报,2015,37(12):22-25. 被引量：1

引证文献4

1翟悦,王璨,孙建言.一种改进的基于N-List的频繁项集挖掘算法[J].计算机应用与软件,2018,35(9):67-72. 被引量：6
2李晓龙,冯俊文.关联规则频繁项集挖掘算法设计与实现[J].特区经济,2018,0(8):111-114.
3苏卉,李玉辉,张先荣.基于射频识别的物流频繁路径数据挖掘仿真[J].计算机仿真,2019,36(9):357-360. 被引量：2
4张铁宝,李桂娥.能力约束下多产品物流频繁路径挖掘算法仿真[J].计算机仿真,2019,36(12):249-252. 被引量：1

二级引证文献8

1翟悦,李楠.家庭、社区、机构“三位一体”智能养老服务体系构建研究[J].劳动保障世界,2019,0(30):32-32. 被引量：15
2尹远,朱璐伟,文凯.基于差异点集的频繁项集挖掘算法[J].计算机工程与设计,2020,41(3):716-720. 被引量：3
3翟悦,曾维佳.基于大数据技术的智慧养老云平台设计[J].科学技术创新,2020(10):55-56. 被引量：9
4翟悦,计美娇.大数据环境下养老服务模块化与关联分类研究[J].农村科学实验,2020(9):123-124.
5翟悦,秦放.基于大数据技术的“三位一体”智慧养老服务评价体系构建[J].中国市场,2020(27):185-186. 被引量：3
6翟悦,李楠,于文武.基于扩展概念格的带约束关联分类规则挖掘方法[J].大连交通大学学报,2021,42(4):88-93. 被引量：1
7张正义,崔健.基于并行Apriori的铁路物流配送FPMA[J].计算机仿真,2021,38(6):104-108. 被引量：1
8李锦祥,郑少峰.人工智能应用于物流领域的研究热点、趋势——基于CiteSpace的可视化分析[J].物流科技,2024,47(7):18-22.

1刘丹,刘伟,左朝树,刘凯.SEC-Tree的安全WSNS路由协议[J].电子科技大学学报,2008,37(6):913-916.
2潘松海.基于Authorware多栏文本输入的研究[J].电脑知识与技术,2010,6(9):7087-7088.
3杨明,吕静.一种基于C-Tree的属性约简增量式更新算法[J].控制与决策,2012,27(12):1769-1775. 被引量：7
4何小娟,曾建潮,王丽芳.一种基于信息传递的分布估计算法[J].电子学报,2011,39(4):967-970. 被引量：4
5陈奇,张曦煌.基于N-list的并行频繁项集挖掘算法[J].微电子学与计算机,2017,34(5):40-44.
6沈戈晖,刘沛东,邓志鸿.NB-MAFIA:基于N-List的最长频繁项集挖掘算法[J].北京大学学报（自然科学版）,2016,52(2):199-209. 被引量：5
7刘大琨,谭晓阳.基于大间隔编码的空间非负矩阵分解[J].华南理工大学学报（自然科学版）,2015,43(5):120-125. 被引量：1
8孙俊,张曦煌.基于节点集Top-k频繁模式挖掘算法[J].计算机工程与应用,2017,53(6):101-105. 被引量：2
9马明远,秦向阳,李健楠.基于数字化管理的农村电子政务系统研究[J].农业网络信息,2008(11):96-99. 被引量：2
10雷博,范九伦.一种基于C-Tree的属性数据综合方法[J].西安邮电学院学报,2006,11(1):78-81.

计算机应用

2016年第4期

浏览历史

内容加载中请稍等...

基于间隔链表改进的频繁项集挖掘算法被引量：4

参考文献12

二级参考文献41

共引文献41

同被引文献27

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于间隔链表改进的频繁项集挖掘算法 被引量：4

参考文献12

二级参考文献41

共引文献41

同被引文献27

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于间隔链表改进的频繁项集挖掘算法被引量：4