在线挖掘数据流滑动窗口中最大频繁项集被引量：9

Online Mining Maximal Frequent Itemsets in Sliding Window over Data Streams

下载PDF

导出

摘要相对于频繁项集,最大频繁项集的数目较少,挖掘最大频繁项集的算法具有较高的时空效率。提出了一种新的基于文法顺序FP-Tree的最大频繁项集单遍挖掘算法FPMFI-DS。该算法采用了一种混合搜索空间项顺序策略,并利用我们所提出的一种新的剪枝技术—"子集等价剪枝技术",有效缩小搜索空间的大小。基于该算法,提出了一种能够在线更新挖掘数据流滑动窗口中最大频繁项集的算法FPMFI-DS+。FPMFI-DS+算法能够在任意时刻都维护数据流当前窗口中的最大频繁项集。仿真实验表明,FPMFI-DS算法的效率接近于多遍挖掘算法FPMax*,并具有良好的可扩展性,FPMFI-DS+算法更新挖掘速度快。 For the number of maximal frequent itemsets （MFIs） is less than that of frequent itemsets, the efficiency of algorithm for mining MFIs is higher. A novel single-pass lexicographical-order FP-Tree based algorithm, FPMF1-DS was proposed. FPMFI-DS uses a kind of mixed item. ordering policy and imports a new pruning technique, subset equivalence pruning technique. These two techniques effectively decrease the size of searching space. Based on FPMFI-DS, another algorithm, FPMFI-DS＋ was proposed, which＇could mine MFls in sliding window over data streams in an online updating fashion. FPMFI-DS＋ can maintain MFIs in current sliding window over data streams at any time. The experiments show that FPMFI-DS is comparable with multi-pass algorithm FPMax^＊ regarding with the efficiency, and has good scalability, and FPMFI-DS＋ has high updating-miningspeed.

作者敖富江颜跃进刘宝宏黄柯棣

机构地区国防科技大学机电工程与自动化学院国防科技大学计算机学院

出处《系统仿真学报》 CAS CSCD 北大核心 2009年第4期1134-1139,共6页 Journal of System Simulation

基金国家自然科学基金资助项目(60573057 60704038)

关键词数据流最大频繁项集在线挖掘滑动窗口文法顺序FP-Tree data streams maximal frequent itemsets online mining sliding window lexicographical-order FP-Tree

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1B Babcock, S Babu, M Datar, R Motwani, J Widom. Models and Issues in Data Stream Systems [C]// Proc. of PODS'2002. USA: ACM, 2002: 1-16. 被引量：1
2D Lee, W Lee. Finding maximal frequent itemscts over online data streams adaptively [C]// Proc. of the Fifth IEEE International Conference on Data Mining. Houston. USA: IEEE, 2005: 266-273. 被引量：1
3H Li, S Lee, M Shan. Online mining (recently) maximal frequent itemsets over data streams [C]//Proc. of the fifteenth International Workshops on Research Issues in Data Engineering: Stream Data Mining and Applications, Tokyo, Japan. USA: IEEE, 2005:11-18. 被引量：1
4G Mao, X Wu, X Zhu, et al. Mining maximal frequent itemsets from data streams [J]. Journal of Information Science, 2007, 33(3): 251-262. 被引量：1
5G Grahne, J Zhu. Efficiently Using Prefix-trees in Mining Frequent Itemsets [C]// Proc. of the IEEE ICDM Workshop on Frequent Itemset Mining Implementations. USA: IEEE, 2003. 被引量：1
6Y Yah, Z Li, H Chen. Fast Mining Maximal Frequent ItemSets Based on FP-Tree [C]//Proc. of AI'2004, Cairns Australia, December, 2004. Germany: Springer, 2004: 475-487. 被引量：1
7宋余庆,朱玉全,孙志挥,陈耿.基于FP-Tree的最大频繁项目集挖掘及更新算法[J].软件学报,2003,14(9):1586-1592. 被引量：164
8F Ao, Y Yan, J Huang, K Huang. A Novel Pruning Technique for Mining Maximal Frequent Itemsets [C]// Proc. of FSKD'2007, Haikou, China, August, 2007. USA: IEEE, 2007:469-473. 被引量：1
9Y Zhu, D Shasha. StatStream: Statistical monitoring of thousands of data streams in real time [C]//Proc. of the 28th Int'l Conf. on Very Large Data Bases. Hong Kong: Morgan Kaufmann, 2002: 358-369. 被引量：1
10J Han, J Pei, Y Yin. Mining frequent patterns without candidate generation [C]//Proc. of the Special Interest Group on Management of Data 2000. USA: ACM, 2000: 1-12. 被引量：1

二级参考文献1

1路松峰,卢正鼎.快速开采最大频繁项目集[J].软件学报,2001,12(2):293-297. 被引量：113

共引文献163

1谢志强,朱孟杰,杨静.基于改进FP-树的最大项目集挖掘算法[J].计算机应用研究,2009,26(2):502-505. 被引量：1
2姜晗,贾泂.基于标记域FP-Tree快速挖掘最大频繁项集[J].计算机研究与发展,2007,44(z2):334-349. 被引量：4
3杨种学.基于并行FP-growth算法挖掘网上关联交易规则[J].南京晓庄学院学报,2005,21(5):65-70.
4王盛,董黎刚,李群.一种基于逆序编码的关联规则挖掘研究[J].杭州电子科技大学学报（自然科学版）,2010,30(5):169-172. 被引量：1
5朱玉全,宋余庆,陈耿.约束最大频繁项目集的增量式更新算法[J].计算机工程,2004,30(18):31-32.
6杨君锐,赵群礼.一种不产生候选集的最大频繁集快速挖掘算法[J].微电子学与计算机,2004,21(11):125-128. 被引量：4
7张莹,韩芳溪,柴乔林.基于频繁模式树的AOI聚类算法[J].计算机工程与应用,2004,40(35):178-179.
8李清峰,杨路明,张晓峰.关联规则中最大频繁项目集的研究[J].计算机应用研究,2005,22(1):93-95. 被引量：3
9吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
10陈天敏,姜丽红.基于预制数据库的FP-tree构造算法[J].计算机工程,2004,30(B12):58-61.

同被引文献81

1邝祝芳,阳国贵,辛动军.SWFPM:一种有效的数据流频繁项挖掘算法[J].计算机应用研究,2009,26(2):466-469. 被引量：4
2吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
3颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
4颜跃进,李舟军,陈火旺.一种挖掘最大频繁项集的深度优先算法[J].计算机研究与发展,2005,42(3):462-467. 被引量：20
5陆介平,杨明,孙志挥,鞠时光.快速挖掘全局最大频繁项目集[J].软件学报,2005,16(4):553-560. 被引量：27
6潘云鹤,王金龙,徐从富.数据流频繁模式挖掘研究进展[J].自动化学报,2006,32(4):594-602. 被引量：34
7刘学军,徐宏炳,董逸生,钱江波,王永利.基于滑动窗口的数据流闭合频繁模式的挖掘[J].计算机研究与发展,2006,43(10):1738-1743. 被引量：26
8周晓云,孙志挥,张柏礼,杨宜东.高维类别属性数据流离群点快速检测算法[J].软件学报,2007,18(4):933-942. 被引量：21
9刘旭,毛国君,孙岳,刘椿年.数据流中频繁闭项集的近似挖掘算法[J].电子学报,2007,35(5):900-905. 被引量：14
10Mohammed J Zaki, Ching-Jui Hsiao. CHARM: An Efficient Algorithm for Closed Itemset Mining [C]//2nd SIAM Int'l Conf, On Data Mining, 2002.USA: SIAM, 2002: 457-473. 被引量：1

引证文献9

1倪志伟,姜苗,王超,戴奇波.在线挖掘数据流混合窗口中闭频繁项集[J].系统仿真学报,2010,22(9):2110-2114. 被引量：2
2琚春华,许翀寰.基于有序复合策略的数据流最大频繁项集挖掘[J].情报学报,2010,29(5):864-871.
3张月琴,陈东.数据流最大频繁项挖掘方法[J].计算机工程,2010,36(22):86-87. 被引量：2
4姜苗,倪志伟,孟金华,周之强.数据流时间窗口中闭频繁项集的在线挖掘[J].中国科学技术大学学报,2011,41(8):739-745. 被引量：1
5曹红,郑鑫.数据流分类器算法在水质环境中的应用[J].科技通报,2014,30(1):117-122.
6胡健,吴毛毛.一种改进的数据流最大频繁项集挖掘算法[J].计算机工程与科学,2014,36(5):963-970. 被引量：4
7尹绍宏,单坤玉,范桂丹.滑动窗口中数据流最大频繁项集挖掘算法研究[J].计算机工程与应用,2015,51(22):145-149. 被引量：7
8王少鹏,闻英友,赵宏.滑动窗口下数据流完全加权最大频繁项集挖掘[J].东北大学学报（自然科学版）,2016,37(7):931-936. 被引量：2
9朱付保,白庆春,汤萌萌,朱颢东.基于MapReduce的数据流频繁项集挖掘算法[J].华中师范大学学报（自然科学版）,2017,51(4):429-434. 被引量：5

二级引证文献21

1姜苗,倪志伟,孟金华,周之强.数据流时间窗口中闭频繁项集的在线挖掘[J].中国科学技术大学学报,2011,41(8):739-745. 被引量：1
2王茜,唐锐.基于频繁模式的离群点挖掘在入侵检测中的应用[J].计算机应用研究,2013,30(4):1208-1211. 被引量：11
3曹波伟,薛青,汤再江.面向装备作战仿真数据流的改进型贝叶斯分类方法研究[J].计算机工程与科学,2013,35(12):167-172.
4胡健,吴毛毛.一种改进的数据流最大频繁项集挖掘算法[J].计算机工程与科学,2014,36(5):963-970. 被引量：4
5尹绍宏,单坤玉,范桂丹.滑动窗口中数据流最大频繁项集挖掘算法研究[J].计算机工程与应用,2015,51(22):145-149. 被引量：7
6杜晓明,代逸生.基于分辨矩阵和Apriori算法的关联规则挖掘研究与应用[J].中国科技论文,2015,10(20):2369-2372. 被引量：3
7郑斌.空间数据库中有效数据频繁项检测仿真研究[J].计算机仿真,2017,34(4):444-447. 被引量：3
8王红梅,李芬田,王泽儒.基于滑动窗口数据流频繁项集挖掘模型综述[J].长春工业大学学报,2017,38(5):484-490. 被引量：4
9朱颢东,薛校博,李红婵,孟颍辉.海量数据下基于Hadoop的分布式FP-Growth算法[J].轻工学报,2018,33(5):97-102. 被引量：4
10韩崇,袁颖珊,梅焘,耿慧玲.基于K-means的数据流离群点检测算法[J].计算机工程与应用,2017,53(3):58-63. 被引量：13

1王旭阳,李明.基于概念格的数据挖掘方法研究[J].计算机应用,2005,25(4):827-829. 被引量：14
2李琦,宋国新.在线挖掘关联规则算法的改进[J].华东理工大学学报（自然科学版）,2000,26(5):507-511. 被引量：2
3敖富江,杜静,颜跃进,黄柯棣.在线挖掘数据流滑动窗口中频繁闭项集[J].系统工程与电子技术,2009,31(5):1235-1240. 被引量：2
4王咏,申瑞民.采用构造后缀树方法的在线挖掘浏览模式[J].计算机工程,2004,30(19):126-128. 被引量：3
5刘保卫.网络数据流性能指标的仿真研究与分析[J].微计算机信息,2011,27(7):166-168. 被引量：1
6陈耿锋.大规模网络数据的在线挖掘系统的研究与开发[J].现代计算机,2012,18(15):8-12. 被引量：2
7敖富江,王涛,刘宝宏,黄柯棣.CBC-DS:基于频繁闭模式的数据流分类算法[J].计算机研究与发展,2009,46(5):779-786. 被引量：3
8董志.集成空间分析方法在线挖掘地理空间关联规则[J].电脑编程技巧与维护,2016(3):10-23. 被引量：4
9赵太祥.一种基于Fp-tree的压缩存储频繁项集结构[J].现代计算机,2008,14(6):53-55.
10毛伊敏,陈志刚.在线挖掘数据流闭频繁项集的高效算法[J].计算机科学,2013,40(2):229-234. 被引量：2

系统仿真学报

2009年第4期

浏览历史

内容加载中请稍等...

在线挖掘数据流滑动窗口中最大频繁项集被引量：9

参考文献13

二级参考文献1

共引文献163

同被引文献81

引证文献9

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

在线挖掘数据流滑动窗口中最大频繁项集 被引量：9

参考文献13

二级参考文献1

共引文献163

同被引文献81

引证文献9

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

在线挖掘数据流滑动窗口中最大频繁项集被引量：9