基于矩阵的数据流Top-k频繁项集挖掘算法被引量：3

Top-k Frequent Itemsets Mining Algorithm over Data Streams Based on Matrix

下载PDF

导出

摘要传统的数据挖掘算法在挖掘频繁项集时会产生大量的冗余项集,影响挖掘效率。为此,提出一种基于矩阵的数据流Top-k频繁项集挖掘算法。引入2个0-1矩阵,即事务矩阵和二项集矩阵。采用事务矩阵表示滑动窗口模型中的事务列表,通过计算每行的支持度得到二项集矩阵。利用二项集矩阵得到候选项集,将事务矩阵中对应的行做逻辑与运算,计算出候选项集的支持度,从而得到Top-k频繁项集。把挖掘的结果存入数据字典中,当用户查询时,能够按支持度降序输出Top-k频繁项集。实验结果表明,该算法在挖掘过程中能避免冗余项集的产生,在保证正确率的前提下具有较高的时间效率。 The past algorithms produce large amounts of redundant itemsets, and they affect the efficiency of data mining. Therefore, a Top-k frequent itemsets mining algorithm over data streams based on matrix is proposed. Two 0-1 matrices, transaction matrix and 2-itemsets matrix, are introduced into the algorithm. Using transaction matrix to express the transaction list of a sliding window, and 2-itemsets matrix is obtained by calculating the support of each row. Then it can get candidate items by 2-itemsets matrix, and Top-k frequent itemsets are obtained by calculating the support of candidate items through logic and operation of correspond row in transaction matrix. Finally it saves the result of data mining into data dictionary. The algorithm can output the Top-k frequent itemsets by support in descendant order when user queries. Experimental results show that the algorithm avoids redundant itemsets in the process of data mining, and the efficiency of data mining is improved appreciably under the premise of accuracy.

作者尹绍宏范桂丹

机构地区天津工业大学计算机科学与软件学院

出处《计算机工程》 CAS CSCD 2014年第3期55-58,75,共5页 Computer Engineering

关键词数据挖掘数据流滑动窗口矩阵 Top-k频繁项集 data mining data stream sliding window matrix Top-k frequent itemset

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1王磊,黄志球,朱小栋,沈国华,程亮.数据流中基于矩阵的频繁项集挖掘[J].计算机科学与探索,2008,2(3):330-336. 被引量：6
2徐嘉莉,陈佳,胡庆,黄波,郭红霞.基于向量的数据流滑动窗口中最大频繁项集挖掘[J].计算机应用研究,2012,29(3):837-840. 被引量：7
3刘立新..数据流频繁模式挖掘算法研究[D].中南大学,2010:
4孙玉芬,卢炎生.流数据挖掘综述[J].计算机科学,2007,34(1):1-5. 被引量：36

二级参考文献70

1牛小飞,石冰,卢军,吴科.挖掘关联规则的高效ABM算法[J].计算机工程,2004,30(11):118-120. 被引量：16
2金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
3BABCOCK B,BABU S,DATAR M, et al. Models and issues in data stream systems [ C ]//Proc of the 21 st ACM SIGMOD-SIGART Sympo- sium on Principles of Database System. New York:ACM Press,2002: 1-16. 被引量：1
4GAROFALAKIS M, GEHRKE J. Querying and mining data streams: you only get one look a tutorial[ C]//Proc of ACM SIGMOD Interna- tional Conference on Management of Data. New York: ACM Press, 2002:635. 被引量：1
5LEE D, LEE W. Finding maximal frequent itemsets over online data streams adaptively [ C ]//Proc of the 5th IEEE International Confe- rence on Daia Mining. Washington DC : IEEE Computer Society,2005 : 266 - 273. 被引量：1
6LI Hua-fu, LEE S, SHAN M. Online mining maximal frequent itemsets over data streams[ C]//Proc of the 15th International Workshops on Research Issues in Data Engineering: Stream Data Mining and Appli- cations. 2005 : 11 - 18. 被引量：1
7MAO Guo-jun, WU Xin-dong, ZHU Xing-quan, et al. Mining maximal frequent itemsets from data streams[ J]. Journal of Information Sci- ence,2007,33(3 ) :251-262. 被引量：1
8GIANNELLA C, HAN Jia-wei, PEI Jian, et al. Mining frequent pat- terns in data streams at multiple time granularities [ M ]//Next Gene- ration Data Mining. Cambridge : MIT Press ,2005 : 191 - 212. 被引量：1
9BORGELT C. Keeping things simple:finding frequent itemsets by re- cursive elimination [ C ]//Proc of the 1 st International Workshop on Open Source Data Mining. New York :ACM Press,2005:66-70. 被引量：1
10AGRAWAL R, SRIKANT R. Fast algorithms for mining association rules[ C]//Proc of the 20th International Conference on Very Large Databases. San Francisco: Morgan Kaufmann Publishers, 1994:487- 499. 被引量：1

共引文献45

1尹志武,黄上腾.一种自适应局部概念漂移的数据流分类算法[J].计算机科学,2008,35(2):138-139. 被引量：8
2胡彧,闫巧梅.滑动窗口模型下的优化数据流聚类算法[J].计算机应用,2008,28(6):1414-1416. 被引量：6
3黄超,龚惠群.时间序列数据流直方图构造方法研究[J].统计与决策,2009,25(4):24-25.
4王立锟,王君.流数据聚类中多属性的计算[J].重庆工学院学报（自然科学版）,2009,23(6):90-92.
5邹凌君,高开周.基于Web Service的多数据流聚类研究[J].广西轻工业,2009,25(11):85-87. 被引量：1
6仵雪婷,周明建.数据流挖掘方法研究[J].计算机与现代化,2010(4):46-50. 被引量：1
7张月琴.滑动窗口中数据流频繁项集挖掘方法[J].计算机工程与应用,2010,46(16):132-134. 被引量：8
8刘慧婷,倪志伟.经验模态分解在数据流概要生成中的应用[J].计算机工程与应用,2010,46(22):6-8.
9陈荣晖,王伦文.一种新的滑动窗口模型数据流聚类方法[J].小型微型计算机系统,2010,31(12):2355-2358. 被引量：7
10赖军,李双庆.挖掘滑动时间衰减窗口中网络流频繁项集[J].计算机应用研究,2011,28(3):895-898. 被引量：4

同被引文献28

1邓丰义,刘震宇.基于模式矩阵的FP-growth改进算法[J].厦门大学学报（自然科学版）,2005,44(5):629-633. 被引量：17
2李超,余昭平.基于矩阵的Apriori算法改进[J].计算机工程,2006,32(23):68-69. 被引量：43
3王柏盛,刘寒冰,靳书和,马丽艳.基于矩阵的关联规则挖掘算法[J].微计算机信息,2007,23(05X):144-145. 被引量：18
4俞燕燕,李绍滋.基于散列的关联规则AprioriTid改进算法[J].计算机工程,2008,34(5):60-62. 被引量：8
5张忠平,李岩,杨静.基于矩阵的频繁项集挖掘算法[J].计算机工程,2009,35(1):84-86. 被引量：19
6陈敏.面向计算机集群系统的FP-Growth算法的并行计算[J].中国管理信息化,2009,12(15):36-38. 被引量：1
7张笑达,徐立臻.一种改进的基于矩阵的频繁项集挖掘算法[J].计算机技术与发展,2010,20(4):93-96. 被引量：8
8王晓伟,贾焰,杨树强,田李.存在级不确定数据上的概率Skyline计算[J].计算机研究与发展,2011,48(1):68-76. 被引量：6
9崔建,李强,杨龙坡.基于垂直数据分布的大型稠密数据库快速关联规则挖掘算法[J].计算机科学,2011,38(4):216-220. 被引量：24
10杨海廷.CARMA算法挖掘技术在图书流通中的实证研究[J].图书馆杂志,2012,31(1):70-75. 被引量：4

引证文献3

1郑斌.空间数据库中有效数据频繁项检测仿真研究[J].计算机仿真,2017,34(4):444-447. 被引量：3
2董雷刚,刘国华.组合Skyline的求解与更新算法[J].计算机工程,2017,34(6):195-201. 被引量：1
3李忠,安建琴,刘海军,宋奕瑶.关联挖掘算法及发展趋势[J].智能计算机与应用,2017,7(5):22-25. 被引量：8

二级引证文献12

1田林琳.无人机空中通信数据库信息盲检索系统设计[J].计算机测量与控制,2018,26(6):211-214. 被引量：1
2尚晓丽,包向辉.分布式空间数据库中有效数据频繁项实时检测[J].科学技术与工程,2018,18(19):224-229. 被引量：4
3许德心,李玲娟.基于Spark的关联规则挖掘算法并行化研究[J].计算机技术与发展,2019,29(3):30-34. 被引量：6
4叶符明,李雯婷.内存数据库中图论频繁模式挖掘方法仿真[J].计算机仿真,2019,36(10):458-461. 被引量：2
5肖端翔.基于ALS协同过滤及频繁项挖掘的混合推荐算法[J].电子测试,2020,31(1):70-72. 被引量：1
6张宏伟,李晓欢,李春海,姚荣彬,唐欣.基于内存关联分析的预拷贝迁移优化策略[J].计算机工程,2020,46(3):222-228.
7赵嫚,李英娜,李川,杨莉.基于模糊聚类和孤立森林的用电数据异常检测[J].陕西理工大学学报（自然科学版）,2020,36(4):38-43. 被引量：21
8杜嘉伟,余粟.基于矩阵二进制编码遗传算法的频繁项集挖掘[J].智能计算机与应用,2021,11(1):143-146. 被引量：1
9白梅,苌仕涵,王习特.基于位置的路网Skyline查询处理研究[J].计算机工程,2022,48(1):127-134. 被引量：4
10杨伟伟,王思宁,郑贵德,宋亚琼.基于知识库的制造业能耗优化平台技术研究[J].电信科学,2022,38(8):178-185. 被引量：1

1张蕊.基于数据流的top-k频繁项集挖掘[J].武汉理工大学学报,2009,31(3):87-90. 被引量：1
2孙逢啸,倪世宏,谢川.一种基于矩阵的Apriori改进算法[J].计算机仿真,2013,30(8):245-249. 被引量：21
3李闯,杨胜,谢凯,李仁发.基于粗糙集理论的ORD关联规则挖掘算法[J].计算机工程与设计,2008,29(14):3666-3668.
4安建成,刘超慧.频繁项集快速挖掘及更新算法[J].微电子学与计算机,2008,25(6):132-136. 被引量：4
5冯贺,陶宏才.基于事务矩阵的关联规则挖掘算法[J].电脑学习,2008(5):46-47.
6边根庆,王月.一种基于矩阵和权重改进的Apriori算法[J].微电子学与计算机,2017,34(1):136-140. 被引量：23
7袁万莲,郑诚,翟明清.一种改进的Apriori算法[J].计算机技术与发展,2008,18(5):51-53. 被引量：19
8尹绍宏,单坤玉,范桂丹.滑动窗口中数据流最大频繁项集挖掘算法研究[J].计算机工程与应用,2015,51(22):145-149. 被引量：7
9刘晓玲,李玉忱.一种利用逻辑“与”运算挖掘频繁项集的算法[J].中国科技信息,2005(15A):122-123. 被引量：2
10朱惠.关联规则中Apriori算法的研究与改进[J].电脑知识与技术,2014,10(4X):2697-2701. 被引量：2

计算机工程

2014年第3期

浏览历史

内容加载中请稍等...

基于矩阵的数据流Top-k频繁项集挖掘算法被引量：3

参考文献4

二级参考文献70

共引文献45

同被引文献28

引证文献3

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于矩阵的数据流Top-k频繁项集挖掘算法 被引量：3

参考文献4

二级参考文献70

共引文献45

同被引文献28

引证文献3

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于矩阵的数据流Top-k频繁项集挖掘算法被引量：3