垂直数据格式挖掘频繁项集算法的改进被引量：13

An improved frequent itemsets mining algorithm based on vertical data format

下载PDF

导出

摘要针对现有的基于垂直格式挖掘频繁项集采用正交的方式两两进行比较耗费大量时间和产生的Tid集可能很大浪费存储空间的问题,提出了一种基于三角矩阵和差集的垂直数据格式挖掘频繁项集的挖掘算法。该算法利用差集解决了对稠密数据集进行频繁项集挖掘时的Tid集可能很大的问题,并且利用一种前提方法判断是否有必要连接产生候选频繁k+1项集,减少时间的开销,而且在存储上用三角矩阵的数据结构可以进一步节省存储空间。实验结果表明,本算法大大减少挖掘频繁项集时间和空间内存的开销。 The existing vertical format based frequent itemsets mining employs the intersection method to compare two Tid sets, which costs a large amount of time and wastes storage space. Aiming at these problems, we propose a vertical data format based frequent itemsets mining algorithm based on triangular matrix and diffset. The algorithm utilizes the diffset to solve the large number of Tid sets when conducting frequent item mining for dense data sets. A prerequisite method is used to determine whether it is necessary to connect and generate candidate frequent k ＋ 1 itemsets, and reduce the cost of time. With the help of the data structure of the triangular matrix on storage can further save storage space. Experimental results show that the algorithm can greatly reduce time cost and space memory overhead for mining frequent itemsets.

作者邢长征安维国王星

机构地区辽宁工程技术大学电子与信息工程学院

出处《计算机工程与科学》 CSCD 北大核心 2017年第7期1365-1370,共6页 Computer Engineering & Science

基金国家自然科学基金(61402212) 辽宁省高等学校杰出青年学者成长计划项目(LJQ2015045) 辽宁省自然科学基金(2015020098)

关键词频繁项集三角矩阵差集垂直数据格式 frequent itemsets triangular matrix diffset vertical data format

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1张良均著..数据挖掘实用案例分析[M].北京:机械工业出版社,2013:403.
2张青.Apriori挖掘算法的优化研究[J].河南科技,2014,33(11X):14-15. 被引量：1
3张卫华.基于矩阵的apriori算法的改进[J].电子设计工程,2015,23(13):52-54. 被引量：6
4陈伟.使用垂直数据格式挖掘频繁项集[J].微型机与应用,2011,30(18):6-7. 被引量：7
5胡绿慧,任玉兰,何振林.基于划分和压缩数据库的改进Apriori算法[J].成都理工大学学报（自然科学版）,2015,42(1):110-114. 被引量：11
6罗丹,李陶深.一种基于压缩矩阵的Apriori算法改进研究[J].计算机科学,2013,40(12):75-80. 被引量：46
7刘维晓,陈俊丽,屈世富,万旺根.一种改进的Apriori算法[J].计算机工程与应用,2011,47(11):149-151. 被引量：35
8赵洪英,蔡乐才,李先杰.关联规则挖掘的Apriori算法综述[J].四川理工学院学报（自然科学版）,2011,24(1):66-70. 被引量：89
9魏本昌.基于信息表和差集的关联规则挖掘[J].计算机应用与软件,2010,27(12):202-204. 被引量：4

二级参考文献71

1高振中,杨小劲.利用项编码方法改进apriori算法[J].计算机时代,2009(1):27-29. 被引量：2
2庄晓毅,张忠能.一种改进的关联规则挖掘算法[J].计算机工程,2004,30(14):128-129. 被引量：10
3王静红,王熙照,邵艳华,王伍伶.决策树算法的研究及优化[J].微机发展,2004,14(9):30-32. 被引量：31
4徐章艳,刘美玲,张师超,卢景丽,区玉明.Apriori算法的三种优化方法[J].计算机工程与应用,2004,40(36):190-192. 被引量：71
5柳林,涂光平,杨峰.基于决策树的数据挖掘方法在CRM中的应用研究[J].计算技术与自动化,2006,25(1):67-69. 被引量：13
6胡吉明,鲜学丰.挖掘关联规则中Apriori算法的研究与改进[J].计算机技术与发展,2006,16(4):99-101. 被引量：59
7罗可,张学茂.一种高效的频集挖掘算法[J].长沙理工大学学报（自然科学版）,2006,3(3):84-90. 被引量：2
8牛丽敏.Apriori算法分析与改进综述[J].桂林电子科技大学学报,2007,27(1):27-30. 被引量：23
9赵春玲,宁红云.Apriori算法的改进及其在物流信息挖掘中的应用[J].天津理工大学学报,2007,23(1):30-33. 被引量：13
10宣军英.基于SQL Server 2005的高校人力资源数据挖掘的研究[J].计算机系统应用,2007,16(4):80-82. 被引量：5

共引文献185

1廖纪勇,吴晟,刘爱莲.一种基于邻接矩阵的频繁项集挖掘算法[J].数据通信,2020(6):30-34. 被引量：1
2饶正婵,范年柏.关联规则挖掘Apriori算法研究综述[J].计算机时代,2012(9):11-13. 被引量：16
3肖建琼,宋国琴.基于兴趣度-相关性规则挖掘的研究及在推荐选课系统的应用[J].智能计算机与应用,2012,2(5):73-74. 被引量：1
4陈真,姚光伟.基于兴趣度的课程关联规则模式研究[J].广东石油化工学院学报,2012,22(6):27-31.
5洪月华.传感器网络分布式数据流的频繁项集挖掘算法[J].计算机科学,2013,40(2):58-60. 被引量：4
6王琼,曹奎.关联规则挖掘Apriori算法的改进[J].福建电脑,2012,28(12):84-86.
7何云峰.Apriori改进算法综述[J].微型机与应用,2013,32(6):1-3. 被引量：7
8张林,王宏海.一种改进的频繁项目集挖掘算法[J].阜阳师范学院学报（自然科学版）,2013,30(1):54-57. 被引量：1
9江蓉星,聂佳,许霞,李政,任玉兰.巴蜀中医药古籍数字化建设及数据挖掘模式研究与实践[J].成都中医药大学学报,2013,36(2):97-98. 被引量：5
10龙冰莹,陈小惠.改进Apriori算法在医院监护中心的研究与应用[J].计算机技术与发展,2013,23(8):137-140. 被引量：1

同被引文献82

1蔡红,陈荣耀,陈波.关联规则挖掘最小支持度阀值设定的优化算法研究[J].微型电脑应用,2011(6):33-36. 被引量：9
2马占欣,黄维通,陆玉昌.相关度计算方法存在的问题及修正[J].计算机工程,2007,33(11):67-69. 被引量：13
3王道林.基于布尔矩阵的初等行变换的知识约简算法[J].计算机应用,2007,27(9):2267-2269. 被引量：9
4方炜炜,杨炳儒,宋威,侯伟.基于布尔矩阵的关联规则算法研究[J].计算机应用研究,2008,25(7):1964-1966. 被引量：18
5吴华瑞,张凤霞,赵春江.一种多重最小支持度关联规则挖掘算法[J].哈尔滨工业大学学报,2008,40(9):1447-1451. 被引量：10
6黄建明,赵文静,王星星.基于十字链表的Apriori改进算法[J].计算机工程,2009,35(2):37-38. 被引量：25
7周水庚,李丰,陶宇飞,肖小奎.面向数据库应用的隐私保护研究综述[J].计算机学报,2009,32(5):847-861. 被引量：221
8宋威,李晋宏,徐章艳,杨炳儒.一种新的频繁项集精简表示方法及其挖掘算法的研究[J].计算机研究与发展,2010,47(2):277-285. 被引量：18
9童云海,陶有东,唐世渭,杨冬青.隐私保护数据发布中身份保持的匿名方法[J].软件学报,2010,21(4):771-781. 被引量：45
10熊忠阳,陈培恩,张玉芳.基于散列布尔矩阵的关联规则Eclat改进算法[J].计算机应用研究,2010,27(4):1323-1325. 被引量：18

引证文献13

1尚晓丽,包向辉.分布式空间数据库中有效数据频繁项实时检测[J].科学技术与工程,2018,18(19):224-229. 被引量：4
2陈倩,刘云,高钰莹.并行动态位向量频繁闭合序列模式挖掘算法[J].计算机工程与科学,2018,40(10):1717-1725. 被引量：2
3郑静益,邓晓衡.基于项编码的分布式频繁项集挖掘算法[J].计算机应用研究,2019,36(4):1059-1063. 被引量：4
4王利军.基于FP-growth的频繁模式挖掘算法的改进[J].电脑知识与技术,2019,15(2):12-13. 被引量：1
5王利军.最大频繁模式挖掘算法的改进[J].韶关学院学报,2019,40(3):4-9.
6郑英姿,张福泉,李立杰.基于强化学习的大数据频繁项集挖掘算法[J].计算机工程与设计,2019,40(8):2270-2277. 被引量：7
7魏恩超,张德生,安平平.改进的频繁模式挖掘算法[J].计算机系统应用,2019,28(9):154-161. 被引量：3
8王青松,姜富山.Hadoop框架下的一种改进的Apriori算法[J].辽宁大学学报（自然科学版）,2019,46(3):257-264. 被引量：2
9秦中元,陆凯,张群芳,黄星期.一种二进制私有协议字段格式划分方法[J].小型微型计算机系统,2019,40(11):2318-2323. 被引量：3
10王青松,姜富山,李菲.大数据环境下基于关联规则的多标签学习算法[J].计算机科学,2020,47(5):90-95. 被引量：11

二级引证文献41

1黄恺彤,周开东,李凯,钟苏生.基于信息分散算法的分布式数据实时存储方法[J].电子设计工程,2020,28(5):12-16. 被引量：11
2文芳,黄慧玲,李腾达,王佳斌.基于FP-growth关联规则的图书馆数据快速挖掘算法研究[J].重庆理工大学学报（自然科学）,2020,34(6):189-194. 被引量：15
3张娅.基于K均值聚类的大数据频繁项集挖掘研究[J].计算机仿真,2020,37(8):457-461. 被引量：7
4秦晓安,王睿,舒升.基于关键词关联规则的优惠券个性化推荐算法研究[J].攀枝花学院学报,2020,37(5):61-66. 被引量：1
5陈卓,李鑫,杜军威,袁玺明.面向化工企业事故的根原因关联分析[J].计算机与现代化,2020(10):1-6. 被引量：2
6黄俊英,张斌,王丽.基于改进粒子群算法的有效大数据多标准过滤系统设计[J].电子设计工程,2020,28(20):48-52. 被引量：3
7金欣.基于蚁群算法的非结构化大数据深度挖掘仿真[J].计算机仿真,2020,37(11):329-333. 被引量：5
8Dianting Liu,Xia Huang,Kangzheng Huang.Product Customer Demand Mining and Its Functional Attribute Configuration Driven by Big Data[J].国际计算机前沿大会会议论文集,2020(1):145-165.
9林木.企业数据仓库平台的技术架构研究与设计[J].软件,2020,41(12):175-179. 被引量：2
10陈宝国,宋旸.基于支持向量机的Web日志频繁序列模式挖掘研究[J].齐齐哈尔大学学报（自然科学版）,2021,37(1):21-25. 被引量：1

1AwadheshKumarSingh,AnupKumarBandyopadhyay.运用分离前提方法来检验互斥性和生命属性[J].Journal of Computer Science & Technology,2004,19(C00):24-24.
2吴小龙,张红雨.一种无驱动RFID阅读器的USB固件程序设计[J].单片机与嵌入式系统应用,2012,12(7):27-29.
3谭龙,秦琦冰.基于dSFO-Set的可消除项集挖掘算法[J].计算机工程与设计,2017,38(6):1496-1502.
4王学文.电容限流降压的探讨对“为朋友制作的电子开关”的解读[J].电子制作,2012,20(8):78-79.
5朱坤,黄瑞章,张娜娜.一种基于MapReduce模型的高效频繁项集挖掘算法[J].计算机科学,2017,44(7):31-37. 被引量：9
6林玉香.社交网络中用户隐私信息优化保护仿真研究[J].计算机仿真,2017,34(6):302-305. 被引量：3
7左翔宇,刘婧,何璐璐.基于双重维度发现代码变更模式的挖掘方法[J].计算机应用研究,2017,34(8):2252-2257. 被引量：1
8丁理想,何川,李书杰.基于余弦核函数的SIFT描述子改进算法[J].图学学报,2017,38(3):373-381. 被引量：3
9陈小明,游伟青,李文喜,蒋浩.一类可逆矩阵在保密通信中的应用[J].信息网络安全,2017(5):7-13. 被引量：2

计算机工程与科学

2017年第7期

浏览历史

内容加载中请稍等...

垂直数据格式挖掘频繁项集算法的改进被引量：13

参考文献9

二级参考文献71

共引文献185

同被引文献82

引证文献13

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

垂直数据格式挖掘频繁项集算法的改进 被引量：13

参考文献9

二级参考文献71

共引文献185

同被引文献82

引证文献13

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

垂直数据格式挖掘频繁项集算法的改进被引量：13