期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
改进的关联规则挖掘算法——MIFP-Apriori算法 被引量:33
1
作者 曾子贤 巩青歌 张俊 《科学技术与工程》 北大核心 2019年第16期216-220,共5页
Apriori算法是关联规则挖掘的经典算法,具有原理简洁、易编程实现等优点,得到广泛应用。针对该算法扫描数据库次数过多,产生大量冗余候选集的缺陷,在现有Apriori算法改进优化思想的基础上,结合矩阵、改进频繁模式树和计算候选集频数优... Apriori算法是关联规则挖掘的经典算法,具有原理简洁、易编程实现等优点,得到广泛应用。针对该算法扫描数据库次数过多,产生大量冗余候选集的缺陷,在现有Apriori算法改进优化思想的基础上,结合矩阵、改进频繁模式树和计算候选集频数优化策略提出了一种改进的关联规则挖掘算法——MIFP-Apriori算法。实验表明,该算法能够将扫描数据库次数降低到一次,有效解决产生大量冗余候选集的缺陷,提高算法效率。 展开更多
关键词 数据挖掘 关联规则挖掘 APRIORI算法 频繁模式树(fp-tree) 改进的频繁模式树 MIfp-Apriori算法
下载PDF
快速挖掘全局频繁项目集 被引量:35
2
作者 杨明 孙志挥 吉根林 《计算机研究与发展》 EI CSCD 北大核心 2003年第4期620-626,共7页
分布式环境中 ,全局频繁项目集的挖掘是数据挖掘中最重要的研究课题之一 传统的全局频繁项目集挖掘算法采用Apriori算法框架 ,须多遍扫描数据库并产生大量的候选项目集 ,且通过传送局部频繁项目集求全局频繁项目集的网络通信代价高 为... 分布式环境中 ,全局频繁项目集的挖掘是数据挖掘中最重要的研究课题之一 传统的全局频繁项目集挖掘算法采用Apriori算法框架 ,须多遍扫描数据库并产生大量的候选项目集 ,且通过传送局部频繁项目集求全局频繁项目集的网络通信代价高 为此 ,提出了一种分布数据库的全局频繁项目集快速挖掘算法———FMAGF FMAGF算法采用传送条件频繁模式树或条件模式基来挖掘全局频繁项目集 ,可有效地减小网络通信量 ,提高全局频繁项目集挖掘效率 展开更多
关键词 数据挖掘 全局频繁项目集 频繁模式树 快速挖掘算法 布尔型关联规则 数据库 APRIORI算法
下载PDF
基于FP-tree的最大频繁模式挖掘算法 被引量:18
3
作者 冯志新 钟诚 《计算机工程》 CAS CSCD 北大核心 2004年第11期123-124,共2页
在FP-tree结构的基础上提出了最大频繁模式挖掘算法FP-Max。算法FP-Max只需要两次数据库扫描,挖掘过程不会产生候选项集。实验表明,算法FP-Max在挖掘密集型数据集方面是高效的。
关键词 数据挖掘 关联规则 频繁模式树 最大频繁模式
下载PDF
一种基于前缀广义表的关联规则增量式更新算法 被引量:23
4
作者 杨明 孙志挥 《计算机学报》 EI CSCD 北大核心 2003年第10期1318-1325,共8页
关联规则挖掘是数据挖掘研究的一个重要方面 ,关联规则的高效维护算法研究是当前研究的热点 .传统更新算法与Apriori算法框架一致 ,要多遍扫描数据库并产生大量的候选项目集 .为此 ,该文对FP tree进行了改进 ,引入了前缀广义表———PG ... 关联规则挖掘是数据挖掘研究的一个重要方面 ,关联规则的高效维护算法研究是当前研究的热点 .传统更新算法与Apriori算法框架一致 ,要多遍扫描数据库并产生大量的候选项目集 .为此 ,该文对FP tree进行了改进 ,引入了前缀广义表———PG List,并提出了基于PG List的关联规则挖掘 (MARBPGL)与增量式更新算法(IUABPGL) .算法MARBPGL仅须扫描数据库两遍 ,算法IUABPGL在最坏的情况下仅须扫描原数据库一遍 ,扫描新增数据库两遍 ,且两个算法均无须生成候选项目集 ,避免了产生“知识的组合爆炸” ,提高了挖掘和维护的效率 .理论分析和实验结果表明该文提出的算法是有效可行的 . 展开更多
关键词 关联规则 增量式更新算法 前缀广义表 数据挖掘 频繁模式树 数据库 APRIORI算法
下载PDF
基于FP-tree和约束概念格的关联规则挖掘算法及应用研究 被引量:25
5
作者 付冬梅 王志强 《计算机应用研究》 CSCD 北大核心 2014年第4期1013-1015,1019,共4页
现有的基于频繁模式树FP-tree和概念格的规则挖掘算法在构造概念格时存在重复遍历FP-tree问题,在挖掘后件约束的规则时算法构造的概念格包含冗余结点。针对这两个问题,提出了通过遍历FP-tree生成候选概念格节点的策略,并根据候选概念格... 现有的基于频繁模式树FP-tree和概念格的规则挖掘算法在构造概念格时存在重复遍历FP-tree问题,在挖掘后件约束的规则时算法构造的概念格包含冗余结点。针对这两个问题,提出了通过遍历FP-tree生成候选概念格节点的策略,并根据候选概念格节点进一步构造规则约束条件下无冗余概念格。通过实际项目中大气腐蚀数据进行算法的应用,结果表明该算法比现有算法具有更高的挖掘效率且腐蚀规则结果对材料腐蚀现状研究具有重要指导价值。 展开更多
关键词 规则挖掘 频繁模式树 约束概念格 材料腐蚀
下载PDF
改进的基于频繁模式树的最大频繁项集挖掘算法——FP-MFIA 被引量:16
6
作者 杨鹏坤 彭慧 +1 位作者 周晓锋 孙玉庆 《计算机应用》 CSCD 北大核心 2015年第3期775-778,共4页
针对最大频繁项目集挖掘算法(DMFIA)当候选项目集维数高而最大频繁项目集维数较低的情况下要产生大量的候选项目集的缺点,提出了一种改进的基于频繁模式树(FP-tree)结构的最大频繁项目集挖掘算法——FPMFIA。该算法根据FP-tree的项目头... 针对最大频繁项目集挖掘算法(DMFIA)当候选项目集维数高而最大频繁项目集维数较低的情况下要产生大量的候选项目集的缺点,提出了一种改进的基于频繁模式树(FP-tree)结构的最大频繁项目集挖掘算法——FPMFIA。该算法根据FP-tree的项目头表,采用自底向上的搜索策略逐层挖掘最大频繁项目集,从而加速每次对候选集计数的操作。在挖掘时根据每层的条件模式基产生维数较低的非频繁项目集,尽早对候选项目集进行剪枝和降维,可大量减少候选项目集的数量。同时在挖掘时充分利用最大频繁项集的性质,减少搜索空间。通过算法在不同支持度下挖掘时间的对比可知,算法FP-MFIA在最小支持度较低的情况下时间效率是DMFIA以及基于降维的最大频繁模式挖掘算法(BDRFI)的2倍以上,说明FP-MFIA在候选集维数较高的时候优势明显。 展开更多
关键词 最大频繁项集 频繁模式树 数据挖掘 关联规则 非频繁项集
下载PDF
基于频繁模式树的约束最大频繁项集挖掘算法 被引量:15
7
作者 花红娟 张健 陈少华 《计算机工程》 CAS CSCD 北大核心 2011年第9期78-80,共3页
多数最大频繁项集挖掘算法产生候选项目集的代价很高,而实际应用中用户只关心部分关联规则。针对该问题,提出一种基于频繁模式树的约束最大频繁项集快速挖掘算法。该算法能随时删除不满足约束条件的项集,无需生成候选项目集,由此提高挖... 多数最大频繁项集挖掘算法产生候选项目集的代价很高,而实际应用中用户只关心部分关联规则。针对该问题,提出一种基于频繁模式树的约束最大频繁项集快速挖掘算法。该算法能随时删除不满足约束条件的项集,无需生成候选项目集,由此提高挖掘效率。实验结果证明,该算法的效率优于同类算法。 展开更多
关键词 数据挖掘 最大频繁项集 约束最大频繁项集 频繁模式树 项约束
下载PDF
关联规则中基于降维的最大频繁模式挖掘算法 被引量:13
8
作者 钱雪忠 惠亮 《计算机应用》 CSCD 北大核心 2011年第5期1339-1343,共5页
基于FP-tree的最大频繁模式挖掘算法是目前较为高效的频繁模式挖掘算法,针对这些算法需要递归生成条件FP-tree、产生大量候选最大频繁项集等问题,在分析FPM ax、DMFIA算法的基础上,提出基于降维的最大频繁模式挖掘算法(BDRFI)。该算... 基于FP-tree的最大频繁模式挖掘算法是目前较为高效的频繁模式挖掘算法,针对这些算法需要递归生成条件FP-tree、产生大量候选最大频繁项集等问题,在分析FPM ax、DMFIA算法的基础上,提出基于降维的最大频繁模式挖掘算法(BDRFI)。该算法改传统的FP-tree为数字频繁模式树DFP-tree,提高了超集检验的效率;采用的预测剪枝策略减少了挖掘的次数;基于降低项集维度的挖掘方式,减少了候选项的数目,避免了递归地产生条件频繁模式树,提高了算法的效率。实验结果表明,BDRFI的效率是同类算法的2~8倍。 展开更多
关键词 关联规则 数据挖掘 最大频繁项集 频繁模式树 降维
下载PDF
基于FP-Tree的快速选择性集成算法 被引量:6
9
作者 赵强利 蒋艳凰 徐明 《软件学报》 EI CSCD 北大核心 2011年第4期709-721,共13页
选择性集成通过选择部分基分类器参与集成,从而提高集成分类器的泛化能力,降低预测开销.但已有的选择性集成算法普遍耗时较长,将数据挖掘的技术应用于选择性集成,提出一种基于FP-Tree(frequent pattern tree)的快速选择性集成算法:CPM-E... 选择性集成通过选择部分基分类器参与集成,从而提高集成分类器的泛化能力,降低预测开销.但已有的选择性集成算法普遍耗时较长,将数据挖掘的技术应用于选择性集成,提出一种基于FP-Tree(frequent pattern tree)的快速选择性集成算法:CPM-EP(coverage based pattern mining for ensemble pruning).该算法将基分类器对校验样本集的分类结果组织成一个事务数据库,从而使选择性集成问题可转化为对事务数据集的处理问题.针对所有可能的集成分类器大小,CPM-EP算法首先得到一个精简的事务数据库,并创建一棵FP-Tree树保存其内容;然后,基于该FP-Tree获得相应大小的集成分类器.在获得的所有集成分类器中,对校验样本集预测精度最高的集成分类器即为算法的输出.实验结果表明,CPM-EP算法以很低的计算开销获得优越的泛化能力,其分类器选择时间约为GASEN的1/19以及Forward-Selection的1/8,其泛化能力显著优于参与比较的其他方法,而且产生的集成分类器具有较少的基分类器. 展开更多
关键词 集成学习 选择性集成 频繁模式树 BAGGING 误差反向传播神经网络
下载PDF
用于网络新闻热点识别的热点新词发现 被引量:5
10
作者 王煜 徐建民 《计算机应用》 CSCD 北大核心 2020年第12期3513-3519,共7页
通过分析网络新闻热点词的特点,提出了一种用于网络新闻热点识别的热点新词发现方法。首先,用改进FP-tree算法提取频繁出现的词串作为热点新词候选,删除新闻数据中非频繁1-词串,并利用1、2-非频繁词串切割新闻数据,从而删除新闻数据中... 通过分析网络新闻热点词的特点,提出了一种用于网络新闻热点识别的热点新词发现方法。首先,用改进FP-tree算法提取频繁出现的词串作为热点新词候选,删除新闻数据中非频繁1-词串,并利用1、2-非频繁词串切割新闻数据,从而删除新闻数据中的大量无用信息,大幅降低FP-tree复杂度;其次,根据二元逐点互信息(PMI)扩展成多元PMI,并引入热点词的时间特征形成时间逐点互信息(TPMI),用TPMI判定热点新词候选的内部结合度和时间性,剔除不合格的候选词;最后,采用邻接熵确定候选新词边界,从而筛选出热点新词。采集百度网络新闻的7222条新闻标题作为数据集进行实验验证。在将半月内报道次数不低于8次的事件作为热点新闻且时间特征的调节系数为2时,采用TPMI可以正确识别51个热点词,丢失识别2个长时间热点词和2个低热度词,而采用不加入时间特征的多元PMI可正确识别全部热点词55个,但错误识别97个非热点词。分析可知所提的算法降低了FP-tree复杂度,从而减少了时间空间代价,实验结果表明判定热点新词时加入时间特征提高了热点新词识别率。 展开更多
关键词 热点新词 fp-tree 逐点互信息(PMI) 邻接熵 时间特征
下载PDF
关联规则中FP-tree的最大频繁模式非检验挖掘算法 被引量:5
11
作者 惠亮 钱雪忠 《计算机应用》 CSCD 北大核心 2010年第7期1922-1925,共4页
基于FP-tree的最大频繁模式挖掘算法是目前较为高效的频繁模式挖掘算法,针对这些算法需要递归生成条件FP-tree、做超集检验等问题,在分析DMFIA-1算法的基础上,提出了最大频繁模式的非检验挖掘算法NCMFP。该算法改进了FP-tree的结构,使... 基于FP-tree的最大频繁模式挖掘算法是目前较为高效的频繁模式挖掘算法,针对这些算法需要递归生成条件FP-tree、做超集检验等问题,在分析DMFIA-1算法的基础上,提出了最大频繁模式的非检验挖掘算法NCMFP。该算法改进了FP-tree的结构,使挖掘过程中不需要生成条件频繁模式树也不需要超集检验。算法采用的预测剪枝策略减少了挖掘的次数,采用的求取公共交集的方式保证了挖掘结果的完整性。实验结果表明在支持度相对较小情况下,NCMFP的效率是同类算法的2~5倍。 展开更多
关键词 关联规则 数据挖掘 频繁模式树 最大频繁项集 超集检验
下载PDF
多分类-关联规则分类的一种改进算法 被引量:1
12
作者 赵传申 孙志挥 《应用科学学报》 CAS CSCD 北大核心 2005年第6期615-619,共5页
提出了一种基于多分类-关联规则的快速分类算法———FCMAR,该算法在建立频繁模式树(FP-tree)时裁减掉不能生成频繁规则的项目,因而可减少FP-tree的节点数目,有效地降低时间和空间复杂度,实验结果表明该算法是有效可行的.
关键词 数据挖掘 分类 关联分类 频繁模式树
下载PDF
基于间隔链表改进的频繁项集挖掘算法 被引量:4
13
作者 徐永秀 刘旭敏 徐维祥 《计算机应用》 CSCD 北大核心 2016年第4期997-1001,共5页
针对PrePost算法中需要建立复杂的前序和后序编码树(PPC-tree)和节点链表(N-list)的问题,提出一种基于间隔链表(I-list)改进的高效频繁项集挖掘算法。首先,该算法采用了比频繁模模式树(FP-tree)更加压缩的数据存储结构间隔编码的频繁模... 针对PrePost算法中需要建立复杂的前序和后序编码树(PPC-tree)和节点链表(N-list)的问题,提出一种基于间隔链表(I-list)改进的高效频繁项集挖掘算法。首先,该算法采用了比频繁模模式树(FP-tree)更加压缩的数据存储结构间隔编码的频繁模式树(IFP-tree),无需迭代地建立条件FP-tree;其次,该算法利用更简洁的I-list代替了PrePost中复杂的N-list,从而提高了建树和挖掘速度;最后,对于单分支路径的情况,该算法通过组合的方法,直接求得某些频繁项集,以提高算法的时间性能。实验结果表明:一方面,对于同一数据集在相同支持数下挖掘的结果相同,验证了改进算法的正确性;另一方面,无论在时间还是空间上改进算法的整体性能均比PrePost算法提高约10%;且对于稀疏型数据库或密集型数据库的挖掘都有较好的应用。 展开更多
关键词 数据挖掘 关联规则 频繁项集 频繁模式树 间隔链表
下载PDF
基于FP-tree的多层关联规则快速挖掘算法 被引量:2
14
作者 曹洪其 姜志峰 孙志挥 《计算机工程》 CAS CSCD 北大核心 2007年第19期66-68,71,共4页
研究了多层关联规则挖掘的理论和方法,提出了一种基于FP-tree的快速挖掘算法FAMML_FPT。该算法不仅实现了同层次关联规则的挖掘,也能实现跨层次关联规则的挖掘,其中引入了修补项、跨层修补项的概念,以便从低到高逐层建立FP-tree,有效减... 研究了多层关联规则挖掘的理论和方法,提出了一种基于FP-tree的快速挖掘算法FAMML_FPT。该算法不仅实现了同层次关联规则的挖掘,也能实现跨层次关联规则的挖掘,其中引入了修补项、跨层修补项的概念,以便从低到高逐层建立FP-tree,有效减少了扫描数据库的次数,且不用产生大量的候选项集,提高了数据挖掘的效率。 展开更多
关键词 数据挖掘 多层关联规则 频繁模式树 修补项
下载PDF
特定数据最大频繁集挖掘算法 被引量:3
15
作者 王华 胡学钢 田卫东 《计算机工程》 CAS CSCD 北大核心 2008年第14期63-65,共3页
针对在某些限定项目数与交易长度数据的关联规则挖掘中FP-growth算法执行效率很低的问题,提出一种最大频繁模式挖掘算法,该算法引入与FP-tree结构类似的All-subsettree存储所有的最大频繁项目集,无需在扫描数据库前指定最小支持度,可以... 针对在某些限定项目数与交易长度数据的关联规则挖掘中FP-growth算法执行效率很低的问题,提出一种最大频繁模式挖掘算法,该算法引入与FP-tree结构类似的All-subsettree存储所有的最大频繁项目集,无需在扫描数据库前指定最小支持度,可以动态给定最小支持度而不用重新扫描数据库。实验结果表明,该算法在这些特定数据的挖掘中,与FP-growth相比明显提高了挖掘效率。 展开更多
关键词 数据挖掘 关联规则 频繁模式树 最大频繁项目集
下载PDF
分布式数据库多层关联规则挖掘算法研究 被引量:1
16
作者 曹洪其 姜志峰 孙志挥 《计算机应用》 CSCD 北大核心 2005年第12期2858-2861,共4页
对分布式数据库多层关联规则挖掘的理论和方法进行了研究,提出了一种基于频繁模式树FP-tree(FreguentPatterntree)的快速挖掘算法DMAML_FPT(DistributedMiningAlgorithmofMultipleLevelbasedonFP-tree)。与类Apriori算法相比较,该算法... 对分布式数据库多层关联规则挖掘的理论和方法进行了研究,提出了一种基于频繁模式树FP-tree(FreguentPatterntree)的快速挖掘算法DMAML_FPT(DistributedMiningAlgorithmofMultipleLevelbasedonFP-tree)。与类Apriori算法相比较,该算法最多只需扫描数据库三遍,不需产生和传输大量的候选项集,减少了数据通信量,从而提高了数据挖掘的效率。实验结果表明算法DMAML_FPT是可行和有效的。 展开更多
关键词 数据挖掘 分布式数据库 多层关联规则 频繁模式树
下载PDF
基于FP-Tree的QAR数据故障检测研究
17
作者 杨慧 赵兰草 《计算机应用与软件》 CSCD 北大核心 2014年第10期41-44,共4页
QAR(Quick Access Recorder)数据具有高维、复杂及数据量大的特性,严重影响数据处理效率。为降低其数据量与数据复杂性,高效检索并确定当前QAR数据是否是故障数据及其故障类型,首先通过PAA表示方法对QAR数据初步压缩,然后采用FP-Growth... QAR(Quick Access Recorder)数据具有高维、复杂及数据量大的特性,严重影响数据处理效率。为降低其数据量与数据复杂性,高效检索并确定当前QAR数据是否是故障数据及其故障类型,首先通过PAA表示方法对QAR数据初步压缩,然后采用FP-Growth算法思想对压缩后的数据创建FP-Tree并只保留其频繁前缀子树,最后通过子树匹配确定测试数据与故障模型数据之间的匹配度。采用真实的飞机飞行QAR数据验证了算法的有效性和准确度。 展开更多
关键词 频繁模式树 子树匹配 异常检测
下载PDF
一种基于多关联规则的全局快速分类算法
18
作者 顾海花 赵传申 孙志挥 《计算机工程与应用》 CSCD 北大核心 2006年第22期161-163,共3页
提出了一种分布多库环境下的全局库分类规则发现算法——FGCMAR。FGCMAR在各个站点采用CMAR算法分别生成频繁模式树,并在各个站点间传送条件模式基来形成全局条件频繁模式树,最终通过挖掘条件频繁模式树来得到全局分类规则。该算法能够... 提出了一种分布多库环境下的全局库分类规则发现算法——FGCMAR。FGCMAR在各个站点采用CMAR算法分别生成频繁模式树,并在各个站点间传送条件模式基来形成全局条件频繁模式树,最终通过挖掘条件频繁模式树来得到全局分类规则。该算法能够有效的减小网络通信量,提高挖掘效率。理论分析和实验结果表明该算法是有效可行的。 展开更多
关键词 数据挖掘 分布多库 全局分类规则 频繁模式树
下载PDF
基于最大频繁模式挖掘算法进行书目推荐系统的设计与实现 被引量:17
19
作者 赵麟 《现代图书情报技术》 CSSCI 北大核心 2010年第5期23-28,共6页
以南开大学图书馆Unicorn系统为基础,介绍基于最大频繁模式挖掘算法的书目推荐系统的设计与实现,详细描述利用Unicorn系统中积累的借阅数据分析读者的行为模式,提供个性化书目推荐的方法。该系统利用图书馆现有资源拓展读者服务,可以提... 以南开大学图书馆Unicorn系统为基础,介绍基于最大频繁模式挖掘算法的书目推荐系统的设计与实现,详细描述利用Unicorn系统中积累的借阅数据分析读者的行为模式,提供个性化书目推荐的方法。该系统利用图书馆现有资源拓展读者服务,可以提高现行自动化借阅系统的使用效率。 展开更多
关键词 个性化书目推荐 数据挖掘 频繁模式树 最大频繁模式 频繁模式增长
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部