期刊文献+
共找到219篇文章
< 1 2 11 >
每页显示 20 50 100
挖掘数据流任意滑动时间窗口内频繁模式 被引量:45
1
作者 李国徽 陈辉 《软件学报》 EI CSCD 北大核心 2008年第10期2585-2596,共12页
由于数据流的流动性与连续性,数据流所蕴含的知识会随着时间的推移而发生变化.因此,在绝大多数数据流的应用中,用户往往对新产生的流数据所包含的知识要比对历史流数据所包含的知识感兴趣得多.提出了一种挖掘数据流任意大小滑动时间窗... 由于数据流的流动性与连续性,数据流所蕴含的知识会随着时间的推移而发生变化.因此,在绝大多数数据流的应用中,用户往往对新产生的流数据所包含的知识要比对历史流数据所包含的知识感兴趣得多.提出了一种挖掘数据流任意大小滑动时间窗口内频繁模式的方法MSW(mining sliding window).当数据流流过时,该方法使用滑动窗口树SW-tree在单遍扫描流数据的条件下及时捕获数据流上最新的模式信息.同时,该方法还周期性地删除滑动窗口树上过期的及不频繁的模式分支,从而降低滑动窗口树的空间复杂度与维护代价.此外,该方法还应用时间衰减模型逐步降低历史事务模式支持数的权重,并由此来区分最近产生事务与历史事务的模式.大量仿真实验的结果表明,算法MSS具有较高的效率与优良的可扩展性,同时也优于其他同类算法. 展开更多
关键词 数据流 频繁模式挖掘 滑动时间窗口 时间衰减模型
下载PDF
一种高效频繁子图挖掘算法 被引量:35
2
作者 李先通 李建中 高宏 《软件学报》 EI CSCD 北大核心 2007年第10期2469-2480,共12页
由于在频繁项集和频繁序列上取得的成功,数据挖掘技术正在着手解决结构化模式挖掘问题——频繁子图挖掘.诸如化学、生物学、计算机网络和WWW等应用技术都需要挖掘此类模式.提出了一种频繁子图挖掘的新算法.该算法通过对频繁子树的扩展,... 由于在频繁项集和频繁序列上取得的成功,数据挖掘技术正在着手解决结构化模式挖掘问题——频繁子图挖掘.诸如化学、生物学、计算机网络和WWW等应用技术都需要挖掘此类模式.提出了一种频繁子图挖掘的新算法.该算法通过对频繁子树的扩展,避免了图挖掘过程中高代价的计算过程.目前最好的频繁子图挖掘算法的时间复杂性是O(n3·2n),其中,n是图集中的频繁边数.提出算法的时间复杂性是O[2n·n2.5/logn],性能提高了O((1/2)n·logn)倍.实验结果也证实了这一理论分析. 展开更多
关键词 频繁模式挖掘 子图同构 子树同构 频繁子树 生成树
下载PDF
FP-growth算法的实现方法研究 被引量:27
3
作者 王新宇 杜孝平 谢昆青 《计算机工程与应用》 CSCD 北大核心 2004年第9期174-176,共3页
事务数据库中频繁模式的挖掘研究作为关联规则等许多数据挖掘问题的核心工作,已经研究了许多年。早期算法大都是Apriori型算法,即首先产生候选集,然后在候选集的基础上找出频繁模式,候选集的产生往往是耗时的,特别是挖掘富模式或长模式... 事务数据库中频繁模式的挖掘研究作为关联规则等许多数据挖掘问题的核心工作,已经研究了许多年。早期算法大都是Apriori型算法,即首先产生候选集,然后在候选集的基础上找出频繁模式,候选集的产生往往是耗时的,特别是挖掘富模式或长模式时。JianweiHan等人提出了一种新颖的数据结构FP-tree及基于其上的FP-growth算法,用于有效的富模式与长模式挖掘。由于不同的实现方法可能会导致不同的挖掘效率,该文在讨论FP-growth算法的基础上,采用了几种不同的方法来实现它,并用几个数据库对它们的性能进行了比较。 展开更多
关键词 频繁模式 关联规则 数据挖掘 算法
下载PDF
一种基于栈变换的高效关联规则挖掘算法 被引量:15
4
作者 惠晓滨 张凤鸣 +1 位作者 虞健飞 牛世民 《计算机研究与发展》 EI CSCD 北大核心 2003年第2期330-335,共6页
在一个模式信息保全引理的基础上 ,提出了一个基于频繁模式栈变换的关联规则挖掘算法FPST ,给出了相应的栈构造和栈变换的算法描述 ,并进行了算法的性能分析和比较试验 。
关键词 栈变换 高效关联规则挖掘算法 数据库 数据挖掘算法 频繁模式 关联规则
下载PDF
差分隐私保护下一种精确挖掘top-k频繁模式方法 被引量:29
5
作者 张啸剑 王淼 孟小峰 《计算机研究与发展》 EI CSCD 北大核心 2014年第1期104-114,共11页
频繁模式挖掘是分析事务数据集常用技术.然而,当事务数据集含有敏感数据时(如用户行为记录、电子病例等),直接发布频繁模式及其支持度计数会给个人隐私带来相当大的风险.对此提出了一种满足ε-差分隐私的top-k频繁模式挖掘算法DP-topkP(... 频繁模式挖掘是分析事务数据集常用技术.然而,当事务数据集含有敏感数据时(如用户行为记录、电子病例等),直接发布频繁模式及其支持度计数会给个人隐私带来相当大的风险.对此提出了一种满足ε-差分隐私的top-k频繁模式挖掘算法DP-topkP(differentially private top-kpattern mining).该算法利用指数机制从候选频繁模式集合中挑选出top-k个携带真实支持度计数的模式;采用拉普拉斯机制产生的噪音扰动所选模式的真实支持度计数;为了增强输出模式的可用性,采用后置处理技术对top-k个模式的噪音支持度计数进行求精处理.从理论角度证明了该算法满足ε-差分隐私,并符合(λ,δ)-useful要求.实验结果证明了DP-topkP算法具有较好的准确性、可用性和可扩展性. 展开更多
关键词 频繁模式挖掘 top-k模式 差分隐私 拉普拉斯机制 指数机制
下载PDF
面向频繁模式挖掘的差分隐私保护研究综述 被引量:19
6
作者 丁丽萍 卢国庆 《通信学报》 EI CSCD 北大核心 2014年第10期200-209,共10页
频繁模式挖掘是数据挖掘的一个基本问题,其模式本身和相应计数都有可能泄露隐私信息。当前,差分隐私通过添加噪音使数据失真,有效实现了隐私保护的目的。首先介绍了差分隐私保护模型的理论基础;其次,详细综述了差分隐私下3种典型的频繁... 频繁模式挖掘是数据挖掘的一个基本问题,其模式本身和相应计数都有可能泄露隐私信息。当前,差分隐私通过添加噪音使数据失真,有效实现了隐私保护的目的。首先介绍了差分隐私保护模型的理论基础;其次,详细综述了差分隐私下3种典型的频繁模式挖掘方法的最新研究进展,并进行对比性分析;最后对未来的研究方向进行了展望。 展开更多
关键词 差分隐私 隐私保护 频繁模式 数据挖掘
下载PDF
基于概率衰减窗口模型的不确定数据流频繁模式挖掘 被引量:15
7
作者 廖国琼 吴凌琴 万常选 《计算机研究与发展》 EI CSCD 北大核心 2012年第5期1105-1115,共11页
考虑到不确定数据流的不确定性,设计了一种新的概率频繁模式树PFP-tree和基于该树的概率频繁模式挖掘方法PFP-growth.PFP-growth使用事务性不确定数据流及概率衰减窗口模型,通过计算各概率数据项的期望支持度以发现概率频繁模式,其主要... 考虑到不确定数据流的不确定性,设计了一种新的概率频繁模式树PFP-tree和基于该树的概率频繁模式挖掘方法PFP-growth.PFP-growth使用事务性不确定数据流及概率衰减窗口模型,通过计算各概率数据项的期望支持度以发现概率频繁模式,其主要特点有:考虑到窗口内不同时间到达数据项的贡献度不同,采用概率衰减窗口模型计算期望支持度,以提高模式挖掘准确度;设置数据项索引表和事务索引表,以加快频繁模式树检索速度;通过剪枝删除不可能成为频繁模式的结点,以降低模式树的存储及检索开销;对每个结点都设立一个事务概率信息链表,以支持数据项在不同事务中具有不同概率的情形.实验结果表明,PFP-growth在保证挖掘模式准确度的前提下,在处理时间和内存空间等方面都具有较好的性能. 展开更多
关键词 不确定数据 数据流 概率频繁模式 频繁模式挖掘 数据挖掘
下载PDF
一种基于时间衰减模型的数据流闭合模式挖掘方法 被引量:15
8
作者 韩萌 王志海 原继东 《计算机学报》 EI CSCD 北大核心 2015年第7期1473-1483,共11页
数据流是随着时间顺序快速变化的和连续的,对其进行频繁模式挖掘时会出现概念漂移现象.在一些数据流应用中,通常认为最新的数据具有最大的价值.数据流挖掘会产生大量无用的模式,为了减少无用模式且保证无损压缩,需要挖掘闭合模式.因此,... 数据流是随着时间顺序快速变化的和连续的,对其进行频繁模式挖掘时会出现概念漂移现象.在一些数据流应用中,通常认为最新的数据具有最大的价值.数据流挖掘会产生大量无用的模式,为了减少无用模式且保证无损压缩,需要挖掘闭合模式.因此,提出了一种基于时间衰减模型和闭合算子的数据流闭合模式挖掘方式TDMCS(Time-Decay-Model-based Closed frequent pattern mining on data Stream).该算法采用时间衰减模型来区分滑动窗口内的历史和新近事务权重,使用闭合算子提高闭合模式挖掘的效率,设计使用最小支持度-最大误差率-衰减因子的三层架构避免概念漂移,设计一种均值衰减因子平衡算法的高查全率和高查准率.实验分析表明该算法适用于挖掘高密度、长模式的数据流;且具有较高的效率,在不同大小的滑动窗口条件下性能表现是稳态的,同时也优于其他同类算法. 展开更多
关键词 事务数据流 数据流挖掘 频繁模式挖掘 闭合模式挖掘 时间衰减模型 概念漂移
下载PDF
基于高频模式树的项约束关联规则发现方法 被引量:6
9
作者 董雁适 程翼宇 潘云鹤 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2002年第4期445-450,共6页
项约束关联规则发现是在关联规则发现中加入先验知识、提高算法执行效率、精简所发现的规则数量的重要方法 .现有的项约束关联规则发现算法都基于 Apriori算法框架 ,在高密度数据库上的执行性能不佳 ,而且没有提出高效的约束条件检验方... 项约束关联规则发现是在关联规则发现中加入先验知识、提高算法执行效率、精简所发现的规则数量的重要方法 .现有的项约束关联规则发现算法都基于 Apriori算法框架 ,在高密度数据库上的执行性能不佳 ,而且没有提出高效的约束条件检验方法 .在一种新型高效关联规则发现算法 FP- Growth的基础上 ,提出了一种全新的项约束关联规则发现算法 FPC.FPC算法利用 FP- Growth算法逐步生成高频项集的方式 ,构造了一种约束树数据结构 ,及时检查高频项集满足约束条件的情况 ,尽早删去不满足约束的条件 .实验证明 ,此算法执行效率比 Reorder等基于 Apriori的算法高一个数量级 . 展开更多
关键词 高频模式树 项约束 关联规则发现 高频项集发现 高频模式发现 数据挖掘 Aprioir算法
下载PDF
概念漂移数据流挖掘算法综述 被引量:13
10
作者 丁剑 韩萌 李娟 《计算机科学》 CSCD 北大核心 2016年第12期24-29,62,共7页
数据流是一种新型的数据模型,具有动态、无限、高维、有序、高速和变化等特性。在真实的数据流环境中,一些数据分布是随着时间改变的,即具有概念漂移特征,称为可变数据流或概念漂移数据流。因此处理数据流模型的方法需要处理时空约束和... 数据流是一种新型的数据模型,具有动态、无限、高维、有序、高速和变化等特性。在真实的数据流环境中,一些数据分布是随着时间改变的,即具有概念漂移特征,称为可变数据流或概念漂移数据流。因此处理数据流模型的方法需要处理时空约束和自适应调整概念变化。对概念漂移问题和概念漂移数据流分类、聚类和模式挖掘等内容进行综述。首先介绍概念漂移的类型和常用概念改变检测方法。为了解决概念漂移问题,数据流挖掘中常使用滑动窗口模型对新近事务进行处理。数据流分类常用的模型包括单分类模型和集成分类模型,常用的方法包括决策树、分类关联规则等。数据流聚类方式通常包括基于k-means的和非基于k-means的。模式挖掘可以为分类、聚类和关联规则等提供有用信息。概念漂移数据流中的模式包括频繁模式、序列模式、episode、模式树、模式图和高效用模式等。最后详细介绍其中的频繁模式挖掘算法和高效用模式挖掘算法。 展开更多
关键词 数据流挖掘 分类 聚类 模式挖掘 概念漂移
下载PDF
基于Spark的并行频繁模式挖掘算法 被引量:13
11
作者 曹博 倪建成 +2 位作者 李淋淋 于苹苹 姚彬修 《计算机工程与应用》 CSCD 北大核心 2016年第20期86-91,共6页
在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷,为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树的形式存储,通过最为频繁的k个模式得到最... 在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷,为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树的形式存储,通过最为频繁的k个模式得到最优阈值。然后根据该值删除预期不能成长为频繁的模式以降低计算规模,并利用弹性分布式数据集RDD完成统计项集支持度计数、候选项集生成的工作。实验分析表明相比于传统的频繁模式挖掘算法,该算法具有更高的效率以及可扩展性。 展开更多
关键词 大数据 频繁模式挖掘 TOP-K 模式树 并行计算
下载PDF
数据流频繁模式挖掘综述 被引量:11
12
作者 韩萌 丁剑 《计算机应用》 CSCD 北大核心 2019年第3期719-727,共9页
一些先进应用如欺诈检测和趋势学习等带来了数据流频繁模式挖掘的发展。不同于静态数据,数据流挖掘面临着时空约束和项集组合爆炸等问题。对已有数据流频繁模式挖掘算法进行综述并对经典和最新算法进行分析。按照模式集合的完整程度进... 一些先进应用如欺诈检测和趋势学习等带来了数据流频繁模式挖掘的发展。不同于静态数据,数据流挖掘面临着时空约束和项集组合爆炸等问题。对已有数据流频繁模式挖掘算法进行综述并对经典和最新算法进行分析。按照模式集合的完整程度进行分类,数据流中频繁模式分为全集模式和压缩模式。压缩模式主要包括闭合模式、最大模式、top-k模式以及三者的组合模式。不同之处是闭合模式是无损压缩的,而其他模式是有损压缩的。为了得到有趣的频繁模式,可以挖掘基于用户约束的模式。为了处理数据流中的新近事务,将算法分为基于窗口模型和基于衰减模型的方法。数据流中模式挖掘常见的还包含序列模式和高效用模式,对经典和最新算法进行介绍。最后给出了数据流模式挖掘的下一步工作。 展开更多
关键词 数据流 数据流挖掘 频繁模式挖掘 序列模式挖掘 高效用模式挖掘
下载PDF
Efficient Incremental Maintenance of Frequent Patterns with FP-Tree 被引量:9
13
作者 Xiu-LiMa Yun-HaiTong +1 位作者 Shi-WeiTang Dong-QingYang 《Journal of Computer Science & Technology》 SCIE EI CSCD 2004年第6期876-884,共9页
Mining frequent patterns has been studied popularly in data mining area. However, little work has been done on mining patterns when the database has an influx of fresh data constantly. In these dynamic scenarios, effi... Mining frequent patterns has been studied popularly in data mining area. However, little work has been done on mining patterns when the database has an influx of fresh data constantly. In these dynamic scenarios, efficient maintenance of the discovered patterns is crucial. Most existing methods need to scan the entire database repeatedly, which is an obvious disadvantage. In this paper, an efficient incremental mining algorithm, Incremental-Mining (IM), is proposed for maintenance of the frequent patterns when incremental data come. Based on the frequent pattern tree (FP-tree) structure, IM gives a way to make the most of the things from the previous mining process, and requires scanning the original data once at most. Furthermore, IM can identify directly the differential set of frequent patterns, which may be more informative to users. Moreover, IM can deal with changing thresholds as well as changing data, thus provide a full maintenance scheme. IM has been implemented and the performance study shows it outperforms three other incremental algorithms: FUP, DB-tree and re-running frequent pattern growth (FP-growth). Keywords data mining - association rule mining - frequent pattern mining - incremental mining Supported by the National Basic Research 973 Program of China under Grant No.G1999032705.Xiu-Li Ma received the Ph.D. degree in computer science from Peking University in 2003. She is currently a postdoctoral researcher at National Lab on Machine Perception of Peking University. Her main research interests include data warehousing, data mining, intelligent online analysis, and sensor network.Yun-Hai Tong received the Ph.D. degree in computer software from Peking University in 2002. He is currently an assistant professor at School of Electronics Engineering and Computer Science of Peking University. His research interests include data warehousing, online analysis processing and data mining.Shi-Wei Tang received the B.S. degree in mathematics from Peking University in 1964. Now, he is a professor and Ph.D. su 展开更多
关键词 data mining association rule mining frequent pattern mining incremental mining
原文传递
航天侦察装备体系指标关联信息挖掘研究 被引量:12
14
作者 韩驰 熊伟 《系统仿真学报》 CAS CSCD 北大核心 2021年第10期2372-2380,共9页
航天侦察装备体系的体系效能和体系贡献率影响因素指标数量多,指标间关系复杂。如何识别关联,优选关键性能指标并明确性能指标与体系贡献率之间的关系是体系效能及贡献率评估问题的关键。通过MATLAB与STK联合仿真获取航天侦察装备底层... 航天侦察装备体系的体系效能和体系贡献率影响因素指标数量多,指标间关系复杂。如何识别关联,优选关键性能指标并明确性能指标与体系贡献率之间的关系是体系效能及贡献率评估问题的关键。通过MATLAB与STK联合仿真获取航天侦察装备底层指标数据,基于FP-Tree(Frequent Pattern-Tree)算法发现指标间关联信息,去除冗余,确定指标关联类型,并结合Marichal熵建立优化模型确定关键性能指标的贡献度。仿真实验结果表明,通过FP-Tree算法可挖掘航天侦察装备初始评价指标体系间的关联性及关联类型,确定指标贡献度并实现指标体系的精简。 展开更多
关键词 航天侦察 关联规则 指标关联 数据挖掘 FP-Tree(frequent pattern-Tree)算法
下载PDF
一种新的基于频繁闭显露模式的图分类方法 被引量:10
15
作者 刘勇 李建中 朱敬华 《计算机研究与发展》 EI CSCD 北大核心 2007年第7期1169-1176,共8页
由于图模型能够准确地表示科学与工程领域中数据的关键特征,图挖掘逐渐成为了数据挖掘领域的热点研究内容.图分类是图挖掘的一个重要研究分支.提出了一种新的基于频繁闭显露模式的图分类方法CEP,其基本思想是首先挖掘频繁闭图模式,然后... 由于图模型能够准确地表示科学与工程领域中数据的关键特征,图挖掘逐渐成为了数据挖掘领域的热点研究内容.图分类是图挖掘的一个重要研究分支.提出了一种新的基于频繁闭显露模式的图分类方法CEP,其基本思想是首先挖掘频繁闭图模式,然后从闭图模式中得到显露模式,最后根据显露模式构造一系列分类规则.实验结果显示:在对化合物数据分类时,CEP在分类性能上优于目前最好的图分类方法.而且,领域专家容易理解和利用CEP产生的分类规则. 展开更多
关键词 频繁图模式 闭图模式 显露模式 图分类 图挖掘
下载PDF
频繁模式挖掘中的剪枝策略 被引量:5
16
作者 王卉 李庆华 +1 位作者 马传香 李肯立 《计算机工程与科学》 CSCD 2003年第4期65-68,共4页
本文在研究已有剪枝策略的基础上,提出一种基于堆栈的多层回退剪枝新技术,并给出一个采用该剪枝策略的最大频繁模式挖掘算法。分析与试验证明,该算法大大削减了搜索空间,效率优于已有同类算法。
关键词 频繁模式挖掘 剪枝策略 关联规则 序列模式 数据挖掘 数据库 堆栈
下载PDF
基于多维数据集的异常子群发现技术 被引量:11
17
作者 张静恬 伍赛 +2 位作者 陈刚 寿黎但 陈珂 《计算机学报》 EI CSCD 北大核心 2019年第8期1671-1685,共15页
非频繁项集是未被标准化的频繁项集产生算法(如APRIORI以及FP-Growth算法)提取的所有项集.在数据集上挖掘有意义的非频繁项集是数据挖掘的重要工作之一.目前,基于传统数据集的非频繁项集挖掘研究主要集中在负相关、负模式以及间接关联... 非频繁项集是未被标准化的频繁项集产生算法(如APRIORI以及FP-Growth算法)提取的所有项集.在数据集上挖掘有意义的非频繁项集是数据挖掘的重要工作之一.目前,基于传统数据集的非频繁项集挖掘研究主要集中在负相关、负模式以及间接关联等方面,且主要是对整个数据集上的性质进行分析,而没有对数据集的切片进行分析.该文提出了一种新的模式,试图找到符合如下条件的特定子群,其描述的数据集切片上存在某些特殊项集,这些项集在整个数据集上并非频繁项集,但是在该数据集切片上却是频繁项集.根据用户要求自动找出这些异常子群以及其对应项集的算法在数据分析中有着十分重要的意义.该文提出的解决方案由两部分组成:候选产生阶段以及查询交互阶段.前者是一个脱机处理的过程,而后者则是在线实时反馈的过程.在候选产生阶段,该文提出了一种基于多维数据集高效产生频繁项集以及显著子群并有效建立索引的算法.根据索引,在查询交互阶段,该文提出的算法框架可以快速准确地返回给定查询对应的异常子群以及对应项集.基于多个真实数据集的实验表明,该文提出的方案可以根据用户要求实时返回有意义的异常子群以及对应项集.此外,该文提出的算法在多维数据集上的挖掘效率比UTMTU算法提升了数倍. 展开更多
关键词 频繁项集挖掘 子群发现 多维数据集 数据挖掘 异常检测
下载PDF
基于攻击链和网络流量检测的威胁情报分析研究 被引量:11
18
作者 吕宗平 钟友兵 顾兆军 《计算机应用研究》 CSCD 北大核心 2017年第6期1794-1797,1804,共5页
以特征检测为主的传统安全产品越来越难以有效检测新型威胁。针对现有方法检测威胁攻击的不足,进行了一种基于攻击链结合网络异常流量检测的威胁情报分析方法研究,通过对获取的威胁信息进行分析,将提取出的情报以机器可读的格式实现共享... 以特征检测为主的传统安全产品越来越难以有效检测新型威胁。针对现有方法检测威胁攻击的不足,进行了一种基于攻击链结合网络异常流量检测的威胁情报分析方法研究,通过对获取的威胁信息进行分析,将提取出的情报以机器可读的格式实现共享,达到协同防御。该方法首先对网络中的异常流量进行检测,分析流量特征及其之间的关系,以熵值序列链的形式参比网络攻击链的模式;对每个异常时间点分类统计特征项,进行支持度计数,挖掘特征之间频繁项集模式;再结合攻击链各阶段的特点,还原攻击过程。仿真结果表明,该方法可以有效地检测网络中的异常流量,提取威胁情报指标。 展开更多
关键词 威胁情报分析 攻击链 频繁模式挖掘
下载PDF
基于模式增长方式的高效用模式挖掘算法 被引量:10
19
作者 王乐 熊松泉 +1 位作者 常艳芬 王水 《自动化学报》 EI CSCD 北大核心 2015年第9期1616-1626,共11页
高效用模式挖掘是数据挖掘领域的一个重要研究内容;由于其计算过程包含对模式的内、外效用值的处理,计算复杂度较大,因此挖掘算法的主要研究热点问题就是提高算法的时间效率.针对此问题,本文给出一个基于模式增长方式的高效用模式挖掘算... 高效用模式挖掘是数据挖掘领域的一个重要研究内容;由于其计算过程包含对模式的内、外效用值的处理,计算复杂度较大,因此挖掘算法的主要研究热点问题就是提高算法的时间效率.针对此问题,本文给出一个基于模式增长方式的高效用模式挖掘算法HUPM-FP,该算法可以从全局树上挖掘高效用模式,避免产生候选项集.实验中,采用6个典型数据集进行实验,并和目前效率较好的算法FHM(Faster high-utility itemset mining)做了对比,实验结果表明本文给出的算法时空效率都有较大的提高,特别是时间效率提高较大,可以达到1个数量级以上. 展开更多
关键词 高效用模式 频繁模式 频繁项集 数据挖掘
下载PDF
基于时间衰减模型的数据流频繁模式挖掘 被引量:9
20
作者 吴枫 仲妍 吴泉源 《自动化学报》 EI CSCD 北大核心 2010年第5期674-684,共11页
频繁模式挖掘是数据流挖掘中的重要研究课题.针对数据流的时效性和流中心的偏移性特点,提出了界标窗口模型与时间衰减模型相结合的数据流频繁模式挖掘算法.该算法通过动态构建全局模式树,利用时间指数衰减函数对模式树中各模式的支持数... 频繁模式挖掘是数据流挖掘中的重要研究课题.针对数据流的时效性和流中心的偏移性特点,提出了界标窗口模型与时间衰减模型相结合的数据流频繁模式挖掘算法.该算法通过动态构建全局模式树,利用时间指数衰减函数对模式树中各模式的支持数进行统计,以此刻画界标窗口内模式的频繁程度;进而,为有效降低空间开销,设计了剪枝阈值函数,用于对预期难以成长为频繁的模式及时从全局树中剪除.本文对出现在算法中的重要参数和阈值进行了深入分析.一系列实验表明,与现有同类算法MSW相比,该算法挖掘精度高(平均超过90%),内存开销小,速度上可以满足高速数据流的处理要求,且可以适应不同事务数量、不同事务平均长度和不同最大潜在频繁模式平均长度的数据流频繁模式挖掘. 展开更多
关键词 数据流 频繁模式挖掘 数据挖掘 时间衰减模型
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部