期刊文献+
共找到51篇文章
< 1 2 3 >
每页显示 20 50 100
一种最大频繁模式的快速挖掘算法 被引量:3
1
作者 王运鹏 胡修林 阮幼林 《计算机应用研究》 CSCD 北大核心 2006年第10期86-88,共3页
挖掘最大频繁模式是多种数据挖掘应用中的关键问题。提出一种挖掘最大频繁模式的快速算法,该算法利用前缀树压缩存放数据,并通过调整前缀树中节点信息和节点链直接在前缀树上采用深度优先的策略进行挖掘,而不需要创建条件模式树,从而大... 挖掘最大频繁模式是多种数据挖掘应用中的关键问题。提出一种挖掘最大频繁模式的快速算法,该算法利用前缀树压缩存放数据,并通过调整前缀树中节点信息和节点链直接在前缀树上采用深度优先的策略进行挖掘,而不需要创建条件模式树,从而大大提高了挖掘效率。 展开更多
关键词 最大频繁模式 FP-tree 前缀树 数据挖掘
下载PDF
一种基于前缀树的增量序列挖掘算法 被引量:2
2
作者 张坤 陈越 朱扬勇 《计算机工程》 CAS CSCD 北大核心 2007年第19期69-71,共3页
在已有模式的基础上,该文挖掘出了新的模式,减少了挖掘原始数据库次数,指出了IncSpan+算法存在的问题,说明了基于半频繁模式的增量挖掘算法的缺陷,提出了一种增量序列模式挖掘算法。该算法构造了前缀树表示序列模式,并用广度剪枝和深度... 在已有模式的基础上,该文挖掘出了新的模式,减少了挖掘原始数据库次数,指出了IncSpan+算法存在的问题,说明了基于半频繁模式的增量挖掘算法的缺陷,提出了一种增量序列模式挖掘算法。该算法构造了前缀树表示序列模式,并用广度剪枝和深度剪枝维护该前缀树的结构。实验表明,该算法具有良好的性能。 展开更多
关键词 增量序列模式挖掘 广度剪枝 深度剪枝 前缀树
下载PDF
基于交集为空的概念格批处理生成算法 被引量:2
3
作者 董辉 马垣 +2 位作者 沈文轩 宫玺 汤新明 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第4期32-35,共4页
采用剪枝方法,通过对NextClosure算法的改进,提出一种基于剪枝的概念格批处理算法Prun-NextClosure,减少了概念格构造过程中闭包运算的次数,从而提高概念格的构造效率。实验使用随机生成的数据集,验证了该算法的正确性和有效性。
关键词 概念格 批处理算法 前缀树
下载PDF
Incrementally Exploiting Sentential Association for Email Classification
4
作者 李曲 何玉 +1 位作者 冯剑琳 冯玉才 《Journal of Southwest Jiaotong University(English Edition)》 2006年第2期129-134,共6页
A novel association-based algorithm EmailinClass is proposed for incremental Email classification. In view of the fact that the basic semantic unit in an Email is actually a sentence, and the words within the same sen... A novel association-based algorithm EmailinClass is proposed for incremental Email classification. In view of the fact that the basic semantic unit in an Email is actually a sentence, and the words within the same sentence are typically more semantically related than the words that just appear in the same Email, EmailInClass views a sentence rather than an Email as a transaction. Extensive experiments conducted on benchmark corpora Enron reveal that the effectiveness of EmallInClass is superior to the non-incremental alternatives such as NalveBayes and SAT-MOD. In addition, the classification rules generated by EroaillnClass are human readable and revisable, 展开更多
关键词 Document Requent itemset Category frequent itemset MODFIT heuristic Category prefix-tree Incremental classification
下载PDF
矩阵与前缀树方法挖掘频繁项集 被引量:1
5
作者 丁邦旭 黄永青 《计算机工程与应用》 CSCD 北大核心 2015年第22期154-157,171,共5页
传统频繁项集挖掘算法的执行效率较低。提出了一种基于矩阵与前缀树的频繁项集挖掘算法MPFI,能快速地挖掘事务数据库中的频繁项集。MPFI算法只需扫描事务数据库一次,构建垂直方向的二进制矩阵,应用二进制位向量表达频繁项集信息,利用前... 传统频繁项集挖掘算法的执行效率较低。提出了一种基于矩阵与前缀树的频繁项集挖掘算法MPFI,能快速地挖掘事务数据库中的频繁项集。MPFI算法只需扫描事务数据库一次,构建垂直方向的二进制矩阵,应用二进制位向量表达频繁项集信息,利用前缀树压缩存储频繁项集的相关信息,不产生候选项集。理论分析与实验结果表明,MPFI算法能有效地提高频繁项集挖掘效率。 展开更多
关键词 频繁项集 矩阵 二进制 前缀树
下载PDF
基于前缀树的数据流容错概要结构构造
6
作者 由育阳 张健沛 +1 位作者 杨志宏 由勇 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2011年第5期564-568,共5页
应用于数据流环境的数据挖掘算法应首要考虑算法的时空复杂性,而要实现消耗巨大计算资源的容错模式挖掘则更要专注于算法的效率.容错模式挖掘是为了从被噪声干扰的真实世界数据中获取允许一定程度错配的、更加泛化的有用知识.提出一种... 应用于数据流环境的数据挖掘算法应首要考虑算法的时空复杂性,而要实现消耗巨大计算资源的容错模式挖掘则更要专注于算法的效率.容错模式挖掘是为了从被噪声干扰的真实世界数据中获取允许一定程度错配的、更加泛化的有用知识.提出一种新的单遍历、高压缩的容错前缀树形概要结构DSFT-tree(Data Stream Fault-Tolerant Frequent PatternTree),用来捕捉最近到达的数据流中的数据元素,并且能够高效移除过期数据,实现最大限度地降低计算资源消耗.利用滑动窗指针和位向量表达法实现容错树形概要结构的高效重构,并进一步基于滑动窗口技术实现了数据流环境下的容错频繁项挖掘.实验采用IBM数据发生器产生事务数据,在合理时间内最终挖掘频繁项的数量为FP-stream算法的1.5倍. 展开更多
关键词 数据流 概要结构 容错模式 前缀树
下载PDF
一种基于Hadoop的关联规则挖掘算法 被引量:7
7
作者 丁勇 朱长水 武玉艳 《计算机科学》 CSCD 北大核心 2018年第B11期409-411,416,共4页
传统的并行关联规则算法对每一次迭代都定义一个MapReduce任务,以实现候选项集的生成和计数功能,但多次启动MapReduce任务会带来极大的性能开销。文中定义了一种并行关联规则挖掘算法PST-Apriori,该算法采取分治策略,在每个分布式计算... 传统的并行关联规则算法对每一次迭代都定义一个MapReduce任务,以实现候选项集的生成和计数功能,但多次启动MapReduce任务会带来极大的性能开销。文中定义了一种并行关联规则挖掘算法PST-Apriori,该算法采取分治策略,在每个分布式计算节点定义一个前缀共享树,通过递归调用的方式将事务T生成的候选项集逐层压缩到前缀共享树(PST)中。然后广度遍历PST,逐层将每个节点对应的〈key,value〉作为map函数的输入,并由MapReduce框架自动按照key值进行聚集。最后调用reduce函数对多个任务的处理结果进行汇总,得到满足最小支持度阈值的频繁项集。算法只使用两个MapReduce任务,且PST按照key值排序便于Mapper端的shuffle操作,提高了运行效率。 展开更多
关键词 关联规则 HADOOP MAPREDUCE 前缀共享树
下载PDF
一种基于压缩前缀树的频繁模式挖掘算法 被引量:1
8
作者 郭云峰 张集祥 《计算机工程与科学》 CSCD 北大核心 2009年第12期71-73,133,共4页
针对FP-growth算法存在动态维护复杂、在挖掘过程中需要递归地创建大量的条件频繁模式树,导致时空效率不高等不足,本算法在压缩前缀树的基础上,通过调整树中节点信息和节点链,采用深度优先的策略挖掘频繁模式,无需任何附加的数据结构,... 针对FP-growth算法存在动态维护复杂、在挖掘过程中需要递归地创建大量的条件频繁模式树,导致时空效率不高等不足,本算法在压缩前缀树的基础上,通过调整树中节点信息和节点链,采用深度优先的策略挖掘频繁模式,无需任何附加的数据结构,极大地减少了系统资源的消耗,减少树的规模和遍历次数,挖掘效率大大提高。 展开更多
关键词 频繁模式 压缩前缀树 频繁项集
下载PDF
基于前缀树的关联规则挖掘算法分析与设计
9
作者 汪红 涂旻骞 《计算机与现代化》 2008年第8期107-109,共3页
通过研究项集之间的关系,发现大项集之间存在着一种特定的关系,即k-项集一定是由一个(k-1)-项集加上一个单独的项构成的。基于这种项集关系,本文提出基于前缀树的TIUA算法,算法摆脱了传统算法多次迭代的不足,并利用挖掘出的结果,只需扫... 通过研究项集之间的关系,发现大项集之间存在着一种特定的关系,即k-项集一定是由一个(k-1)-项集加上一个单独的项构成的。基于这种项集关系,本文提出基于前缀树的TIUA算法,算法摆脱了传统算法多次迭代的不足,并利用挖掘出的结果,只需扫描一次数据库,就能满足各种要求,通过以空间换时间,达到提高挖掘效率的目的。 展开更多
关键词 数据挖掘 关联规则 增量挖掘 前缀树
下载PDF
大数据环境下基于前缀树的频繁项集挖掘 被引量:1
10
作者 黄彩娟 刘卓华 +1 位作者 所辉 杨滨 《控制工程》 CSCD 北大核心 2019年第11期2136-2140,共5页
针对大数据环境下频繁项查找效率低和可扩展性问题,提出了一种基于MapReduce框架运行的新分布式FIM算法。首先,使用前缀序列树来构建候选序列子集,避免了昂贵的扫描过程。接着,使用宽幅支持度的方法产生频繁项集,每个MapReduce迭代将修... 针对大数据环境下频繁项查找效率低和可扩展性问题,提出了一种基于MapReduce框架运行的新分布式FIM算法。首先,使用前缀序列树来构建候选序列子集,避免了昂贵的扫描过程。接着,使用宽幅支持度的方法产生频繁项集,每个MapReduce迭代将修剪掉非频繁项集,显著地压缩内存消耗,以及每一个MapReduce作业的迭代时间。最后,在不同事务规模和支持度下,与不同算法进行实验对比。实验结果表明,提出的序列增长算法获得了良好的效率和可扩展性,特别是在处理大数据集和长项集方面。 展开更多
关键词 频繁项集挖掘 MAPREDUCE 前缀序列树 模糊支持度 大数据
下载PDF
非协作方式下IPv6接入网络拓扑发现
11
作者 刘振山 王清贤 罗军勇 《计算机科学》 CSCD 北大核心 2008年第5期102-105,共4页
本文致力于提高非协作方式下IPv6接入网络拓扑发现的覆盖率,首先建立了描述IPv6接入网络的前缀聚合树模型(PATM,Prefix Aggregation Tree Model),然后提出了基于PATM模型的网络拓扑发现方法。最后给出了对华东某高校IPv6校园网的拓扑发... 本文致力于提高非协作方式下IPv6接入网络拓扑发现的覆盖率,首先建立了描述IPv6接入网络的前缀聚合树模型(PATM,Prefix Aggregation Tree Model),然后提出了基于PATM模型的网络拓扑发现方法。最后给出了对华东某高校IPv6校园网的拓扑发现测试结果。通过对测试数据进行的分析和对比,验证了基于PATM模型的拓扑发现方法的有效性。 展开更多
关键词 前缀聚合树模型 非协作 兄弟节点 前缀跨度
下载PDF
SCTree:一种互异情节模式挖掘算法 被引量:1
12
作者 黄鹏 王鹏 汪卫 《计算机应用与软件》 CSCD 北大核心 2013年第3期177-181,共5页
现有的事件序列情节模式挖掘算法多是基于滑动窗口和非重叠出现的。目前没有有效算法挖掘基于互异出现的互异情节模式。为此,提出带状态计数的前缀树结构(SCTree)来生成互异情节模式候选集,进行互异计数和裁剪。为减少数据库扫描次数,提... 现有的事件序列情节模式挖掘算法多是基于滑动窗口和非重叠出现的。目前没有有效算法挖掘基于互异出现的互异情节模式。为此,提出带状态计数的前缀树结构(SCTree)来生成互异情节模式候选集,进行互异计数和裁剪。为减少数据库扫描次数,提出SCTree的主动扩展技术。实验表明了算法的有效性和高效性。 展开更多
关键词 数据挖掘 频繁情节模式 互异出现 带状态计数的前缀树
下载PDF
基于前缀共享树的频繁情节挖掘算法
13
作者 丁勇 朱辉生 高广银 《科学技术与工程》 北大核心 2014年第28期231-234,246,共5页
经典的频繁情节挖掘算法NONEPI及其改进算法NONEPI+存在时空复杂度高、"重复计算"等问题,基于最小且非重叠发生的支持度定义,提出一个基于前缀共享树的频繁情节挖掘算法PST_NONEPI,该算法采用深度优先搜索策略,将发现的频繁... 经典的频繁情节挖掘算法NONEPI及其改进算法NONEPI+存在时空复杂度高、"重复计算"等问题,基于最小且非重叠发生的支持度定义,提出一个基于前缀共享树的频繁情节挖掘算法PST_NONEPI,该算法采用深度优先搜索策略,将发现的频繁情节压缩到前缀共享树中,通过动态维护前缀共享树来发现所有的频繁情节。该算法只需扫描事件序列一次,大大提高了频繁情节挖掘的效率。实验证明,PST_NONEPI算法能有效地挖掘频繁情节。 展开更多
关键词 事件序列 频繁情节 最小且非重叠发生 前缀共享树
下载PDF
无重复投影数据库扫描的序列模式挖掘算法 被引量:17
14
作者 张坤 朱扬勇 《计算机研究与发展》 EI CSCD 北大核心 2007年第1期126-132,共7页
序列模式挖掘在Web点击流分析、自然灾害预测、DNA和蛋白质序列模式发现等领域有着广泛应用.基于频繁模式增长的PrefixSpan是目前性能最好的序列模式挖掘算法之一.然而在密数据集和长序列模式挖掘过程中会出现大量的重复投影数据库,使... 序列模式挖掘在Web点击流分析、自然灾害预测、DNA和蛋白质序列模式发现等领域有着广泛应用.基于频繁模式增长的PrefixSpan是目前性能最好的序列模式挖掘算法之一.然而在密数据集和长序列模式挖掘过程中会出现大量的重复投影数据库,使得这类算法性能下降.算法SPMDS通过对投影数据库的伪投影做单项杂凑函数,如MD5等,检查是否存在重复的投影数据库,避免大量重复数据库的扫描,并采用一些必要条件简化投影数据库的搜索,进而提高算法的性能.实验和分析都表明SPMDS性能优于PrefixSpan. 展开更多
关键词 序列模式挖掘 投影数据库 前缀树 单向杂凑函数
下载PDF
一种满足差分隐私的轨迹数据安全存储和发布方法 被引量:10
15
作者 吴万青 赵永新 +1 位作者 王巧 底超凡 《计算机研究与发展》 EI CSCD 北大核心 2021年第11期2430-2443,共14页
近些年基于位置服务的软件便利人们生活的同时,也带来了隐私泄露的风险.针对这一问题,提出一种基于噪声前缀树结构的轨迹数据发布方法.首先根据轨迹时空特性构建轨迹等价类,利用Hilbert曲线对轨迹位置点进行划分,得到划分区域的中心点,... 近些年基于位置服务的软件便利人们生活的同时,也带来了隐私泄露的风险.针对这一问题,提出一种基于噪声前缀树结构的轨迹数据发布方法.首先根据轨迹时空特性构建轨迹等价类,利用Hilbert曲线对轨迹位置点进行划分,得到划分区域的中心点,将得到的中心点聚合成新的轨迹,因此达到减少空间复杂度的目的.然后构建前缀树,并将聚合的轨迹位置点存入到前缀树中,可以有效地提高查询效率.最后为了保护节点中存储的敏感信息,利用等差隐私预算分配方式对前缀树节点中数据添加Laplace噪声,保证轨迹数据的安全性的同时也提高了数据可用性.通过真实数据集实验对比已有的方案,验证了所提出的算法在保证数据隐私性的同时,也提高了数据可用性. 展开更多
关键词 差分隐私 位置隐私 HILBERT曲线 前缀树 轨迹数据
下载PDF
一种基于前缀树的频繁模式挖掘算法 被引量:4
16
作者 朱光喜 吴伟民 +1 位作者 阮幼林 刘干 《计算机科学》 CSCD 北大核心 2005年第4期34-36,共3页
挖掘频繁模式是许多数据挖掘任务的关键步骤。基于FP-Tree的挖掘算法由于无须生成候进项集效率明显高于Apriori类算法,但FP-Tree结构存在动态维护复杂、而且在挖掘过程中需要递归地创建大量的条件FP-Tree,时空效率不高。因此,本文提出... 挖掘频繁模式是许多数据挖掘任务的关键步骤。基于FP-Tree的挖掘算法由于无须生成候进项集效率明显高于Apriori类算法,但FP-Tree结构存在动态维护复杂、而且在挖掘过程中需要递归地创建大量的条件FP-Tree,时空效率不高。因此,本文提出一种基于前缀树的新算法。该算法通过引入一种新结构—前缀树(Prefix Tree)用来压缩存放数据所相关信息,并通过调整前缀树中节点信息和节点键直接在Prefix Tree上采用深度优先的策略挖掘频繁模式,而不需要任何附加的数据结构,从而大大提高了挖掘效率。 展开更多
关键词 频繁模式 挖掘算法 前缀 关键步骤 数据挖掘 候选项集 动态维护 挖掘过程 时空效率 相关信息 深度优先 数据结构 新算法 中节点 递归
下载PDF
最大频繁模式的挖掘算法 被引量:6
17
作者 徐欣 阮幼林 《舰船电子工程》 2009年第3期102-106,共5页
挖掘最大频繁模式是多种数据挖掘应用中的关键问题。采用Apriori类的候选生成-检验方法或基于FP-Tree的挖掘方法需要产生大量候选或动态创建大量条件模式树,代价太高。因此,提出一种挖掘最大频繁模式的新算法。该算法利用前缀树压缩存... 挖掘最大频繁模式是多种数据挖掘应用中的关键问题。采用Apriori类的候选生成-检验方法或基于FP-Tree的挖掘方法需要产生大量候选或动态创建大量条件模式树,代价太高。因此,提出一种挖掘最大频繁模式的新算法。该算法利用前缀树压缩存放数据,并通过调整前缀树中节点信息和节点链直接在前缀树上采用深度优先的策略进行挖掘,既不需要生成候选也不需要创建条件模式树,提高了挖掘效率。 展开更多
关键词 最大频繁模式 FP-tree前缀树
下载PDF
支持告警序列差分隐私保护的网络入侵关联方法 被引量:8
18
作者 李洪成 吴晓平 《计算机工程》 CAS CSCD 北大核心 2018年第5期128-132,共5页
在网络入侵情报协同分析过程中,告警数据的共享使被攻击者面临隐私泄露的风险。针对现有告警信息隐私保护方法无法应对背景知识下恶意分析的问题,提出一种新的网络告警关联分析方法。以原始告警序列数据集作为输入,利用Laplace机制构建... 在网络入侵情报协同分析过程中,告警数据的共享使被攻击者面临隐私泄露的风险。针对现有告警信息隐私保护方法无法应对背景知识下恶意分析的问题,提出一种新的网络告警关联分析方法。以原始告警序列数据集作为输入,利用Laplace机制构建支持差分隐私保护的噪声告警序列前缀树。在此基础上,通过遍历噪声前缀树生成泛化告警序列数据集,使用频繁序列挖掘算法实现告警关联。从理论角度证明该方法支持ε-差分隐私保护,并在典型多步攻击场景LLDoS1.0 inside数据集上进行验证。实验结果表明,该方法在保护告警序列隐私的同时,能够提高告警关联准确性。 展开更多
关键词 入侵检测 告警关联 差分隐私保护 频繁序列挖掘 前缀树
下载PDF
差分隐私下的一种频繁序列模式挖掘方法 被引量:7
19
作者 卢国庆 张啸剑 +2 位作者 丁丽萍 李彦峰 廖鑫 《计算机研究与发展》 EI CSCD 北大核心 2015年第12期2789-2801,共13页
频繁序列模式挖掘是数据挖掘领域的1个基本问题,然而模式本身及其支持度计数都有可能泄露用户隐私信息.差分隐私(differential privacy,DP)作为一种新出现的隐私保护技术,定义了一个相当严格的攻击模型,通过添加噪音使数据失真达到隐私... 频繁序列模式挖掘是数据挖掘领域的1个基本问题,然而模式本身及其支持度计数都有可能泄露用户隐私信息.差分隐私(differential privacy,DP)作为一种新出现的隐私保护技术,定义了一个相当严格的攻击模型,通过添加噪音使数据失真达到隐私保护的目的.由于序列数据内在序列性和高维度的特点,给差分隐私应用于频繁序列模式挖掘带来了挑战.对此提出了一种基于交互式差分隐私保护框架的频繁序列模式挖掘算法Diff-FSPM(differential-privacy frequent sequential pattern mining).该算法利用指数机制获取最优序列长度,并采用一种维规约策略获得原始序列数据集的规约表示,有效降低序列维度的影响;应用前缀树压缩频繁序列模式,利用拉普拉斯机制产生的噪音扰动频繁模式的真实支持度计数,同时采用闭频繁序列模式和Markov假设,有效分配隐私预算,并利用一致性约束后置处理,增强输出模式的可用性.理论角度证明算法满足ε-差分隐私,实验结果验证算法具有较好的可用性. 展开更多
关键词 频繁序列模式 数据挖掘 差分隐私 隐私保护 前缀树
下载PDF
基于Nodeset的最大频繁项集挖掘算法 被引量:6
20
作者 林晨 顾君忠 《计算机工程》 CAS CSCD 北大核心 2016年第12期204-207,216,共5页
递归遍历、条件FP-Tree构建与超集检测是多数基于FP-Tree最大频繁项集挖掘算法的主要性能瓶颈。为此,提出一种基于Nodeset的最大频繁项集挖掘算法——MFIN算法。该算法采用Nodeset数据结构对POC-Tree的节点编码,将集合枚举树作为搜索空... 递归遍历、条件FP-Tree构建与超集检测是多数基于FP-Tree最大频繁项集挖掘算法的主要性能瓶颈。为此,提出一种基于Nodeset的最大频繁项集挖掘算法——MFIN算法。该算法采用Nodeset数据结构对POC-Tree的节点编码,将集合枚举树作为搜索空间,避免递归遍历和条件FP-Tree构建的时间开销。设计提前停止方法提高求解Nodeset交集的效率,采用父等价剪枝技术和前瞻剪枝技术缩小搜索空间。对基于MFI-Tree的投影策略进行改进,提升超集检测的速度。实验结果表明,MFIN算法在mushroom,pumsb,webdocs数据集上的运行时间及执行效率等总体性能明显优于基于FP-Tree的FP-Max算法。 展开更多
关键词 最大频繁项集 关联规则 剪枝技术 前缀树 超集检测
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部