期刊文献+
共找到256篇文章
< 1 2 13 >
每页显示 20 50 100
数据挖掘中关联规则挖掘算法比较研究 被引量:36
1
作者 何小东 刘卫国 《计算机工程与设计》 CSCD 北大核心 2005年第5期1265-1268,共4页
分析数据挖掘中关联规则挖掘算法的研究现状,提出关联规则新的价值衡量方法和关联规则挖掘今后进一步的研究方向。以核心Apriori算法为基点,运用文献查询和比较分析方法对典型的关联规则挖掘算法进行了综合研究:①Apriori方法即使进行... 分析数据挖掘中关联规则挖掘算法的研究现状,提出关联规则新的价值衡量方法和关联规则挖掘今后进一步的研究方向。以核心Apriori算法为基点,运用文献查询和比较分析方法对典型的关联规则挖掘算法进行了综合研究:①Apriori方法即使进行了优化,一些固有的缺陷仍然无法克服,还需进一步研究;②今后的研究方向将是提高处理极大量数据和非结构化数据算法的效率、与OLAP相结合以及生成结果的可视化。 展开更多
关键词 数据挖掘 关联规则 算法 频集
下载PDF
约束关联规则的增量式维护算法 被引量:7
2
作者 寇育敬 王春花 黄厚宽 《计算机研究与发展》 EI CSCD 北大核心 2001年第8期947-951,共5页
关联规则的挖掘是一个重要的数据挖掘问题 ,在关联规则的挖掘过程中加入约束条件 ,是实现用户参与挖掘的一种方式 .在有约束的关联规则挖掘过程中 ,用户会不断调整约束条件 ,并要求更新挖掘结果 .针对这种情况 ,提出了约束关联规则的增... 关联规则的挖掘是一个重要的数据挖掘问题 ,在关联规则的挖掘过程中加入约束条件 ,是实现用户参与挖掘的一种方式 .在有约束的关联规则挖掘过程中 ,用户会不断调整约束条件 ,并要求更新挖掘结果 .针对这种情况 ,提出了约束关联规则的增量式维护算法 Separate M,当约束条件发生变化时 ,在原有挖掘结果的基础上实现增量式更新 ,较重新运行 Separate算法而言 ,减小了搜索空间 ,节约了时间 。 展开更多
关键词 数据挖掘 关联规则 数据库 增量式维护算法 知识发现
下载PDF
基于二进制编码的Apriori改进算法 被引量:16
3
作者 胡世昌 李劲华 王常颖 《计算机应用研究》 CSCD 北大核心 2020年第2期398-400,423,共4页
Apriori算法在挖掘频繁项集时需要多次扫描数据库,这样会因为频繁的IO操作而导致效率低下。为了改进算法的执行效率,提出BE-Apriori(binary encoded Apriori)算法,其充分利用了二进制数相比编程语言中各种数据结构在内存及运算速度上的... Apriori算法在挖掘频繁项集时需要多次扫描数据库,这样会因为频繁的IO操作而导致效率低下。为了改进算法的执行效率,提出BE-Apriori(binary encoded Apriori)算法,其充分利用了二进制数相比编程语言中各种数据结构在内存及运算速度上的优势,对事务记录进行二进制编码后加载到内存,然后利用等效的二进制数之间运算代替集合之间的运算。分析了算法性能,并利用UCI数据集中的毒蘑菇数据对BE-Apriori算法进行实验验证。结果表明BE-Apriori可以正确挖掘频繁项集,并且相比Apriori算法有着更好的性能。 展开更多
关键词 频繁项集 集合运算 二进制 APRIORI算法
下载PDF
一种量化关联规则挖掘算法 被引量:10
4
作者 佟强 周园春 +1 位作者 吴开超 阎保平 《计算机工程》 CAS CSCD 北大核心 2007年第10期34-35,69,共3页
提出了一种新的挖掘量化关联规则的方法。该方法使用聚类算法把数据库中的交易记录分成若干个簇,把簇投影到数值型属性所在的域,形成重叠的、有意义的区间。实验结果显示,这种方法能够有效地挖掘量化关联规则,并且能够发现以前的算法可... 提出了一种新的挖掘量化关联规则的方法。该方法使用聚类算法把数据库中的交易记录分成若干个簇,把簇投影到数值型属性所在的域,形成重叠的、有意义的区间。实验结果显示,这种方法能够有效地挖掘量化关联规则,并且能够发现以前的算法可能遗漏的重要的规则。 展开更多
关键词 数据挖掘 量化关联规则 频集 聚类
下载PDF
基于FP-Growth算法和GRNN的电力知识文本挖掘 被引量:9
5
作者 白勇 张占龙 熊隽迪 《计算机科学》 CSCD 北大核心 2021年第8期86-90,共5页
为了提高电力知识文本挖掘的性能,采用FP-Growth算法对影响电力需求的强关联因素进行挖掘,运用广义回归神经网络(General Regression Neural Network,GRNN)算法实现电力需求预测。首先,对待挖掘的电力文本进行指标提取并编码,生成电力... 为了提高电力知识文本挖掘的性能,采用FP-Growth算法对影响电力需求的强关联因素进行挖掘,运用广义回归神经网络(General Regression Neural Network,GRNN)算法实现电力需求预测。首先,对待挖掘的电力文本进行指标提取并编码,生成电力文本初始FP-Tree;接着采用FP-Growth算法遍历所有FP-Tree,生成频繁集,过滤掉小于最小支持度的项,留下频数较高的频繁项;然后根据更新后的FP-Tree统计关联项,选择与总用电量增长率关联强的变量生成训练样本;最后采用GRNN算法对电力需求文本进行训练,输入电力需求预测样本,设置平滑因子,通过模式层的输出和加权求和来获得电力需求预测结果。实验结果证明,通过合理设置最小支持度和GRNN的平滑因子,能够获得较好的电力文本挖掘性能,与常用挖掘算法相比,所提算法能够获得更高的电力需求预测准确率。 展开更多
关键词 电力文本挖掘 FP-GROWTH算法 广义回归神经网络 平滑因子 频繁集
下载PDF
基于数据流的频繁集挖掘 被引量:5
6
作者 徐利军 谢康林 徐虹 《上海交通大学学报》 EI CAS CSCD 北大核心 2006年第3期502-506,共5页
针对数据流特殊的数据类型,提出了一种新的数据流挖掘算法.该算法引入了一个全新的优化方法,将边界集和频繁产生集结合起来.频繁产生集是频繁集的一种无损简缩表达方式.它所包含的模式数量比频繁集所包含的模式数量小若干数量级.边界集... 针对数据流特殊的数据类型,提出了一种新的数据流挖掘算法.该算法引入了一个全新的优化方法,将边界集和频繁产生集结合起来.频繁产生集是频繁集的一种无损简缩表达方式.它所包含的模式数量比频繁集所包含的模式数量小若干数量级.边界集是频繁产生模式和其他模式之间的边界,通过观察边界集的变化可以生成新的频繁产生模式.实验结果表明,该算法的性能有明显的提高. 展开更多
关键词 数据流 数据挖掘 频繁模式 边界集
下载PDF
基于频繁链表的频繁集的挖掘算法 被引量:5
7
作者 袁鼎荣 张师超 《计算机科学》 CSCD 北大核心 2003年第7期165-166,共2页
The problem of mining frequent set is a key issue in data mining. In this paper, a new method of miningfrequent set based on the frequent link is proposed. The algorithm constructs alternate frequent link from the tra... The problem of mining frequent set is a key issue in data mining. In this paper, a new method of miningfrequent set based on the frequent link is proposed. The algorithm constructs alternate frequent link from the transac-tion, the alternate link is yielded by adding up the alternate frequent link which constructed by scanning the transac-tion database in proper order. The frequent link that comprises all the information is constructed with the frequentnode which is selected according requirement. Our algorithm need to scan the transaction database only once and easysupervises the change of frequent set in order to guarantee the right of association rule. 展开更多
关键词 数据库 频繁集 数据挖掘算法 频繁链表 事物数据库 FL-Generation算法
下载PDF
基于事务数据库的关联规则采掘算法研究 被引量:5
8
作者 向阳 张巍 《山东科技大学学报(自然科学版)》 CAS 2001年第2期55-59,共5页
采掘关联规则是知识发现领域的一个重要问题 ,文中对采掘关联规则问题进行了简单的回顾 ,分析了传统的关联规则Apriori算法的优缺点 ,设计了一种基于事务数据库的快速采掘算法TB -MA。实例证明 ,与Apriori算法相比 ,TB -MA算法削减了数... 采掘关联规则是知识发现领域的一个重要问题 ,文中对采掘关联规则问题进行了简单的回顾 ,分析了传统的关联规则Apriori算法的优缺点 ,设计了一种基于事务数据库的快速采掘算法TB -MA。实例证明 ,与Apriori算法相比 ,TB -MA算法削减了数据库遍历次数 ,提高了采掘效率 。 展开更多
关键词 关联规则 频繁集 可辨识向量 可辨识矩阵 事务数据库 数据采掘 知识发现 TB-MA算法
下载PDF
SparkSql上自适应数据集的高效频繁集挖掘算法 被引量:6
9
作者 王永贵 郭昕彤 《计算机工程与应用》 CSCD 北大核心 2020年第21期72-78,共7页
针对基于Spark框架的关联规则算法存在I/O开销大、数据结构和挖掘频繁集方式单一、计算支持度的方式效率低等问题,提出基于SparkSql进行分布式编程的算法。将数据集加载到DataFrame,利用改进后的布隆过滤器高效存储频繁集挖掘过程中产... 针对基于Spark框架的关联规则算法存在I/O开销大、数据结构和挖掘频繁集方式单一、计算支持度的方式效率低等问题,提出基于SparkSql进行分布式编程的算法。将数据集加载到DataFrame,利用改进后的布隆过滤器高效存储频繁集挖掘过程中产生的项集,解决RDD内存资源和计算速度受限问题。基于先验定理对事务、项目和项集进行精简,同时提出用Sql语句对项集中项目对应事务集合求交集的方式计算项集支持度,提高计算支持度的效率。提出了两种迭代算法和自适应数据的选择条件,增强该算法对各种数据集的泛化性。进行多组实验,证明提出的算法总是自适应本次迭代数据的特点选择最优的迭代方法,同时具有较高并行算法性能,可以扩展到更大规模集群和数据;同基于Spark框架的关联规则算法YAFIM和R-Apriori进行对比,在每次迭代和总体运行计算效率上有更好的表现。 展开更多
关键词 频繁集 大数据 候选集 自适应数据 布隆过滤器 SparkSql
下载PDF
基于数据报指纹关系的未知协议识别与发现 被引量:5
10
作者 宋疆 张春瑞 +2 位作者 张楠 李芬 吴艳梅 《计算机应用研究》 CSCD 北大核心 2012年第12期4604-4606,4614,共4页
目前,关于窃密防范措施基本上只针对已知协议,为了保证网络的安全运行以及对攻击与危害行为的预警,迫切需要在当前结构复杂的网络环境下为决策者准确提供一种能高效地对未知协议进行识别的方法。为此,在整合已有的网络安全和数据挖掘技... 目前,关于窃密防范措施基本上只针对已知协议,为了保证网络的安全运行以及对攻击与危害行为的预警,迫切需要在当前结构复杂的网络环境下为决策者准确提供一种能高效地对未知协议进行识别的方法。为此,在整合已有的网络安全和数据挖掘技术的基础上,设计了基于数据报指纹关系的未知协议识别发现的解决方案。 展开更多
关键词 无线数据获取 机器学习 频繁集 指纹特征
下载PDF
Bit Stream Oriented Enumeration Tree Pruning Algorithm
11
作者 邱卫东 金凌 +1 位作者 杨小牛 杨红娃 《Journal of Shanghai Jiaotong university(Science)》 EI 2011年第5期567-570,共4页
Packet analysis is very important in our digital life. But what protocol analyzers can do is limited because they can only process data in determined format. This paper puts forward a solution to decode raw data in an... Packet analysis is very important in our digital life. But what protocol analyzers can do is limited because they can only process data in determined format. This paper puts forward a solution to decode raw data in an unknown format. It is certain that data can be cut into packets because there are usually characteristic bit sequences in packet headers. The key to solve the problem is how to find out those characteristic sequences. We present an efficient way of bit sequence enumeration. Both Aho-Corasick (AC) algorithm and data mining method are used to reduce the cost of the process. 展开更多
关键词 pattern matching data mining frequent set frequent sequence association rule
原文传递
大数据下的一种挖掘算法的研究 被引量:3
12
作者 谢胡林 《科技通报》 2019年第8期172-176,共5页
在大数据背景下进行数据挖掘越来越受到重视,针对Apriori挖掘算法中存在消耗时间长,算法效率低的特点,采用添加数据库、改进频繁1-项集,改进频繁2-项集和引入动态存储空间等措施,提高Apriori算法的性能,仿真实验中,本文算法在时间消耗、... 在大数据背景下进行数据挖掘越来越受到重视,针对Apriori挖掘算法中存在消耗时间长,算法效率低的特点,采用添加数据库、改进频繁1-项集,改进频繁2-项集和引入动态存储空间等措施,提高Apriori算法的性能,仿真实验中,本文算法在时间消耗、CPU耗能和挖掘效果上都取得了良好的效果。 展开更多
关键词 APRIORI算法 数据挖掘 频繁集
下载PDF
面向二进制数据帧的聚类系统 被引量:3
13
作者 岳旸 孟凡治 +1 位作者 张春瑞 李桐 《计算机应用研究》 CSCD 北大核心 2015年第3期909-911,916,共4页
为了分离复杂无线网络环境下获取到的二进制数据帧,为后续协议逆向解析提供前提条件,实现了对复杂协议簇协议的聚类系统。首先使用AC算法挖掘出二进制数据帧中的频繁序列特征;然后创新地使用了Apriori算法搜索分析这些特征的关联关系,... 为了分离复杂无线网络环境下获取到的二进制数据帧,为后续协议逆向解析提供前提条件,实现了对复杂协议簇协议的聚类系统。首先使用AC算法挖掘出二进制数据帧中的频繁序列特征;然后创新地使用了Apriori算法搜索分析这些特征的关联关系,并且结合二进制流数据帧的特点对结果进行了四步剪枝处理;最后利用筛选出的特征通过改进的K-means算法进行聚类。实验表明,该系统可以对二进制协议数据帧的聚类起到很好的效果,同时对存在TYPE字段的多层协议簇,还能进一步区分出多种协议间的层次关系。 展开更多
关键词 协议逆向工程 无线网络 协议帧聚类 频繁序列 AC算法 APRIORI算法 K-MEANS算法
下载PDF
基于过滤器的Web访问模式挖掘 被引量:2
14
作者 佟强 周园春 +1 位作者 吴开超 阎保平 《计算机工程》 CAS CSCD 北大核心 2007年第6期59-61,共3页
针对传统Web访问模式挖掘系统中用户识别和会话识别的复杂性和不准确性,该文提出了基于过滤器的Web访问模式挖掘系统。它能够准确地识别用户和会话,为挖掘算法提供优质的数据。给出了日志过滤器的实现和部署,提出了Web访问模式的挖掘算... 针对传统Web访问模式挖掘系统中用户识别和会话识别的复杂性和不准确性,该文提出了基于过滤器的Web访问模式挖掘系统。它能够准确地识别用户和会话,为挖掘算法提供优质的数据。给出了日志过滤器的实现和部署,提出了Web访问模式的挖掘算法。目前该方法已经广泛地应用于科学数据库系统中。 展开更多
关键词 数据挖掘 WEB日志 访问模式 频集
下载PDF
基于相邻模式段组合的生物序列模式挖掘算法 被引量:1
15
作者 王淼 尚学群 薛贺 《计算机工程与应用》 CSCD 北大核心 2008年第2期190-193,共4页
传统的序列模式挖掘算法应用在生物序列上有其局限性,根据生物序列的特点,提出了基于相邻频繁模式段的模式挖掘算法-JPS。首先产生相邻频繁模式段,然后对这些频繁模式段进行组合,产生新的频繁模式。通过实验分析,该方法在相似性很强的... 传统的序列模式挖掘算法应用在生物序列上有其局限性,根据生物序列的特点,提出了基于相邻频繁模式段的模式挖掘算法-JPS。首先产生相邻频繁模式段,然后对这些频繁模式段进行组合,产生新的频繁模式。通过实验分析,该方法在相似性很强的序列数据库中比传统的PrefixSpan算法效率高。通过对真实的蛋白质序列家族库的处理,证明该算法能有效处理生物序列数据。 展开更多
关键词 前缀 频繁集 相邻频繁模式段 模式组合
下载PDF
一种新的频繁集的挖掘算法
16
作者 韦煜明 袁鼎荣 陈宏朝 《广西工学院学报》 CAS 2003年第2期38-41,共4页
频繁集的挖掘问题是数据挖掘的关键问题 ,本文提出了一种基于频繁树的挖掘频繁集的新方法 ,该算法从频繁项开始搜索、筛选产生符合要求的频繁结点 ,构成频繁树 ,通过有效的筛选方法和独特的构成策略 ,大大的减少了候选集的数量 。
关键词 频繁集 挖掘算法 数据挖掘 频繁树 频繁项 候选集 结点 关联规则
下载PDF
序列模式挖掘算法在生物序列的应用研究 被引量:2
17
作者 董萍 《长春师范学院学报(自然科学版)》 2008年第1期35-37,共3页
生物序列相对于传统序列来说具有自己的特征。不同的序列模式挖掘算法应用到生物序列中有不同的特点和效率。本文分析目前比较流行的五种模式挖掘算法的运行过程,当应用到生物序列中时,分析了各个算法的性能,从而可以得出哪种算法更适... 生物序列相对于传统序列来说具有自己的特征。不同的序列模式挖掘算法应用到生物序列中有不同的特点和效率。本文分析目前比较流行的五种模式挖掘算法的运行过程,当应用到生物序列中时,分析了各个算法的性能,从而可以得出哪种算法更适应于不同类型的生物序列频繁模式挖掘。 展开更多
关键词 模式挖掘 生物序列 频繁集
下载PDF
内存数据库中图论频繁模式挖掘方法仿真 被引量:2
18
作者 叶符明 李雯婷 《计算机仿真》 北大核心 2019年第10期458-461,471,共5页
为解决当前内存数据库中图论频繁模式挖掘方法存在的运行时间较长、挖掘结果准确率较低及内存利用率较低的问题,提出基于次优树的内存数据库中图论频繁模式挖掘方法.给出频繁子图判定方法,结合FFSM算法,利用图顶点的邻接矩阵进行图论频... 为解决当前内存数据库中图论频繁模式挖掘方法存在的运行时间较长、挖掘结果准确率较低及内存利用率较低的问题,提出基于次优树的内存数据库中图论频繁模式挖掘方法.给出频繁子图判定方法,结合FFSM算法,利用图顶点的邻接矩阵进行图论频繁模式候选子图生长,并将候选频繁子图的边与顶点标签存储到对应矩阵中,得到频繁子图次优树;分析图论频繁模式的性质,构建频繁子图削减规则,对所得次优树中的候选频繁子图进行遍历搜索与删减.根据图论频繁模式置信度下限计算结果与频繁项的序,按顺序排列删减优化后的频繁子图,结合频繁模式项目集与支持度对比,完成图论频繁模式挖掘.实验结果表明,相比于现有方法,所提方法挖掘准确率最低为97.22%,比现有方法更高;对于内存空间的利用率明显提高,且耗时更短,工作效率更高.综上所述,所提方法整体更具优势. 展开更多
关键词 内存数据库 图挖掘 频繁模式 规则 项目集
下载PDF
一种并行化的分组关联规则算法 被引量:1
19
作者 张伟 郑涛 李辉 《计算机工程》 CAS CSCD 北大核心 2004年第22期84-85,100,共3页
提出一种通过分组达到并行化的改进Apriori算法,研究了分组的构造以及分组后因连接步和剪枝步的简化而达到的效率的提高。对于算法中涉及的原理给予了完整的论证并结合实例给出了改进算法的实现步骤。结果表明,改进算法通过连接步和修... 提出一种通过分组达到并行化的改进Apriori算法,研究了分组的构造以及分组后因连接步和剪枝步的简化而达到的效率的提高。对于算法中涉及的原理给予了完整的论证并结合实例给出了改进算法的实现步骤。结果表明,改进算法通过连接步和修剪步的简化大大地提高了规则发现的效率,并可以很方便地达到并行化。 展开更多
关键词 数据库 数据挖掘 并行化 分组关联规则算法 APRIORI算法
下载PDF
Apriori算法的一种改进研究 被引量:1
20
作者 余平 汪继文 《廊坊师范学院学报(自然科学版)》 2009年第4期18-19,23,共3页
挖掘频繁项集是近年数据挖掘任务中的关键问题,提高频繁项集的生成效率一直是数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进行改进以提高算法的效率。文章通过集合的交集运算,得到一种新的频繁项集挖掘算法-SetFIS算法,该... 挖掘频繁项集是近年数据挖掘任务中的关键问题,提高频繁项集的生成效率一直是数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进行改进以提高算法的效率。文章通过集合的交集运算,得到一种新的频繁项集挖掘算法-SetFIS算法,该算法能快速、直观地求出事务数据库的频繁项集。 展开更多
关键词 关联规则 频繁项集 集合 setFIS算法
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部