期刊文献+
共找到109篇文章
< 1 2 6 >
每页显示 20 50 100
利用决策树进行数据挖掘中的信息熵计算 被引量:30
1
作者 张维东 张凯 +1 位作者 董青 孙维华 《计算机工程》 CAS CSCD 北大核心 2001年第3期71-72,89,共3页
介绍了怎样通过信息量或熵的比较来构造一个决策树的数据挖掘算法,并且就一些特殊的地方进行了讨论分析,例如怎样处理高分枝属性、数值属性和缺失数据以及怎样剪枝.利用模型系统的一些源代码来具体地实现算法中的一些模块,并且描述... 介绍了怎样通过信息量或熵的比较来构造一个决策树的数据挖掘算法,并且就一些特殊的地方进行了讨论分析,例如怎样处理高分枝属性、数值属性和缺失数据以及怎样剪枝.利用模型系统的一些源代码来具体地实现算法中的一些模块,并且描述了国内外的有关数据挖掘的研究情况. 展开更多
关键词 数据挖掘 决策树 信息量 信息熵 人工智能 数据库
下载PDF
决策树剪枝方法的比较 被引量:43
2
作者 魏红宁 《西南交通大学学报》 EI CSCD 北大核心 2005年第1期44-48,共5页
为在决策树剪枝中正确选择剪枝方法,基于理论分析和算例详细地比较了当前主要的4种剪枝方法的计算复杂性、剪枝方式、误差估计和理论基础.与PEP相比,MEP产生的树精度较小且树较大;REP是最简单的剪枝方法之一,但需要独立剪枝集;在同样精... 为在决策树剪枝中正确选择剪枝方法,基于理论分析和算例详细地比较了当前主要的4种剪枝方法的计算复杂性、剪枝方式、误差估计和理论基础.与PEP相比,MEP产生的树精度较小且树较大;REP是最简单的剪枝方法之一,但需要独立剪枝集;在同样精度情况下,CCP比REP产生的树小.如果训练数据集丰富,可以选择REP,如果训练数据集较少且剪枝精度要求较高,则可以选用PEP. 展开更多
关键词 数据挖掘 决策树 事后剪枝 PEP MEP REP CCP
下载PDF
决策树ID3算法的分析与改进 被引量:38
3
作者 王小巍 蒋玉明 《计算机工程与设计》 CSCD 北大核心 2011年第9期3069-3072,3076,共5页
为了弥补ID3算法[1-3]的缺点及不足,设计了一种基于ID3算法的改进算法。它使用修正参数修正信息增益,克服了ID3算法偏向于选择取值较多的属性这一缺点,对连续值的属性进行离散化,解决了连续属性的处理问题,通过有未知值的样本是按照已... 为了弥补ID3算法[1-3]的缺点及不足,设计了一种基于ID3算法的改进算法。它使用修正参数修正信息增益,克服了ID3算法偏向于选择取值较多的属性这一缺点,对连续值的属性进行离散化,解决了连续属性的处理问题,通过有未知值的样本是按照已知值的相对频率随机分布的思想,可以处理缺少属性值的样本。描述了通过改进的ID3算法生成决策树[4]的具体步骤,将改进算法应用到了客户关系管理系统中的客户流失分析问题当中。通过对实验结果的分析比较,得到改进算法与原ID3算法相比具有更高的预测准确率,表明了该算法的有效性。 展开更多
关键词 数据挖掘 决策树 ID3算法 聚类 剪枝
下载PDF
利用模糊神经网络进行数据挖掘的一种算法 被引量:17
4
作者 熊熊 汪德馨 宋轶民 《系统工程学报》 CSCD 2000年第1期32-37,共6页
研究把模糊神经网络结合进数据挖掘的方法 .经过模糊神经网络的建立、训练达到精度要求、网络的裁剪、隐节点激活值的聚类和规则提取的步骤 ,达到通过模糊神经网络方法从数据库中提取知识的目的 。
关键词 数据挖掘 模糊神经网络 算法 数据库系统
下载PDF
基于距离的不确定离群点检测 被引量:20
5
作者 于浩 王斌 +1 位作者 肖刚 杨晓春 《计算机研究与发展》 EI CSCD 北大核心 2010年第3期474-484,共11页
在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术.这项技术在确定性数据中已经得到了深入的研究,但在新兴的不确定数据领域却是一项新的研究课题.在无线传感器网络、数据集成和数据挖掘等... 在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术.这项技术在确定性数据中已经得到了深入的研究,但在新兴的不确定数据领域却是一项新的研究课题.在无线传感器网络、数据集成和数据挖掘等技术中使用不确定数据模型更能真实反映现实世界,进一步提高这些技术的实际可行性.针对不确定数据,提出新的离群点定义.提出基于距离的不确定数据离群点检测的高效过滤方法,包括基础过滤方法b-RFA和改进方法o-RFA,最后提出高效概率计算方法DPA.b-RFA方法利用非离群点的过滤性质,减少检测次数.o-RFA方法通过挖掘数据分布信息对b-RFA方法作出改进,进一步提高过滤效率.DPA方法找到概率求解中的递推规律,极大提高了单点检测效率.实验结果显示:提出的方法可以有效地减少候选集,降低搜索空间,改善在不确定数据上的查询性能. 展开更多
关键词 不确定数据 离群点检测 过滤方法 高效 不确定数据模型
下载PDF
一种基于多重聚类的离群点检测算法 被引量:21
6
作者 古平 刘海波 罗志恒 《计算机应用研究》 CSCD 北大核心 2013年第3期751-753,756,共4页
在LDOF算法的基础上,提出一种基于多重聚类的离群点检测算法PMLDOF。该算法针对局部离群度量计算量大的缺点,采用聚类剪枝技术作为减少计算量的方法;同时,为了避免将位于簇边缘的离群点错剪,算法利用多重聚类的差异性对簇的边缘点进行... 在LDOF算法的基础上,提出一种基于多重聚类的离群点检测算法PMLDOF。该算法针对局部离群度量计算量大的缺点,采用聚类剪枝技术作为减少计算量的方法;同时,为了避免将位于簇边缘的离群点错剪,算法利用多重聚类的差异性对簇的边缘点进行筛选。在对数据集进行剪枝后,计算剩余数据的局部离群度LDOF,并找出符合条件的离群数据点。实验结果表明,算法在时间复杂度和检测精度上具有更好的优越性。 展开更多
关键词 数据挖掘 离群检测 剪枝 多重聚类 局部离群度
下载PDF
从不确定数据集中挖掘频繁Co-location模式 被引量:20
7
作者 陆叶 王丽珍 张晓峰 《计算机科学与探索》 CSCD 2009年第6期656-664,共9页
把挖掘频繁co-location模式的经典算法Join-based算法扩展到了UJoin-based算法,解决了从不确定数据集中挖掘频繁co-location模式的问题。针对UJoin-based算法中ED(expected distances)计算开销大的问题,介绍了两种剪枝技术:边界矩形剪... 把挖掘频繁co-location模式的经典算法Join-based算法扩展到了UJoin-based算法,解决了从不确定数据集中挖掘频繁co-location模式的问题。针对UJoin-based算法中ED(expected distances)计算开销大的问题,介绍了两种剪枝技术:边界矩形剪枝技术和三角不等式剪枝技术,其中,在三角不等式剪枝部分,分别讨论了取1个锚点、5个锚点和9个锚点的不同情况。通过大量实验证明了剪枝策略有效避免了大量的ED计算,提高了算法的效率。 展开更多
关键词 不确定数据 co—location模式 UJoin—based算法 边界矩形剪枝 三角不等式剪枝
下载PDF
基于动态剪枝的关联规则挖掘算法 被引量:16
8
作者 皮德常 秦小麟 王宁生 《小型微型计算机系统》 CSCD 北大核心 2004年第10期1850-1852,共3页
介绍了目前关联规则挖掘的研究工作 .分两个部分提出了基于动态剪枝的关联规则发现方法 .讨论了如何实施动态剪枝 ,给出了一个基于三元组结构的树式存储结构 ,在此基础上描述了交易数据库中知识发现算法 .并将提出的方法与关联规则挖掘... 介绍了目前关联规则挖掘的研究工作 .分两个部分提出了基于动态剪枝的关联规则发现方法 .讨论了如何实施动态剪枝 ,给出了一个基于三元组结构的树式存储结构 ,在此基础上描述了交易数据库中知识发现算法 .并将提出的方法与关联规则挖掘中具有里程碑意义的 Apriori算法进行了对比分析 ,给出了相应的分析结果 。 展开更多
关键词 数据挖掘 关联规则 动态剪枝
下载PDF
TKEP:海量数据上一种有效的Top-K查询处理算法 被引量:16
9
作者 韩希先 杨东华 李建中 《计算机学报》 EI CSCD 北大核心 2010年第8期1405-1417,共13页
在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的场合.文中详细地分... 在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的场合.文中详细地分析了NRA算法的执行行为,确定了增长阶段和收缩阶段中每个文件需要扫描的元组个数.文中发现在海量数据环境中,NRA在增长阶段需要维护大量的候选元组,严重影响了算法的执行效率.所以,文中提出一种新的海量数据上的top-k查询算法TKEP,该算法在查询的增长阶段就执行早剪切,从而大大减少增长阶段需要维护的候选元组.文中给出了早剪切操作的数学分析,确定了早剪切操作的理论和实际剪切效果.据作者所知,该文是第一篇提出在top-k查询的增长阶段执行早剪切的文章.实验结果表明,和传统的NRA相比,TKEP在增长阶段维护的元组数量减少3个数量级,需要的内存量减少1个数量级,TKEP算法获得1个数量级的加速比. 展开更多
关键词 海量数据 TOP-K 早剪切 TKEP
下载PDF
频繁项集挖掘的研究与进展 被引量:10
10
作者 陈慧萍 王建东 王煜 《计算机仿真》 CSCD 2006年第4期68-73,共6页
挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,所以提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进行改进以提高算法的效率。该文从频繁项集生成过程中解空... 挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,所以提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进行改进以提高算法的效率。该文从频繁项集生成过程中解空间的类型、搜索方法和剪枝策略、数据库的表示方法、数据压缩技术等几个方面对频繁项集挖掘的基本策略进行了研究,对完全频繁项集挖掘、频繁闭项集挖掘和最大频繁项集挖掘的典型算法特别是最新算法进行了介绍和评述,并分析了各种算法的性能特点,指出其适于哪种类型的数据集。最后,对频繁项集挖掘算法的发展方向进行了初步的探讨。 展开更多
关键词 数据挖掘 频繁项集 搜索方法 剪枝策略
下载PDF
基于特征蒸馏的改进Ghost-YOLOv5红外目标检测算法 被引量:14
11
作者 李北明 金荣璐 +2 位作者 徐召飞 刘晴 王水根 《郑州大学学报(工学版)》 CAS 北大核心 2022年第1期20-26,共7页
针对红外目标检测模型YOLOv5s实时性差、计算复杂度高的问题,提出了一种基于特征蒸馏的改进Ghost-YOLOv5红外目标检测算法。首先,利用GhostNet模块作模型剪枝;其次,使用特征蒸馏方法以及Mosaic和Copy-paste两种数据增强方法提高模型的... 针对红外目标检测模型YOLOv5s实时性差、计算复杂度高的问题,提出了一种基于特征蒸馏的改进Ghost-YOLOv5红外目标检测算法。首先,利用GhostNet模块作模型剪枝;其次,使用特征蒸馏方法以及Mosaic和Copy-paste两种数据增强方法提高模型的检测精度;第三,构建了一个包含多种场景下人、机动车和非机动车目标的红外安防领域数据集。在数据集上测试实验结果表明:所提算法利用Ghost模块得到的模型参数量仅1.9 M,并通过知识蒸馏和数据增强的方法,使得模型在红外数据集上的精度提升了6.6%,总体mAP达到了90.1%。在海思平台上实测,模型的检测速度能达到25帧/s,平均检测精度能达到90.2%,与多种可移植于该平台的常用模型相比,均取得了更高的检测精度。 展开更多
关键词 红外目标检测 数据增强 模型剪枝 特征蒸馏 海思平台
下载PDF
基于不确定数据的频繁项查询算法 被引量:10
12
作者 王爽 杨广明 朱志良 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第3期344-347,共4页
频繁项的查询是一项非常重要的技术,但在新兴的不确定数据领域却是一项新的研究课题.基于不确定数据,提出了一种新的频繁项定义,并提出了两条过滤规则,可以有效地减少检测数据的数量.最后提出高效的频繁项查询算法UFI,该算法通过找到概... 频繁项的查询是一项非常重要的技术,但在新兴的不确定数据领域却是一项新的研究课题.基于不确定数据,提出了一种新的频繁项定义,并提出了两条过滤规则,可以有效地减少检测数据的数量.最后提出高效的频繁项查询算法UFI,该算法通过找到概率求解中的递推规律,极大提高了单点检测效率.实验结果显示:提出的方法可以有效地减少候选集,降低搜索空间,改善在不确定数据上的查询性能. 展开更多
关键词 频繁项 不确定数据 剪枝规则 不确定数据模型 查询处理
下载PDF
基于DHP的频繁遍历路径挖掘算法 被引量:5
13
作者 王涛伟 周必水 《杭州电子科技大学学报(自然科学版)》 2005年第5期60-63,共4页
大量的候选项集是挖掘路径遍历模式中的主要问题。针对这个问题,提出了基于DHP算法的路径遍历算法,通过使用哈希技术在产生侯选项集时删除不满足条件的项目,这种方法特别是在产生候选2-项目时效率非常高,这样很好的解决了整个处理过程... 大量的候选项集是挖掘路径遍历模式中的主要问题。针对这个问题,提出了基于DHP算法的路径遍历算法,通过使用哈希技术在产生侯选项集时删除不满足条件的项目,这种方法特别是在产生候选2-项目时效率非常高,这样很好的解决了整个处理过程的性能瓶颈。另外,使用了整枝技术使事务数据库的大小在每次扫描后迅速减小。实验结果表明,基于DHP的频繁遍历路径算法在挖掘频繁项目集时是有效的。 展开更多
关键词 频繁遍历路径 数据挖掘 序列模式 关联规则 候选项目集 整枝技术
下载PDF
一种基于树匹配的网页语义块挖掘算法 被引量:7
14
作者 刘守群 朱明 谭晓彬 《小型微型计算机系统》 CSCD 北大核心 2009年第8期1541-1545,共5页
在互联网中,网页等半结构化文本通常由不同的语义区块组合而成,定位和挖掘这类区块对网页内容理解、页面结构分析等有着重要的作用.然而由于不同网页在结构和内容上都存在着较大的区别,准确的从不同的网页中定位特定的结构区域是一个相... 在互联网中,网页等半结构化文本通常由不同的语义区块组合而成,定位和挖掘这类区块对网页内容理解、页面结构分析等有着重要的作用.然而由于不同网页在结构和内容上都存在着较大的区别,准确的从不同的网页中定位特定的结构区域是一个相对复杂的任务.主要提出一种基于树匹配的方法用来挖掘网页中的语义区块,并通过剪枝等策略优化算法.实验表明该方法能有效提高F值,同时算法的性能有较大改善. 展开更多
关键词 编辑距离 树匹配 数据挖掘 剪枝
下载PDF
用遗传算法改进的BP神经网络剪枝算法来优化决策树模型 被引量:8
15
作者 武彤 程辉 《计算机科学》 CSCD 北大核心 2013年第11A期278-280,295,共4页
决策树是一种有效的分类方法,但在构建决策树模型的过程中,常常会出现模型过度拟合的现象。利用基于BP神经网络的决策树剪枝算法(BP-Pruning)进行软剪枝处理,然后根据BP-Pruning的一些不足,提出一种改进算法,简称GBP-Pruning算法。该算... 决策树是一种有效的分类方法,但在构建决策树模型的过程中,常常会出现模型过度拟合的现象。利用基于BP神经网络的决策树剪枝算法(BP-Pruning)进行软剪枝处理,然后根据BP-Pruning的一些不足,提出一种改进算法,简称GBP-Pruning算法。该算法通过引入遗传算法来训练BP-Pruning算法模型中的权值和阈值,从而克服了BPPruning算法上的不足,最后验证了GBP-Pruning算法的可行性。 展开更多
关键词 数据挖掘 决策树 BP神经网络 遗传算法 剪枝算法
下载PDF
一种高效的关联规则维护算法研究与实现 被引量:6
16
作者 郭有强 《计算机技术与发展》 2007年第10期123-126,共4页
关联规则挖掘是数据挖掘领域中的重要研究内容之一。由于数据挖掘的过程是动态交互的,因此对已经发现的关联规则进行维护更新显得非常重要。提出了一种实用的在支持度和置信度不变的情况下数据集规模减小的负增量关联规则维护算法。算... 关联规则挖掘是数据挖掘领域中的重要研究内容之一。由于数据挖掘的过程是动态交互的,因此对已经发现的关联规则进行维护更新显得非常重要。提出了一种实用的在支持度和置信度不变的情况下数据集规模减小的负增量关联规则维护算法。算法在如何减少数据集的扫描次数,如何充分利用现有的信息减少候选集的规模等方面进行了研究,给出了算法的具体实现。理论分析和实验结果表明算法是有效的。 展开更多
关键词 数据挖掘 关联规则 增量维护算法 剪枝
下载PDF
基于卡方分析的关联模式剪枝方法研究 被引量:5
17
作者 徐勇 周森鑫 胡凌云 《计算机工程与设计》 CSCD 北大核心 2006年第15期2753-2755,共3页
关联模式挖掘研究是数据挖掘研究领域的重要分支之一,旨在发现项集之间存在的关联或相关关系。然而,传统的基于支持度—可信度框架的挖掘方法存在着一些不足:一是会产生过多的模式(包括频繁项集和规则);二是挖掘出来的规则有些是用户不... 关联模式挖掘研究是数据挖掘研究领域的重要分支之一,旨在发现项集之间存在的关联或相关关系。然而,传统的基于支持度—可信度框架的挖掘方法存在着一些不足:一是会产生过多的模式(包括频繁项集和规则);二是挖掘出来的规则有些是用户不感兴趣的、无用的,甚至是错误的;所以在挖掘过程中能有效地对无用模式进行剪枝是必要的。将卡方分析引入到模式的相关性度量中,利用卡方检验对项集之间、规则前件与后件之间的相关性进行度量是一种有效的剪枝方法。实验结果分析表明,在支持度度量的基础上引入卡方检验可以有效地对非相关模式进行剪枝,从而减小频繁项集和规则的规模。 展开更多
关键词 数据挖掘 频集 关联模式 卡方分析 剪枝
下载PDF
基于衰减窗口与剪枝维度树的实时数据流聚类 被引量:4
18
作者 张晓龙 曾伟 《计算机应用研究》 CSCD 北大核心 2009年第4期1331-1334,1341,共5页
提出一种基于衰减窗口的实时数据流聚类算法PDStream。算法首先对数据空间进行网格划分,采用改进的维度树结构维护和更新数据流的摘要信息,设计了一种周期性剪枝策略,周期性地剪去维度树中的稀疏网格,最后采用深度优先搜索算法在线处理... 提出一种基于衰减窗口的实时数据流聚类算法PDStream。算法首先对数据空间进行网格划分,采用改进的维度树结构维护和更新数据流的摘要信息,设计了一种周期性剪枝策略,周期性地剪去维度树中的稀疏网格,最后采用深度优先搜索算法在线处理聚类请求。基于人工数据集和真实数据集的实验表明,PDStream算法可以有效地发现数据流中任意形状的聚类,内存消耗少,具有较好的计算精度。 展开更多
关键词 数据流 网格聚类 衰减窗口 维度树 剪枝策略
下载PDF
关联挖掘研究综述 被引量:2
19
作者 王卉 张红君 《软件导刊》 2009年第3期7-8,共2页
数据挖掘是一种重要的数据分析方法,旨在发现庞大的数据中隐藏着的、先前未知的并潜在有用的模式和信息,以帮助人们正确理解和认识数据,进行科学决策。关联挖掘是数据挖掘中研究最早也是最活跃的领域,其中,频繁模式挖掘是关联挖掘的核... 数据挖掘是一种重要的数据分析方法,旨在发现庞大的数据中隐藏着的、先前未知的并潜在有用的模式和信息,以帮助人们正确理解和认识数据,进行科学决策。关联挖掘是数据挖掘中研究最早也是最活跃的领域,其中,频繁模式挖掘是关联挖掘的核心和基础。对关联挖掘算法的研究和发展进行综述,分析挖掘算法面临的主要挑战,概括最新研究进展。 展开更多
关键词 数据挖掘 关联挖掘 剪枝 并行算法
下载PDF
基于方形邻域和裁剪因子的离群点检测方法 被引量:6
20
作者 涂晓敏 石鸿雁 《小型微型计算机系统》 CSCD 北大核心 2019年第1期186-189,共4页
针对改进的局部稀疏系数(Enhanced Local Sparsity Coefficient,简称ELSC)算法在邻域查询过程中存在的不足,以及为了提高算法查准率,提出了一种基于方形邻域和裁剪因子的离群点检测算法.首先采用方形邻域,吸取网格算法的思想,以扩张的... 针对改进的局部稀疏系数(Enhanced Local Sparsity Coefficient,简称ELSC)算法在邻域查询过程中存在的不足,以及为了提高算法查准率,提出了一种基于方形邻域和裁剪因子的离群点检测算法.首先采用方形邻域,吸取网格算法的思想,以扩张的方形邻域代替网格分割,快速地排除聚类点,避免了网格算法的"维灾"问题.其次为了提高算法的精确度,引入裁剪因子的概念对候选离群点集进行精选.最后通过新定义的局部稀疏指数确定离群点.试验测试表明,该算法的执行效率与检测精度均优于ELSC算法. 展开更多
关键词 数据挖掘 离群点 方形邻域 裁剪因子 局部稀疏指数
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部