期刊文献+
共找到137篇文章
< 1 2 7 >
每页显示 20 50 100
不平衡数据分类方法综述 被引量:169
1
作者 李艳霞 柴毅 +1 位作者 胡友强 尹宏鹏 《控制与决策》 EI CSCD 北大核心 2019年第4期673-688,共16页
随着信息技术的快速发展,各领域的数据正以前所未有的速度产生并被广泛收集和存储,如何实现数据的智能化处理从而利用数据中蕴含的有价值信息已成为理论和应用的研究热点.数据分类作为一种基础的数据处理方法,已广泛应用于数据的智能化... 随着信息技术的快速发展,各领域的数据正以前所未有的速度产生并被广泛收集和存储,如何实现数据的智能化处理从而利用数据中蕴含的有价值信息已成为理论和应用的研究热点.数据分类作为一种基础的数据处理方法,已广泛应用于数据的智能化处理.传统分类方法通常假设数据类别分布均衡且错分代价相等,然而,现实中的数据通常具有不平衡特性,即某一类的样本数量要小于其他类的样本数量,且少数类具有更高错分代价.当利用传统的分类算法处理不平衡数据时,由于多数类和少数类在数量上的倾斜,以总体分类精度最大为目标会使得分类模型偏向于多数类而忽略少数类,造成少数类的分类精度较低.如何针对不平衡数据分类问题设计分类算法,同时保证不平衡数据中多数类与少数类的分类精度,已成为机器学习领域的研究热点,并相继出现了一系列优秀的不平衡数据分类方法.鉴于此,对现有的不平衡数据分类方法给出较为全面的梳理,从数据预处理层面、特征层面和分类算法层面总结和比较现有的不平衡数据分类方法,并结合当下机器学习的研究热点,探讨不平衡数据分类方法存在的挑战.最后展望不平衡数据分类未来的研究方向. 展开更多
关键词 不平衡数据 机器学习 分类 深度学习
原文传递
不平衡数据的集成分类算法综述 被引量:75
2
作者 李勇 刘战东 张海军 《计算机应用研究》 CSCD 北大核心 2014年第5期1287-1291,共5页
集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学... 集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学习在不平衡数据分类的优势,针对不平衡数据的集成分类算法得到广泛研究。详细分析了不平衡数据集成分类算法的研究现状,比较了现有算法的差异和各自存在的优点及问题,提出和分析了有待进一步研究的问题。 展开更多
关键词 不平衡数据 集成学习 分类 代价敏感 数据采样
下载PDF
SMOTE过采样及其改进算法研究综述 被引量:62
3
作者 石洪波 陈雨文 陈鑫 《智能系统学报》 CSCD 北大核心 2019年第6期1073-1083,共11页
近年来不平衡分类问题受到广泛关注。SMOTE过采样通过添加生成的少数类样本改变不平衡数据集的数据分布,是改善不平衡数据分类模型性能的流行方法之一。本文首先阐述了SMOTE的原理、算法以及存在的问题,针对SMOTE存在的问题,分别介绍了... 近年来不平衡分类问题受到广泛关注。SMOTE过采样通过添加生成的少数类样本改变不平衡数据集的数据分布,是改善不平衡数据分类模型性能的流行方法之一。本文首先阐述了SMOTE的原理、算法以及存在的问题,针对SMOTE存在的问题,分别介绍了其4种扩展方法和3种应用的相关研究,最后分析了SMOTE应用于大数据、流数据、少量标签数据以及其他类型数据的现有研究和面临的问题,旨在为SMOTE的研究和应用提供有价值的借鉴和参考。 展开更多
关键词 不平衡数据分类 SMOTE 算法 K-NN 过采样 欠采样 高维数据 分类型数据
下载PDF
一种基于Boosting的集成学习算法在不均衡数据中的分类 被引量:60
4
作者 李诒靖 郭海湘 +1 位作者 李亚楠 刘晓 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2016年第1期189-199,共11页
针对多类别不均衡数据的分类问题,从数据集的特征选择和集成学习两个角度出发,提出了一种新的针对不均衡数据的分类方法—BPSO-Adaboost-KNN算法,算法采用基于多分类问题的可视化的AUCarea作为分类评价指标.为了测试算法的性能,本文选取... 针对多类别不均衡数据的分类问题,从数据集的特征选择和集成学习两个角度出发,提出了一种新的针对不均衡数据的分类方法—BPSO-Adaboost-KNN算法,算法采用基于多分类问题的可视化的AUCarea作为分类评价指标.为了测试算法的性能,本文选取了10组UCI和KEEL选取的测试数据集进行测试,结果表明本算法在有效提取关键特征后提高了Adaboost的稳定性,在十组数据的分类精度上相比单纯使用KNN分类器有20%~40%不等的提高.在本算法和其他state-of-the-art集成分类算法对比中,BPSO-Adaboost-KNN能够取得较优或相当的结果.最后,本文将该算法应用到石油储层含油性的识别中,成功提取了声波、孔隙度和含油饱和度三个关键属性,在分类精度上相比传统分类算法有了大幅度提高,在江汉油田五口油井oilsk81~oilsk85上的分类精度均达到98%以上,比单纯使用KNN的精度高出了20%,尤其在最易错分的油层和差油层中有良好的分类效果. 展开更多
关键词 不均衡数据 特征提取 分类 石油储层
原文传递
面向不平衡数据集的机器学习分类策略 被引量:60
5
作者 徐玲玲 迟冬祥 《计算机工程与应用》 CSCD 北大核心 2020年第24期12-27,共16页
由于不平衡数据集的内在固有特性,使得分类结果常受数量较多的类别影响,造成分类性能下降。近年来,为了能够从类别不平衡的数据集中学习数据的内在规律并且挖掘其潜在的价值,提出了一系列基于提升不平衡数据集机器学习分类算法准确率的... 由于不平衡数据集的内在固有特性,使得分类结果常受数量较多的类别影响,造成分类性能下降。近年来,为了能够从类别不平衡的数据集中学习数据的内在规律并且挖掘其潜在的价值,提出了一系列基于提升不平衡数据集机器学习分类算法准确率的研究策略。这些策略主要是立足于数据层面、分类模型改进层面来解决不平衡数据集分类难的困扰。从以上两个方面论述面向不平衡数据集分类问题的机器学习分类策略,分析和讨论了针对不平衡数据集机器学习分类器的评价指标,总结了不平衡数据集分类尚存在的问题,展望了未来能够深入研究的方向。特别的,这些讨论的研究主要关注类别极端不平衡场景下的二分类问题所面临的困难。 展开更多
关键词 不平衡数据集 重采样策略 分类模型 评价指标
下载PDF
不平衡数据分类研究综述 被引量:47
6
作者 赵楠 张小芳 张利军 《计算机科学》 CSCD 北大核心 2018年第B06期22-27,57,共7页
在很多应用领域中,数据的类别分布不平衡,如何对其正确分类是数据挖掘和机器学习领域中的研究热点。经典的数据分类算法未考虑数据类别的不平衡性,认为类别之间的误分类代价相同,导致不平衡数据分类的效果不理想。针对数据分类的各个步... 在很多应用领域中,数据的类别分布不平衡,如何对其正确分类是数据挖掘和机器学习领域中的研究热点。经典的数据分类算法未考虑数据类别的不平衡性,认为类别之间的误分类代价相同,导致不平衡数据分类的效果不理想。针对数据分类的各个步骤,相继提出了不同的不平衡数据分类处理方法。对多年来的相关研究成果进行归类分析,从特征选择、数据分布调整、分类算法、分类结果评估等几个方面系统地介绍了相关方法,并探讨了进一步的探索方向。 展开更多
关键词 不平衡数据分类 不平衡数据的特征选择 不平衡分类评估 数据分布调整 不平衡数据分类算法
下载PDF
面向不均衡医学数据集的疾病预测模型研究 被引量:45
7
作者 陈旭 刘鹏鹤 +5 位作者 孙毓忠 沈曦 张磊 王晓青 孙晓平 程伟 《计算机学报》 EI CSCD 北大核心 2019年第3期596-609,共14页
基于临床表现的疾病预测模型是临床决策支持系统(Clinical Decision Support System,CDSS)的一个重要研究内容.现有临床决策支持系统往往将临床病例作为训练数据集,以临床表现的描述文字为特征,采用统计机器学习方法构建疾病预测模型.然... 基于临床表现的疾病预测模型是临床决策支持系统(Clinical Decision Support System,CDSS)的一个重要研究内容.现有临床决策支持系统往往将临床病例作为训练数据集,以临床表现的描述文字为特征,采用统计机器学习方法构建疾病预测模型.然而,在医疗领域往往存在着样本数据集不均衡的问题,导致模型的预测效果降低.欠采样技术是目前解决样本不均衡问题的常用手段.其主要采用一定的方法从多数类样本中抽取部分样本,与少数类样本组成平衡数据集后再构建模型.现有的欠采样方法往往可以显著提高模型对少数类样本的召回率,然而其通常也会造成模型准确率的降低,从而限制了预测模型的整体提升效果.为此,该文提出了一种新的基于迭代提升欠采样的集成分类方法(Under-Sampling with Iteratively Boosting,USIB),该方法迭代地从多数类样本中进行欠抽样,构建多组弱分类器,并采用加权组合方式将这些弱分类器构成一个强分类器,从而提升样本不平衡条件下单种疾病预测效果.另外,医学病例样本数据集通常是多类别、多标签的,为此,该文将多个单种疾病的预测模型进行组合构成一个多标签疾病预测模型,以满足临床意义上的多病种以及并发症的诊断.为了进一步提升多标签预测模型的效果,该文设计了一种基于标签最大互信息生成树的标签选择方法(Labels Selection method based on Maximum Mutual Information Spanning Tree,LS-MMIST),该方法根据原始数据集的分布构建标签之间的最大互信息生成树,在每一次的样本预测阶段,借助树中疾病标签之间的关系确定最终的预测标签集合.实验方面,该文首先选择三种公开的不均衡二分类数据集和我们私有的四种稀有疾病的数据集,对该文提出的迭代提升欠采样方法进行性能评估.其次,分别对比了该文提出的多标签预测模型与现有的多标签预测技术在 展开更多
关键词 疾病预测 不均衡数据集 欠采样 二分类 多标签分类
下载PDF
面向不平衡数据集的一种精化Borderline-SMOTE方法 被引量:24
8
作者 杨毅 卢诚波 徐根海 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2017年第5期537-544,共8页
合成少数类过采样技术(SMOTE)是一种被广泛使用的用来处理不平衡问题的过采样方法,SMOTE方法通过在少数类样本和它们的近邻间线性插值来实现过采样.Borderline-SMOTE方法在SMOTE方法的基础上进行了改进,只对少数类的边界样本进行过采样... 合成少数类过采样技术(SMOTE)是一种被广泛使用的用来处理不平衡问题的过采样方法,SMOTE方法通过在少数类样本和它们的近邻间线性插值来实现过采样.Borderline-SMOTE方法在SMOTE方法的基础上进行了改进,只对少数类的边界样本进行过采样,从而改善样本的类别分布.通过进一步对边界样本加以区分,对不同的边界样本生成不同数目的合成样本,提出了面向不平衡数据集的一种精化Borderline-SMOTE方法(RB-SMOTE).仿真实验采用支持向量机作为分类器对几种过采样方法进行比较,实验中采用了10个不平衡数据集,它们的不平衡率从0.064 7到0.536 0.实验结果表明:RB-SMOTE方法能有效地改善不平衡数据集的类分布的不平衡性. 展开更多
关键词 不平衡数据集 分类 过采样 支持向量机
下载PDF
连续数据环境下的道路交通事故风险预测模型 被引量:21
9
作者 高珍 高屹 +2 位作者 余荣杰 黄智强 王雪松 《中国公路学报》 EI CAS CSCD 北大核心 2018年第4期280-287,共8页
针对现有研究多基于病例对照的欠采样方法,即每起事故从连续交通流数据中按一定比例抽取对照的非事故数据构建模型,而该类模型在连续数据环境中的预测精度存在缺陷的状况,对城市交通连续观测并动态调控的技术环境(简称连续数据环境)开... 针对现有研究多基于病例对照的欠采样方法,即每起事故从连续交通流数据中按一定比例抽取对照的非事故数据构建模型,而该类模型在连续数据环境中的预测精度存在缺陷的状况,对城市交通连续观测并动态调控的技术环境(简称连续数据环境)开展道路交通事故风险预测模型构建研究。首先提出基于全样本交通流数据,结合"调整事故分类阈值"的方法解决事故风险预测研究中的非平衡数据分类问题;而后采用上海市城市快速路2014年5,6月的线圈检测交通流数据及历史事故数据开展实证研究,以受试者工作特征曲线下面积为评价指标,对比基于全样本和抽样样本构建的常用事故风险预测模型(逻辑回归、随机森林)的整体预测能力;以灵敏度和特异度的几何均数为评价指标,对比3种分类阈值计算方式(约登指数法、事故占比法和交叉点法)对事故/非事故综合预测精度的影响。结果表明:在连续数据环境下,采用全样本数据建模能使模型整体预测能力提高13.06%;基于约登指数法进行分类阈值计算可使模型的事故/非事故综合预测精度最佳。 展开更多
关键词 交通工程 连续数据环境 事故风险预测模型 非平衡数据 二分类阈值 城市快速路
原文传递
基于代价敏感的朴素贝叶斯不平衡数据分类研究 被引量:21
10
作者 蒋盛益 谢照青 余雯 《计算机研究与发展》 EI CSCD 北大核心 2011年第S1期387-390,共4页
传统数据挖掘分类算法在不平衡数据集上分类效果不佳,可以将代价敏感思想与传统分类算法相结合解决不平衡数据分类问题.但在代价敏感学习中,代价的确定需要足够的先验知识,难以把握.针对上述不足,构造针对不平衡数据分布的自适应代价函... 传统数据挖掘分类算法在不平衡数据集上分类效果不佳,可以将代价敏感思想与传统分类算法相结合解决不平衡数据分类问题.但在代价敏感学习中,代价的确定需要足够的先验知识,难以把握.针对上述不足,构造针对不平衡数据分布的自适应代价函数,引进全局代价矩阵,对传统的朴素贝叶斯分类算法进行改进.在UCI数据集上的实验结果表明,提出的基于代价敏感的朴素贝叶斯分类算法对于不平衡数据分类是有效可行的. 展开更多
关键词 代价敏感 朴素贝叶斯 不平衡数据分类
下载PDF
面向不均衡数据集中少数类细分的过采样算法 被引量:20
11
作者 古平 杨炀 《计算机工程》 CAS CSCD 北大核心 2017年第2期241-247,共7页
在不均衡数据集中,少数类样本的分布相对于决策边界具有差异性,而传统的过抽样算法通常并未对差异性做不同处理。为此,提出一种面向不均衡数据集的过采样算法SD-ISMOTE。该算法根据少数类样本的k近邻分布将其细分为DANGER,AL_SAFE,SAFE ... 在不均衡数据集中,少数类样本的分布相对于决策边界具有差异性,而传统的过抽样算法通常并未对差异性做不同处理。为此,提出一种面向不均衡数据集的过采样算法SD-ISMOTE。该算法根据少数类样本的k近邻分布将其细分为DANGER,AL_SAFE,SAFE 3个集合,DANGER和AL_SAFE中的样本更靠近决策边界。借助ISMOTE思想在n维球体内随机插值,扩大两类样本的过采样范围,同时引入轮盘赌选择算法进行采样选择,避免新生成的样本冗余。实验结果表明,SD-ISMOTE算法在C4.5和朴素贝叶斯分类器下的分类性能相较于Borderline-SMOTE和ISMOTE均有不同程度的提高,可有效解决数据集中样本分布不均衡的问题。 展开更多
关键词 不均衡数据集 决策边界 分类 随机插值 少数类细分
下载PDF
基于边界混合重采样的非平衡数据分类方法 被引量:20
12
作者 侯贝贝 刘三阳 普事业 《计算机工程与应用》 CSCD 北大核心 2020年第1期46-52,共7页
在非平衡数据分类问题中,为了合成有价值的新样本和删除无影响的原样本,提出一种基于边界混合重采样的非平衡数据分类算法。该算法首先引入支持k-离群度概念,找出数据集中的边界点集和非边界点集;利用改进的SMOTE算法将少数类中的边界... 在非平衡数据分类问题中,为了合成有价值的新样本和删除无影响的原样本,提出一种基于边界混合重采样的非平衡数据分类算法。该算法首先引入支持k-离群度概念,找出数据集中的边界点集和非边界点集;利用改进的SMOTE算法将少数类中的边界点作为目标样本合成新的点集,同时对多数类中的非边界点采用基于距离的欠采样算法,以此达到类之间的平衡。通过实验结果对比表明了该算法在保证G-mean值较优的前提下,一定程度上提高了少数类的分类精度。 展开更多
关键词 支持k-离群度 重采样 边界点 非平衡数据分类
下载PDF
非平衡数据集分类问题研究进展 被引量:16
13
作者 高嘉伟 梁吉业 《计算机科学》 CSCD 北大核心 2008年第4期10-13,共4页
非平衡数据集广泛存在于现实世界中,其分类问题已经成为目前数据挖掘领域中的一个研究热点。文章综述了非平衡数据集分类问题的评价方法及其常用分类算法,分析了目前存在的主要困难,并指出需进一步解决的几个问题。
关键词 非平衡数据集 分类 算法
下载PDF
基于Boosting的不平衡数据分类算法研究 被引量:17
14
作者 李秋洁 茅耀斌 王执铨 《计算机科学》 CSCD 北大核心 2011年第12期224-228,共5页
研究基于boosting的不平衡数据分类算法,归纳分析现有算法,在此基础上提出权重采样boosting算法。对样本进行权重采样,改变原有数据分布,从而得到适用于不平衡数据的分类器。算法本质是利用采样函数调整原始boosting损失函数形式,进一... 研究基于boosting的不平衡数据分类算法,归纳分析现有算法,在此基础上提出权重采样boosting算法。对样本进行权重采样,改变原有数据分布,从而得到适用于不平衡数据的分类器。算法本质是利用采样函数调整原始boosting损失函数形式,进一步强调正样本的分类损失,使得分类器侧重对正样本的有效判别,提高正样本的整体识别率。算法实现简单,实用性强,在UCI数据集上的实验结果表明,对于不平衡数据分类问题,权重采样boosting优于原始boosting及前人算法。 展开更多
关键词 不平衡数据分类 BOOSTING 采样
下载PDF
基于重采样与特征选择的不均衡数据分类算法 被引量:16
15
作者 张忠林 曹婷婷 《小型微型计算机系统》 CSCD 北大核心 2020年第6期1327-1333,共7页
SMOTE算法被广泛应用在不均衡数据研究中,但原始数据集中的噪声数据可能会使数据边界模糊造成数据分布改变.本文基于采样平衡与特征选择提出了BSL-FSRF算法.首先提出BSL采样,将少数类样本分为安全样本、噪声样本、边界样本,只对边界样... SMOTE算法被广泛应用在不均衡数据研究中,但原始数据集中的噪声数据可能会使数据边界模糊造成数据分布改变.本文基于采样平衡与特征选择提出了BSL-FSRF算法.首先提出BSL采样,将少数类样本分为安全样本、噪声样本、边界样本,只对边界样本进行SMOTE插值,再利用Tomek link进行数据清洗,使数据集基本达到均衡的同时减少噪声样本的数量;其次引入"假设间隔"思想对各个特征维度进行度量,设定合适的阈值,将与类别相关性不高的特征移除,对数据降维;最后以随机森林作为分类器,用改进的网格搜索(Gridsearch)算法进行参数寻优.在公共数据集上对BSL-FSRF算法进行实验验证,结果表明该算法在少数类样本的分类准确率和分类器的整体性能上有明显改善,并且节省了运行时间. 展开更多
关键词 不均衡数据 ReliefF特征选择 重采样 随机森林 分类
下载PDF
一种改进的降噪自编码神经网络不平衡数据分类算法 被引量:16
16
作者 张成刚 宋佳智 +1 位作者 姜静清 裴志利 《计算机应用研究》 CSCD 北大核心 2017年第5期1329-1332,共4页
针对少数类样本合成过采样技术(synthetic minority over-sampling technique,SMOTE)在合成少数类新样本时会带来噪声问题,提出了一种改进降噪自编码神经网络不平衡数据分类算法(SMOTE-SDAE)。该算法通过SMOTE方法合成少数类新样本以均... 针对少数类样本合成过采样技术(synthetic minority over-sampling technique,SMOTE)在合成少数类新样本时会带来噪声问题,提出了一种改进降噪自编码神经网络不平衡数据分类算法(SMOTE-SDAE)。该算法通过SMOTE方法合成少数类新样本以均衡原始数据集,考虑到合成样本过程中会产生噪声的影响,利用降噪自编码神经网络算法的逐层无监督降噪学习和有监督微调过程,有效实现对过采样数据集的降噪处理与数据分类。在UCI不平衡数据集上实验结果表明,相比传统SVM算法,该算法显著提高了不平衡数据集中少数类的分类精度。 展开更多
关键词 神经网络 过采样 不平衡数据 分类
下载PDF
应用于不平衡多分类问题的损失平衡函数 被引量:12
17
作者 黄庆康 宋恺涛 陆建峰 《智能系统学报》 CSCD 北大核心 2019年第5期953-958,共6页
传统分类算法一般要求数据集类别分布平衡,然而在实际情况中往往面临的是不平衡的类别分布。目前存在的数据层面和模型层面算法试图从不同角度解决该问题,但面临着参数选择以及重复采样产生的额外计算等问题。针对此问题,提出了一种在... 传统分类算法一般要求数据集类别分布平衡,然而在实际情况中往往面临的是不平衡的类别分布。目前存在的数据层面和模型层面算法试图从不同角度解决该问题,但面临着参数选择以及重复采样产生的额外计算等问题。针对此问题,提出了一种在小批量内样本损失自适应均衡化的方法。该算法采用了一种动态学习损失函数的方式,根据小批量内样本标签信息调整各样本损失权重,从而实现在小批量内各类别样本总损失的平衡性。通过在caltech101和ILSVRC2014数据集上的实验表明,该算法能够有效地减少计算成本并提高分类精度,且一定程度上避免了过采样方法所带来的模型过拟合风险。 展开更多
关键词 不平衡学习 不平衡数据分类 多分类不平衡 损失平衡 不平衡数据分类算法 不平衡数据集 F1调和平均 卷积神经网络 深度学习
下载PDF
用于不平衡数据分类的模糊支持向量机算法 被引量:15
18
作者 鞠哲 曹隽喆 顾宏 《大连理工大学学报》 EI CAS CSCD 北大核心 2016年第5期525-531,共7页
作为一种有效的机器学习技术,支持向量机已经被成功地应用于各个领域.然而当数据不平衡时,支持向量机会产生次优的分类模型;另一方面,支持向量机算法对数据集中的噪声点和野点非常敏感.为了克服以上不足,提出了一种新的用于不平衡数据... 作为一种有效的机器学习技术,支持向量机已经被成功地应用于各个领域.然而当数据不平衡时,支持向量机会产生次优的分类模型;另一方面,支持向量机算法对数据集中的噪声点和野点非常敏感.为了克服以上不足,提出了一种新的用于不平衡数据分类的模糊支持向量机算法.该算法在设计样本的模糊隶属度函数时,不仅考虑训练样本到其类中心距离,而且考虑样本周围的紧密度.实验结果表明,所提模糊支持向量机算法可以有效地处理不平衡和噪声问题. 展开更多
关键词 支持向量机 模糊支持向量机 模糊隶属度 不平衡数据 分类
下载PDF
基于DPC聚类重采样结合ELM的不平衡数据分类算法 被引量:14
19
作者 董宏成 文志云 +1 位作者 万玉辉 晏飞扬 《计算机工程与科学》 CSCD 北大核心 2021年第10期1856-1863,共8页
采样技术与ELM分类算法进行结合可提高少数类样本的分类精度,但现有的大多数结合ELM的采样方法并未考虑到样本的不平衡程度及样本内部的分布情况,采样技术过于单一,导致分类模型的效率低下,少数类样本的识别率不高。针对此问题,提出了... 采样技术与ELM分类算法进行结合可提高少数类样本的分类精度,但现有的大多数结合ELM的采样方法并未考虑到样本的不平衡程度及样本内部的分布情况,采样技术过于单一,导致分类模型的效率低下,少数类样本的识别率不高。针对此问题,提出了一种基于DPC聚类的重采样技术结合ELM的不平衡数据分类算法,首先根据数据集的不平衡程度分2种情况构建一个混合采样模型来平衡数据集;然后在此模型上运用DPC聚类算法分别对多数类样本和少数类样本进行分析处理,解决数据中存在的类内不平衡和噪声问题,使得2类样本相对均衡;最后使用ELM分类算法对得到的数据集进行分类。实验结果表明,与同类型分类算法进行比较,所提算法的2个分类性能指标在实验数据集上都有明显提升。 展开更多
关键词 极限学习机 不平衡数据分类 DPC聚类 重采样
下载PDF
基于人工神经网络和遗传算法的网络攻击检测 被引量:13
20
作者 罗予东 陆璐 《计算机工程与设计》 北大核心 2021年第9期2446-2454,共9页
针对网络攻击检测准确率较低的问题,提出基于人工神经网络和遗传算法的混合网络攻击检测算法。将多目标遗传算法和多项式逻辑回归模型组合成封装特征选择算法,利用多项式回归模型对多分类数据的高效学习能力以及多目标遗传算法的全局优... 针对网络攻击检测准确率较低的问题,提出基于人工神经网络和遗传算法的混合网络攻击检测算法。将多目标遗传算法和多项式逻辑回归模型组合成封装特征选择算法,利用多项式回归模型对多分类数据的高效学习能力以及多目标遗传算法的全局优化能力,提取数据的最优特征子集;将降维后的特征集送入感知机训练,利用重引力搜索算法搜索神经网络的参数。基于不同的网络数据集完成实验,实验结果表明,该算法有效降低了特征维度,实现了较好的检测性能。 展开更多
关键词 网络安全 入侵检测 特征选择 多项式逻辑回归 不平衡数据分类 多层感知机
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部