期刊文献+
共找到100篇文章
< 1 2 5 >
每页显示 20 50 100
基于Tomek链的边界少数类样本合成过采样方法 被引量:3
1
作者 陶佳晴 贺作伟 +2 位作者 冷强奎 翟军昌 孟祥福 《计算机应用研究》 CSCD 北大核心 2023年第2期463-469,共7页
在类别不平衡数据集中,由于靠近类边界的样本更容易被错分,因此准确识别边界样本对分类具有重要意义。现有方法通常采用K近邻来标识边界样本,准确率有待提高。针对上述问题,提出一种基于Tomek链的边界少数类样本合成过采样方法。首先,... 在类别不平衡数据集中,由于靠近类边界的样本更容易被错分,因此准确识别边界样本对分类具有重要意义。现有方法通常采用K近邻来标识边界样本,准确率有待提高。针对上述问题,提出一种基于Tomek链的边界少数类样本合成过采样方法。首先,计算得到类间距离互为最近的样本形成Tomek链;然后,根据Tomek链标识出位于类间边界处的少数类样本;接下来,利用合成少数类过采样技术(SMOTE)中的线性插值机制在边界样本及其少数类近邻间进行过采样,并最终实现数据集的平衡。实验对比了八种采样方法,结果表明所提方法在大部分数据集上均获得了更高的G-mean和F_(1)值。 展开更多
关键词 不平衡数据分类 合成采样 边界样本 K近邻 Tomek链
下载PDF
基于改进SMOTE的不平衡数据挖掘方法研究 被引量:31
2
作者 杨智明 乔立岩 彭喜元 《电子学报》 EI CAS CSCD 北大核心 2007年第B12期22-26,共5页
少类样本合成过采样技术(SMOTE)是一种新型的过采样方法,能够有效地处理不平衡数据分类问题,但SMOTE在产生合成样本的过程中,存在一定的盲目性.因此本文提出一种改进的过采样方法一自适应SMOTE,根据样本集内部分布特性,自适应调... 少类样本合成过采样技术(SMOTE)是一种新型的过采样方法,能够有效地处理不平衡数据分类问题,但SMOTE在产生合成样本的过程中,存在一定的盲目性.因此本文提出一种改进的过采样方法一自适应SMOTE,根据样本集内部分布特性,自适应调整SMOTE方法中近邻选择策略,控制合成样本的质量.算法分析和仿真结果表明,文中提出的方法在不影响计算复杂度的前提下,有效地提高了分类算法的整体分类准确率。 展开更多
关键词 不平衡数据集 少类样本合成采样技术 自适应SMOTE 合成样本 近邻选择策略
下载PDF
面向不平衡数据集的改进型SMOTE算法 被引量:24
3
作者 王超学 张涛 马春森 《计算机科学与探索》 CSCD 2014年第6期727-734,共8页
针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使... 针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使用交叉、变异算子实现对合成样本质量的控制。结合GA-SMOTE与SVM(support vector machine)算法来处理不平衡数据的分类问题。UCI数据集上的大量实验表明,GA-SMOTE在新样本的整体合成效果上表现出色,有效提高了SVM在不平衡数据集上的分类性能。 展开更多
关键词 不平衡数据集 分类 遗传算子 少数类样本合成采样技术(SMOTE) SYNTHETIC MINORITY OVER-SAMPLING technique (SMOTE)
下载PDF
基于主动学习SMOTE的非均衡数据分类 被引量:23
4
作者 张永 李卓然 刘小丹 《计算机应用与软件》 CSCD 北大核心 2012年第3期91-93,162,共4页
少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALS... 少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALSMOTE。由于主动学习支持向量机采用基于距离的主动选择最佳样本的学习策略,因此能够主动选择非均衡数据中的有价值的多数类样本,舍弃价值较小的样本,从而提高运算效率,改进SMOTE带来的问题。首先运用SMOTE方法均衡小部分样本,得到初始分类器;然后利用主动学习策略调整分类器精度。实验结果表明,该方法有效提高了非均衡数据的分类准确率。 展开更多
关键词 主动学习 不平衡数据集 少数类样本合成采样技术 支持向量机
下载PDF
基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法 被引量:19
5
作者 霍玉丹 谷琼 +1 位作者 蔡之华 袁磊 《计算机应用》 CSCD 北大核心 2015年第1期121-124,139,共5页
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍... 针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样。在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点。该方法可作为一种新的解决非平衡数据集分类问题的过采样技术。 展开更多
关键词 非平衡数据集 分类 少数类样本合成采样技术 采样倍率 遗传算法
下载PDF
一种自适应核SMOTE-SVM算法用于不平衡数据分类 被引量:8
6
作者 吴海燕 陈晓磊 范国轩 《北京化工大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第2期97-104,共8页
面向不平衡样本集,提出一种自适应核人工合成过采样-支持向量机(synthetic minority oversampling technique-support vector machine,SMOTE-SVM)分类算法。首先通过支持向量机将数据集投影到核空间,找出类边界样本—支持向量(SV),然后... 面向不平衡样本集,提出一种自适应核人工合成过采样-支持向量机(synthetic minority oversampling technique-support vector machine,SMOTE-SVM)分类算法。首先通过支持向量机将数据集投影到核空间,找出类边界样本—支持向量(SV),然后基于核距离对少数类样本集的支持向量(SV+)计算其近邻,再根据近邻样本类别分布自适应地选择内插或外推两种方式合成新样本。由于核空间中映射函数无法具体得知,新样本无法用显式表示,因此将生成样本与原始样本一起形成增广Gram矩阵,最终利用SVM实现分类。该算法中样本生成、近邻计算以及SVM分类均统一在同一核空间中,提高了新样本的可信性;同时自适应插值方式改善了传统人工合成过采样技术(SMOTE)线性生成算法不适用于非线性分类的问题,提高了新样本的多样性。在多个数据集上的实验结果表明,所提算法可以改善不平衡数据的分类准确率,具有更好的稳健性。 展开更多
关键词 不平衡数据分类 人工合成采样技术(SMOTE) 核空间 支持向量机
下载PDF
针对不平衡数据集的Bagging改进算法 被引量:12
7
作者 李明方 张化祥 《计算机工程与应用》 CSCD 北大核心 2010年第30期40-42,共3页
传统的Bagging分类方法对不平衡数据集进行分类时,虽然能够达到很高的分类精度,但是对其中少数类的分类准确率不高。为提高其对少数类数据的分类精度,利用SMOTE算法对样例集中的少数类样例进行加工,在Bagging算法中根据类值对各个样例... 传统的Bagging分类方法对不平衡数据集进行分类时,虽然能够达到很高的分类精度,但是对其中少数类的分类准确率不高。为提高其对少数类数据的分类精度,利用SMOTE算法对样例集中的少数类样例进行加工,在Bagging算法中根据类值对各个样例的权重进行调整。混淆矩阵和ROC曲线表明改进算法达到了既能保证整体的分类准确率,又能提高少数类分类精度的目的。 展开更多
关键词 不平衡类 少类样本合成采样技术(SMOTE) BAGGING算法 权重 受试者工作特征曲线(ROC)
下载PDF
基于不平衡数据集的主动学习分类算法 被引量:7
8
作者 赵小强 刘梦依 《控制工程》 CSCD 北大核心 2019年第2期314-319,共6页
针对不平衡数据集在分类过程中易产生噪声数据和分类精度低的问题,提出一种基于改进SMOTE的不平衡数据集主动学习SVM分类算法。该算法对训练样本集利用少数类样本的归属值通过多数票选择法控制合成少数类样本的数量,以距离公式为衡量标... 针对不平衡数据集在分类过程中易产生噪声数据和分类精度低的问题,提出一种基于改进SMOTE的不平衡数据集主动学习SVM分类算法。该算法对训练样本集利用少数类样本的归属值通过多数票选择法控制合成少数类样本的数量,以距离公式为衡量标准划分超平面,在分类超平面两侧选择最近距离的等量对称的多数类样本,组成平衡采样数据集,利用支持向量机(SVM)进行分类得到优化分类器,再用主动学习对去除了训练样本的不平衡数据集利用优化分类器进行分类循环,直到剩余样本为零。利用UCI数据集中的数据实验表明,该算法有效地减少了噪声数据对分类的影响,并有效改善不平衡数据集的分类精度。 展开更多
关键词 数据挖掘 不平衡数据集 分类 少数类样本合成采样技术
下载PDF
基于焦点损失函数的嵌套长短时记忆网络心电信号分类研究 被引量:5
9
作者 许诗雨 莫思特 +4 位作者 闫惠君 黄华 吴锦晖 张绍敏 杨林 《生物医学工程学杂志》 EI CAS CSCD 北大核心 2022年第2期301-310,共10页
心电图(ECG)可直观地反映人体心脏生理电活动,在心律失常检测与分类领域中具有重要意义。针对ECG数据中类别不平衡对心律失常分类带来的消极作用,本文提出一种用于不平衡ECG信号分类的嵌套长短时记忆网络(NLSTM)模型。搭建NLSTM学习并... 心电图(ECG)可直观地反映人体心脏生理电活动,在心律失常检测与分类领域中具有重要意义。针对ECG数据中类别不平衡对心律失常分类带来的消极作用,本文提出一种用于不平衡ECG信号分类的嵌套长短时记忆网络(NLSTM)模型。搭建NLSTM学习并记忆复杂信号中的时序特征,利用焦点损失函数(focal loss)降低易识别样本的权重;然后采用残差注意力机制(residual attention mechanism),根据各类别特征重要性修改已分配权值,解决样本不平衡问题;再采用合成过采样技术算法(SMOTE)对麻省理工学院与贝斯以色列医院心律失常(MIT-BIH-AR)数据库进行简单的人工过采样处理,进一步增加模型的分类准确率,最终应用MIT-BIHAR数据库对上述算法进行实验验证。实验结果表明,所提方法能有效地解决ECG信号中样本不平衡、特征不突出的问题,模型的总体准确率达到98.34%,较大地提升对少数类样本的识别和分类效果,为心律失常辅助诊断提供可行的新方法。 展开更多
关键词 心律失常 嵌套长短时记忆网络 焦点损失函数 残差注意力机制 合成采样技术
原文传递
基于支持向量机的指纹图像质量分类方法 被引量:4
10
作者 张宇 尹义龙 骆功庆 《模式识别与人工智能》 EI CSCD 北大核心 2009年第1期129-135,共7页
指纹图像的质量测量与评价,在指纹图像分割、增强及指纹匹配等环节都有重要应用.同时,指纹图像的质量分类,对指纹识别算法的适用性研究也有重要意义.本文提出一种基于支持向量机的指纹图像质量分类方法.该方法选择梯度、Gabor特征、方... 指纹图像的质量测量与评价,在指纹图像分割、增强及指纹匹配等环节都有重要应用.同时,指纹图像的质量分类,对指纹识别算法的适用性研究也有重要意义.本文提出一种基于支持向量机的指纹图像质量分类方法.该方法选择梯度、Gabor特征、方向对比度等指标,利用支持向量机有效实现指纹图像质量分类.并采用少类样本合成过采样技术(SMOTE)降低指纹图像质量好坏的类别不平衡问题对分类的影响.理论分析和实验结果都表明该方法能够较为有效地提高指纹图像质量分类的正确率. 展开更多
关键词 指纹 图像质量 质量分类 支持向量机 少类样本合成采样技术(SMOTE)
原文传递
基于KNN和自适应的过采样方法
11
作者 张怀啸 陈卓 周必良 《信息与电脑》 2023年第3期93-95,共3页
针对少数类合成过采样技术(Synthetic Minority Oversampling Technique,SMOTE)及其改进算法在不平衡数据分类问题中分类效果不佳,提出了基于K最邻近算法(K-NearestNeighbor,KNN)和自适应的过采样方法(Oversampling Method Based on KNN... 针对少数类合成过采样技术(Synthetic Minority Oversampling Technique,SMOTE)及其改进算法在不平衡数据分类问题中分类效果不佳,提出了基于K最邻近算法(K-NearestNeighbor,KNN)和自适应的过采样方法(Oversampling Method Based on KNN and Adaptive,KAO)。首先,利用KNN去除噪声样本;其次,根据少数类样本K近邻样本中多数类样本数,自适应给少数类样本分配过采样权重;最后,利用新的插值方式生成新样本平衡数据集。在KEEL公开的数据集上进行实验,将提出的KAO算法与SMOTE及其改进算法进行对比,在F1值和g-mean上都有所提升。 展开更多
关键词 不平衡数据分类 少数类合成采样技术(SMOTE) K最邻近算法(KNN) 自适应 采样
下载PDF
心血管事件患者术后30 d死亡风险决策树模型的构建与评估——基于少数类样本合成过采样技术算法
12
作者 陈永庄 莫小乔 谢天 《中华危重症医学杂志(电子版)》 CAS CSCD 2023年第5期390-398,共9页
目的:建立基于少数类样本合成过采样技术(SMOTE)算法的合并心血管事件行外科手术患者术后30 d死亡风险决策树模型。方法:选择新加坡中央医院2012年至2016年收入住院行手术治疗的华人患者,共纳入3086例合并心血管事件行外科手术患者(缺... 目的:建立基于少数类样本合成过采样技术(SMOTE)算法的合并心血管事件行外科手术患者术后30 d死亡风险决策树模型。方法:选择新加坡中央医院2012年至2016年收入住院行手术治疗的华人患者,共纳入3086例合并心血管事件行外科手术患者(缺血性心脏病史和/或充血性心力衰竭史患者),提取患者基本临床信息以及相关基础病和手术相关评分信息。采用SMOTE算法对原始数据集进行重建,并应用全子集回归筛选预测因子,将数据集按7∶3分为训练组和验证组,其中训练组用于建立决策树风险预测模型,验证组用于内部验证。结果:患者术后30 d病死率为3.0%(93/3086),术后24 h ICU入住率为4.5%(140/3086)。全子集回归分析显示年龄>75岁[比值比(OR)=1.033,95%置信区间(CI)(1.024,1.042),P<0.001]、贫血[OR=1.368,95%CI(1.211,1.546),P<0.001]、慢性肾脏病分期>2期[OR=1.381,95%CI(1.277,1.494),P<0.001]、术前输血[OR=4.496,95%CI(3.268,6.185),P<0.001]、急诊手术[OR=3.344,95%CI(2.752,4.064),P<0.001]、红细胞分布宽度>15.7%[OR=2.097,95%CI(1.658,2.652),P<0.001]及美国麻醉医师协会分级>2级[OR=3.362,95%CI(2.734,4.135),P<0.001]是心血管事件患者术后30 d死亡的危险因素。应用以上7个预测因子构建决策树模型。结果显示训练组受试者工作特征曲线下面积为0.853[95%CI(0.837,0.868),P<0.001],敏感度、特异度分别为0.765、0.756;验证组受试者工作特征曲线下面积为0.858[95%CI(0.834,0.882),P<0.001],敏感度、特异度分别为0.938、0.612,总体判别能力良好。结论:心血管事件患者术后30 d死亡事件发生率低,为不平衡数据分类问题,本研究基于处理不平衡数据常用的SMOTE算法,避免了小概率事件建模过程中的过拟合问题。同时决策树模型具有直观、便捷、个性化的特点,为医务工作者提供了方便的临床预测工具。 展开更多
关键词 少数类样本合成采样技术算法 术后死亡 全子集回归 预测模型 决策树
原文传递
BOS:一种用于不平衡数据学习的边界过采样方法 被引量:3
13
作者 祝团飞 孙婧 +1 位作者 李益洲 李梦龙 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2012年第3期553-559,共7页
不平衡数据遍布于现实生活中许多重要领域,而标准的分类学习算法应对不平衡问题有明显的性能缺陷.为了解决这一问题,提出一种新的少数类边界合成过采样方法BOS.BOS使用新定义的K广义Tomek连接(简称K连接)概念有效定位边界实例,进而基于... 不平衡数据遍布于现实生活中许多重要领域,而标准的分类学习算法应对不平衡问题有明显的性能缺陷.为了解决这一问题,提出一种新的少数类边界合成过采样方法BOS.BOS使用新定义的K广义Tomek连接(简称K连接)概念有效定位边界实例,进而基于少数类的K连接分布实现自适应地少数边界合成过采样.实验结果表明,BOS相比已有的几种典型过采样方法提供更优的接受者操作特性曲线下方面积值(AUC),F值(F-Measure)和几何平均值(G-mean). 展开更多
关键词 不平衡问题 K广义的Tomek连接 少数类边界合成采样
原文传递
非平衡技术在高速网络入侵检测中的应用 被引量:3
14
作者 赵月爱 陈俊杰 穆晓芳 《计算机应用》 CSCD 北大核心 2009年第7期1806-1808,1812,共4页
针对现有的高速网络入侵检测系统丢包率高、检测速度慢以及检测算法对不同类型攻击检测的非平衡性等问题,提出了采用两阶段的负载均衡策略的检测模型。在线检测阶段对网络数据包按协议类型进行分流的检测,离线建模阶段对不同协议类型的... 针对现有的高速网络入侵检测系统丢包率高、检测速度慢以及检测算法对不同类型攻击检测的非平衡性等问题,提出了采用两阶段的负载均衡策略的检测模型。在线检测阶段对网络数据包按协议类型进行分流的检测,离线建模阶段对不同协议类型的数据进行学习建模,供在线部分检测。在讨论非平衡数据处理的各种采样技术基础上,采用改进后的过抽样少数样本合成过采样技术(SMOTE)对网络数据进行预处理,采用AdaBoost、随机森林算法等进行分类。另外对特征选取等方面进行了实验,结果表明SMOTE过抽样可提高各少数类的检测,随机森林算法分类效果好而且建模所用的时间稳定。 展开更多
关键词 高速网络 入侵检测 非平衡数据 少数样本合成采样技术 集成学习 ADABOOST算法 随机森林算法
下载PDF
基于COG-OS框架利用SMART预测云计算平台的硬盘故障 被引量:3
15
作者 宋云华 柏文阳 周琦 《计算机应用》 CSCD 北大核心 2014年第1期31-35,188,共6页
针对云计算平台的硬盘不可靠问题,提出基于带过采样的COG(COG-OS)框架,利用硬盘自我监测分析和报告技术(SMART)日志预测故障硬盘。首先采用DBScan或K-means聚类算法将无故障硬盘样本划分成多个不相交子集;再与故障硬盘样本结合,采用少... 针对云计算平台的硬盘不可靠问题,提出基于带过采样的COG(COG-OS)框架,利用硬盘自我监测分析和报告技术(SMART)日志预测故障硬盘。首先采用DBScan或K-means聚类算法将无故障硬盘样本划分成多个不相交子集;再与故障硬盘样本结合,采用少量样本合成过采样技术(SMOTE)使整体样本集趋于平衡;最后采用LIBSVM分类算法预测故障硬盘。调整参数,将COG-OS与SMOTE+支持向量机(SVM)的预测性能相比较,实验结果表明该方法具有可行性。当采用K-means方法划分无故障盘样本,并采用径向基函数(RBF)内核的LIBSVM方法预测故障盘时,COG-OS改善了SMOTE+SVM对故障硬盘的预测查全率和整体性能。 展开更多
关键词 COG-OS框架 自我监测分析和报告技术 K-均值 少量样本合成采样技术 LIBSVM 支持向量机
下载PDF
基于Lévy分布的不平衡数据过采样方法 被引量:1
16
作者 张扬帆 张海鹏 孙俊 《计算机工程与应用》 CSCD 北大核心 2019年第16期150-156,共7页
针对不平衡数据集上的分类问题,提出了基于Lévy分布的过采样方法,其核心思想是根据初始数据集的分布,利用Lévy分布构造新样本的密度分布。基于Lévy分布的特性,使得从边界样本合成的新样本密度最大,靠近多数类的样本合成... 针对不平衡数据集上的分类问题,提出了基于Lévy分布的过采样方法,其核心思想是根据初始数据集的分布,利用Lévy分布构造新样本的密度分布。基于Lévy分布的特性,使得从边界样本合成的新样本密度最大,靠近多数类的样本合成的新样本密度次之,靠近少数类的样本合成的新样本密度最小。因此,该算法可以增强分类边界,同时可以减小噪声生成。通过在多个数据集上的实验,表明所提算法可以有效改善不平衡数据的分类效果。 展开更多
关键词 不平衡分类 Lévy分布 采样 人工合成采样技术(SMOTE)
下载PDF
基于主曲线的不均衡在线贯序极限学习机研究
17
作者 王金婉 毛文涛 +1 位作者 王礼云 何玲 《计算机科学》 CSCD 北大核心 2016年第3期62-67,共6页
针对现有机器学习算法难以有效提高不均衡在线贯序数据中少类样本分类精度的问题,提出了一种基于主曲线的不均衡在线贯序极限学习机。该方法的核心思路是根据在线贯序数据的分布特性,均衡各类别样本,以减少少类样本合成过程中的盲目性,... 针对现有机器学习算法难以有效提高不均衡在线贯序数据中少类样本分类精度的问题,提出了一种基于主曲线的不均衡在线贯序极限学习机。该方法的核心思路是根据在线贯序数据的分布特性,均衡各类别样本,以减少少类样本合成过程中的盲目性,主要包括离线和在线两个阶段。离线阶段采用主曲线分别建立各类别样本的分布模型,利用少类样本合成过采样算法对少类样本过采样,并根据各样本点到对应主曲线的投影距离分别为其设定相应大小的隶属度,最后根据隶属区间削减多类和少类虚拟样本,进而建立初始模型。在线阶段对贯序到达的少类样本过采样,并根据隶属区间均衡贯序样本,进而动态更新网络权值。通过理论分析证明了所提算法在理论上存在损失信息上界。采用UCI标准数据集和实际澳门气象数据进行仿真实验,结果表明,与现有典型算法相比,该算法对少类样本的预测精度更高,数值稳定性更好。 展开更多
关键词 在线贯序极限学习机 不均衡数据 主曲线 少类样本合成采样
下载PDF
基于密度峰值聚类和局部稀疏度的过采样算法
18
作者 吕佳 郭铭 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第3期483-494,共12页
现有的绝大多数过采样方法着重于寻找少数类样本的边界从而增强样本的可分性,忽略了样本的重叠分布与小析取问题,这导致在过采样阶段产生过多的噪声,最终无法实现对少数类样本的正确分类.针对这些问题,提出一种基于密度峰值聚类和局部... 现有的绝大多数过采样方法着重于寻找少数类样本的边界从而增强样本的可分性,忽略了样本的重叠分布与小析取问题,这导致在过采样阶段产生过多的噪声,最终无法实现对少数类样本的正确分类.针对这些问题,提出一种基于密度峰值聚类和局部稀疏度的过采样算法.首先利用改进的密度峰值聚类算法对全部样本自适应地划分出多个簇,根据簇内样本的不平衡比过滤掉不平衡比过高的簇,然后在筛选出的簇中根据少数类样本的分布情况对各簇的过采样个数进行分配,最后通过样本密度计算出各簇少数类样本的局部稀疏度,从中选择出稀疏度较高的少数类样本参与到最终的合成少数过采样.将提出的过采样算法与八种常用的过采样算法分别与三种基分类器相结合,在18个不平衡数据集上进行对比实验.实验结果表明,提出的算法总体上表现更优,能得到更好的分类性能. 展开更多
关键词 不平衡数据 密度峰值聚类 采样 局部稀疏度 合成少数采样
下载PDF
面向非均衡数据的二进制排队搜索特征选择机制
19
作者 郭嘉 《微电子学与计算机》 2021年第8期45-52,共8页
非均衡数据(分类不均匀分布)和冗余特征的出现极大增加了数据准确分类的难度.以最优化学习算法的预测准确率为目标,结合合成少数过采样技术SMOTE,设计了一种针对非均衡数据的二进制排队搜索方法的包装式特征选择算法BQSA,利用PROMISE知... 非均衡数据(分类不均匀分布)和冗余特征的出现极大增加了数据准确分类的难度.以最优化学习算法的预测准确率为目标,结合合成少数过采样技术SMOTE,设计了一种针对非均衡数据的二进制排队搜索方法的包装式特征选择算法BQSA,利用PROMISE知识库中十四种软件故障预测数据集进行实验分析.测试了数据集过采样比例的影响,证实合成少数过采样对高度非均衡数据的分类预测具有正面影响,并得到了最佳过采样率;比较了BQSA与同类算法的性能,证实结合合成少数过采样技术的BQSA算法拥有更优的预测准确性,在分类敏感度、专一性以及曲线下面积AUC等指标上表现更佳. 展开更多
关键词 特征选择 非均衡数据 排队搜索算法 合成少数采样 学习算法
下载PDF
不平衡数据集分类方法综述 被引量:35
20
作者 王乐 韩萌 +2 位作者 李小娟 张妮 程浩东 《计算机工程与应用》 CSCD 北大核心 2021年第22期42-52,共11页
不平衡数据集的特点导致了在分类时产生了诸多难题。对不平衡数据集的分类方法进行了分析与总结。在数据采样方法中从欠采样、过采样和混合采样三方面介绍不平衡数据集的分类方法;在欠采样方法中分为基于K近邻、Bagging和Boosting三种方... 不平衡数据集的特点导致了在分类时产生了诸多难题。对不平衡数据集的分类方法进行了分析与总结。在数据采样方法中从欠采样、过采样和混合采样三方面介绍不平衡数据集的分类方法;在欠采样方法中分为基于K近邻、Bagging和Boosting三种方法;在过采样方法中从合成少数过采样技术(SyntheticMinorityOver-sampling Technology,SMOTE)、支持向量机(SupportVectorMachine,SVM)两个角度来分析不平衡数据集的分类方法;对这两类采样方法的优缺点进行了比较,在相同数据集下比较算法的性能并进行分析与总结。从深度学习、极限学习机、代价敏感和特征选择四方面对不平衡数据集的分类方法进行了归纳。最后对下一步工作方向进行了展望。 展开更多
关键词 不平衡数据集 分类 采样方法 K近邻(KNN) 合成少数采样技术(SMOTE) 深度学习
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部