期刊文献+
共找到398篇文章
< 1 2 20 >
每页显示 20 50 100
不均衡数据分类算法的综述 被引量:66
1
作者 陶新民 郝思媛 +1 位作者 张冬雪 徐鹏 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2013年第1期101-110,121,共11页
传统的分类方法都是建立在类分布大致平衡这一假设基础上的,然而实际情况中,数据往往都是不均衡的。因此,传统分类器分类性能通常比较有限。从数据层面和算法层面对国内外分类算法做了详细而系统的概述。并通过仿真实验,比较了多种不平... 传统的分类方法都是建立在类分布大致平衡这一假设基础上的,然而实际情况中,数据往往都是不均衡的。因此,传统分类器分类性能通常比较有限。从数据层面和算法层面对国内外分类算法做了详细而系统的概述。并通过仿真实验,比较了多种不平衡分类算法在6个不同数据集上的分类性能,发现改进的分类算法在整体性能上得到不同程度的提高,最后列出了不均衡数据分类发展还需解决的一些问题。 展开更多
关键词 不均衡数据 改进算法 分类性能
原文传递
融合随机森林和梯度提升树的入侵检测研究 被引量:37
2
作者 周杰英 贺鹏飞 +2 位作者 邱荣发 陈国 吴维刚 《软件学报》 EI CSCD 北大核心 2021年第10期3254-3265,共12页
网络入侵检测系统作为一种保护网络免受攻击的安全防御技术,在保障计算机系统和网络安全领域起着非常重要的作用.针对网络入侵检测中数据不平衡的多分类问题,机器学习已被广泛用于入侵检测,比传统方法更智能、更准确.对现有的网络入侵... 网络入侵检测系统作为一种保护网络免受攻击的安全防御技术,在保障计算机系统和网络安全领域起着非常重要的作用.针对网络入侵检测中数据不平衡的多分类问题,机器学习已被广泛用于入侵检测,比传统方法更智能、更准确.对现有的网络入侵检测多分类方法进行了改进研究,提出了一种融合随机森林模型进行特征转换、使用梯度提升决策树模型进行分类的入侵检测模型RF-GBDT,该模型主要分为特征选择、特征转换和分类器这3个部分.采用UNSW-NB15数据集对RF-GBDT模型进行了实验测试,与其他3种同领域的算法相比,RF-GBDT既缩短了训练时间,又具有较高的检测率和较低的误报率,在测试数据集上受试者工作特征曲线下的面积可达98.57%.RF-GBDT对于解决网络入侵检测数据不平衡的多分类问题具有较显著的优势,是一种切实可行的入侵检测方法. 展开更多
关键词 网络入侵检测 数据不平衡 随机森林 梯度提升树 UNSW-NB15数据集
下载PDF
一种基于日志信息和CNN-text的软件系统异常检测方法 被引量:35
3
作者 梅御东 陈旭 +4 位作者 孙毓忠 牛逸翔 肖立 王海荣 冯百明 《计算机学报》 EI CSCD 北大核心 2020年第2期366-380,共15页
当前,数据挖掘作为一种高时效性、高真实性的分析方法,正在社会中扮演着越发重要的角色,其在大型数据中快速挖掘模式,发现规律的能力正逐步取代人工的作用.而在当前各个计算机领域大行其道的大型分布式系统(如Hadoop、Spark等)的日志中... 当前,数据挖掘作为一种高时效性、高真实性的分析方法,正在社会中扮演着越发重要的角色,其在大型数据中快速挖掘模式,发现规律的能力正逐步取代人工的作用.而在当前各个计算机领域大行其道的大型分布式系统(如Hadoop、Spark等)的日志中,每天都产生着数以百万计的系统日志,这些日志的数据量之庞杂、关系之混乱,已大大影响了程序员对系统的人工监控效率,同时也提高了新程序员的培养成本.为解决以上问题,数据挖掘及系统分析两个领域相结合是一种必然的趋势,也因此,机器学习模型也越来越多地被业界提及用于做系统日志分析.然而大多数情况下,系统日志中,报告系统运行状态为“严重”的日志占少数,而这些少数信息才是程序员最需要关注的,然而大多数用于系统日志分析的机器学习模型都假设训练集的数据是均衡数据,因此这些模型在做系统日志预警时容易过度偏向大样本数据,以至于效果不够理想.本文将从深度学习角度出发,探究深度学习中的CNN-text(CT)在系统日志分析方面的应用能力,通过将CT与主流的系统日志分析机器学习模型SVM、决策树对比,探究CT相对于这些算法的优越性;将CT与CNN-RNN-text(CRT)进行对比,分析CT对特征的处理方式,证实CT在深度学习模型中处理系统日志类文本的优越性;最后将所有模型应用至两套不同的日志类文本数据中进行对比,证明CT的普适性.在CT同日志分析的主流机器学习模型对比的实验中,CT相较于最优模型的结果召回率提升了近15%;在CT同CRT模型对比的实验中,CT相较于更为先进的CRT,模型准确率高出约20%,召回率高出约80%、查准率高出约60%;在CT的普适性实验中,将各类模型融入到本文的实验数据集logstash和公开数据集WC85_1中,在准确率同其他表现较优的模型同为100%的情况下,CT的召回率高出其余召回率最高的模型(DT-B 展开更多
关键词 系统日志分析 系统异常预警 不均衡数据 机器学习 深度学习 CNN-text
下载PDF
基于改进支持向量机的电信客户流失预测模型 被引量:25
4
作者 钱苏丽 何建敏 王纯麟 《管理科学》 CSSCI 2007年第1期54-58,共5页
随着电信业改革的深入和竞争的加剧,电信企业的客户流失率逐步攀升,如何预测并有效减少客户流失直接关系到电信企业的生存和发展。流失客户在客户总体中占比例较低,因此电信客户数据集中存在明显的非平衡数据问题,传统的客户流失预测把... 随着电信业改革的深入和竞争的加剧,电信企业的客户流失率逐步攀升,如何预测并有效减少客户流失直接关系到电信企业的生存和发展。流失客户在客户总体中占比例较低,因此电信客户数据集中存在明显的非平衡数据问题,传统的客户流失预测把客户流失作为普通的模式识别问题处理,建立基于普适机器学习的预测模型。在两类错误的错分代价相差较大的情况下,基于普适机器学习的预测模型缺乏实用价值,因此引入代价敏感学习理论建立了基于改进支持向量机的电信客户流失预测模型,将不同的错分代价纳入建模过程,有效的提高了模型的预测性能。 展开更多
关键词 支持向量机 客户流失预测 非平衡数据 代价敏感学习
原文传递
基于谱聚类欠取样的不均衡数据SVM分类算法 被引量:28
5
作者 陶新民 张冬雪 +1 位作者 郝思媛 付丹丹 《控制与决策》 EI CSCD 北大核心 2012年第12期1761-1768,1775,共9页
提出一种基于谱聚类欠取样的不均衡数据支持向量机(SVM)分类算法.该算法首先在核空间中对多数类样本进行谱聚类;然后在每个聚类中根据聚类大小和该聚类与少数类样本间的距离,选择具有代表意义的信息点;最终实现训练样本间的数目均衡.实... 提出一种基于谱聚类欠取样的不均衡数据支持向量机(SVM)分类算法.该算法首先在核空间中对多数类样本进行谱聚类;然后在每个聚类中根据聚类大小和该聚类与少数类样本间的距离,选择具有代表意义的信息点;最终实现训练样本间的数目均衡.实验中将该算法同其他不均衡数据预处理方法相比较,结果表明该算法不仅能有效提高SVM算法对少数类的分类性能,而且总体分类性能及运行效率都有明显提高. 展开更多
关键词 不均衡数据 SVM算法 谱聚类 欠取样
原文传递
基于样本特性欠取样的不均衡支持向量机 被引量:25
6
作者 陶新民 郝思媛 +1 位作者 张冬雪 李震 《控制与决策》 EI CSCD 北大核心 2013年第7期978-984,共7页
针对传统支持向量机在数据失衡的情况下分类效果很不理想的问题,提出一种基于样本特性欠取样的不均衡SVM分类算法.该算法首先在核空间中依据样本信息量选择一定比例的靠近不均衡分类界面的多数类样本;然后根据样本密度信息选择最具有代... 针对传统支持向量机在数据失衡的情况下分类效果很不理想的问题,提出一种基于样本特性欠取样的不均衡SVM分类算法.该算法首先在核空间中依据样本信息量选择一定比例的靠近不均衡分类界面的多数类样本;然后根据样本密度信息选择最具有代表性的均衡多数类样本点,在减少多数类样本的同时使分类界面向多数类方向偏移.实验结果表明,所提出的算法与其他不均衡数据预处理方法相比,能有效提高SVM算法在失衡数据中少数类的分类性能、总体分类性能和鲁棒性. 展开更多
关键词 不均衡数据 支持向量机 样本特性 欠取样
原文传递
基于代价敏感SVM的电信客户流失预测研究 被引量:21
7
作者 蒋国瑞 司学峰 《计算机应用研究》 CSCD 北大核心 2009年第2期521-523,共3页
针对客户流失数据集的非平衡性问题和错分代价的差异性问题,将代价敏感学习应用于Veropoulos提出的采用不同惩罚系数的支持向量机,建立客户流失预测模型,对实际的电信客户流失数据进行验证。通过与传统SVM、C4.5和ANN对比研究,结果显示... 针对客户流失数据集的非平衡性问题和错分代价的差异性问题,将代价敏感学习应用于Veropoulos提出的采用不同惩罚系数的支持向量机,建立客户流失预测模型,对实际的电信客户流失数据进行验证。通过与传统SVM、C4.5和ANN对比研究,结果显示此方法在精确度、命中率、覆盖率和提升度均有所改善,表明此方法有效地解决了数据集的非平衡性和错分代价问题,是进行客户流失预测的有效方法。 展开更多
关键词 客户流失 支持向量机 非平衡数据 代价敏感
下载PDF
林木半同胞子代测定遗传模型分析 被引量:23
8
作者 童春发 卫巍 +1 位作者 尹辉 施季森 《林业科学》 EI CAS CSCD 北大核心 2010年第1期29-35,共7页
针对林木单地点半同胞子代测定试验,给出遗传模型不同形式的表达式,采用方差分析法推导平衡数据和不平衡数据条件下方差分量估计式,并给出方差分量估计的抽样方差以及方差分量假设检验统计量的计算方法。在此基础上,给出不平衡数据条件... 针对林木单地点半同胞子代测定试验,给出遗传模型不同形式的表达式,采用方差分析法推导平衡数据和不平衡数据条件下方差分量估计式,并给出方差分量估计的抽样方差以及方差分量假设检验统计量的计算方法。在此基础上,给出不平衡数据条件下家系遗传力的计算公式以及家系遗传力和单株遗传力抽样方差近似计算方法。对于2个数量性状,给出不平衡数据条件下遗传相关系数估计式,而且还给出遗传相关系数估计的方差近似计算方法。用VC++6.0编写计算单地点半同胞子代测定模型中各种遗传参数的Windows应用软件。 展开更多
关键词 子代测定 方差分量 遗传力 遗传相关 不平衡数据
下载PDF
基于欠采样和代价敏感的不平衡数据分类算法 被引量:22
9
作者 王俊红 闫家荣 《计算机应用》 CSCD 北大核心 2021年第1期48-52,共5页
针对不平衡数据集中的少数类在传统分类器上预测精度低的问题,提出了一种基于欠采样和代价敏感的不平衡数据分类算法——USCBoost。首先在AdaBoost算法每次迭代训练基分类器之前对多数类样本按权重由大到小进行排序,根据样本权重选取与... 针对不平衡数据集中的少数类在传统分类器上预测精度低的问题,提出了一种基于欠采样和代价敏感的不平衡数据分类算法——USCBoost。首先在AdaBoost算法每次迭代训练基分类器之前对多数类样本按权重由大到小进行排序,根据样本权重选取与少数类样本数量相当的多数类样本;之后将采样后的多数类样本权重归一化并与少数类样本组成临时训练集训练基分类器;其次在权重更新阶段,赋予少数类更高的误分代价,使得少数类样本权重增加更快,并且多数类样本权重增加更慢。在10组UCI数据集上,将USCBoost与AdaBoost、AdaCost、RUSBoost进行对比实验。实验结果表明USCBoost在F1-measure和G-mean准则下分别在6组和9组数据集获得了最高的评价指标。可见所提算法在不平衡数据上具有更好的分类性能。 展开更多
关键词 不平衡数据 分类 代价敏感 ADABOOST算法 欠采样
下载PDF
基于ODR和BSMOTE结合的不均衡数据SVM分类算法 被引量:22
10
作者 陶新民 童智靖 +1 位作者 刘玉 付丹丹 《控制与决策》 EI CSCD 北大核心 2011年第10期1535-1541,共7页
针对传统的支持向量机(SVM)算法在数据不均衡的情况下分类效果不理想的缺陷,为了提高SVM算法在不均衡数据集下的分类性能,提出一种新型的逐级优化递减欠采样算法.该算法去除样本中大量重叠的冗余和噪声样本,使得在减少数据的同时保留更... 针对传统的支持向量机(SVM)算法在数据不均衡的情况下分类效果不理想的缺陷,为了提高SVM算法在不均衡数据集下的分类性能,提出一种新型的逐级优化递减欠采样算法.该算法去除样本中大量重叠的冗余和噪声样本,使得在减少数据的同时保留更多的有用信息,并且与边界人工少数类过采样算法相结合实现训练样本数据集的均衡.实验表明,该算法不但能有效提高SVM算法在不均衡数据中少数类的分类性能,而且总体分类性能也有所提高. 展开更多
关键词 不均衡数据 支持向量机算法 边界人工少数类过采样算法 逐级优化递减
原文传递
不平衡训练数据下的基于深度学习的文本分类 被引量:21
11
作者 陈志 郭武 《小型微型计算机系统》 CSCD 北大核心 2020年第1期1-5,共5页
近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流.但是当不同类别的训练数据不均衡时,训练得到的神经网络模型会由多数类所主导,分类结果往往倾向多数类,极大彩响了分类... 近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流.但是当不同类别的训练数据不均衡时,训练得到的神经网络模型会由多数类所主导,分类结果往往倾向多数类,极大彩响了分类效果.针对这种情况,本文在卷积神经网络训练过程中,损失函数引入类别标签权重,强化少数类对模型参数的影响.在复旦大学文本分类数据集上进行测试,实验表明本文提出的方法相比于基线系统宏平均F1值提高了4.49%,较好地解决数据不平衡分类问题. 展开更多
关键词 不平衡数据集 词向量 卷积神经网络 文本分类
下载PDF
基于PSO-SVM算法的风电机组结冰故障诊断 被引量:21
12
作者 海涛 范恒 +2 位作者 王楷杰 刘振语 陈永鉴 《智慧电力》 北大核心 2021年第4期1-6,74,共7页
针对不平衡数据进行处理,结合自适应邻近的混合重取样的方法处理原始数据中小类数据,增加小类数据的有效实例;设计了一种基于相似函数的欠采样算法处理,减少大类数据的重复性数据,在不改变数据高信息性的情况下对数据降维,最后将特征数... 针对不平衡数据进行处理,结合自适应邻近的混合重取样的方法处理原始数据中小类数据,增加小类数据的有效实例;设计了一种基于相似函数的欠采样算法处理,减少大类数据的重复性数据,在不改变数据高信息性的情况下对数据降维,最后将特征数据导入到支持向量机中采用粒子群算法对参数进行优化。实验结果表明,特征量的提取在该模型中预测性能达到79.21%,在极限学习与随机森林(RF)算法中提升度为22.93%与48.83%,均有显著的提升,为风力机叶片结冰故障诊断提供了新的思路。 展开更多
关键词 风机叶片结冰 不平衡数据 特征量 支持向量机 粒子群算法
下载PDF
SMOTE算法在不平衡数据中的应用 被引量:18
13
作者 孙涛 吴海丰 +4 位作者 梁志刚 贺文 张镭 吕平欣 郭秀花 《北京生物医学工程》 2012年第5期528-530,共3页
目的临床数据在分析时多存在不平衡性,即阳性数据和阴性数据不相等,如果不加以预处理会使分析结果产生偏倚。处理有偏性数据的方法多,但多数方法存在过拟合或丢失数据等缺点。方法本文介绍了SMOTE算法的原理和R语言具体实现方式,并用SM... 目的临床数据在分析时多存在不平衡性,即阳性数据和阴性数据不相等,如果不加以预处理会使分析结果产生偏倚。处理有偏性数据的方法多,但多数方法存在过拟合或丢失数据等缺点。方法本文介绍了SMOTE算法的原理和R语言具体实现方式,并用SMOTE算法处理真实临床数据作为应用实例。结果原始数据良恶性比率为1/3,经过SMOTE算法处理后,良恶性比率为1。结论 SMOTE算法可对不平衡数据进行有效纠偏。 展开更多
关键词 SMOTE 不平衡数据 临床数据
下载PDF
基于提升卷积神经网络的航空发动机高速轴承智能故障诊断 被引量:17
14
作者 韩淞宇 邵海东 +1 位作者 姜洪开 张笑阳 《航空学报》 EI CAS CSCD 北大核心 2022年第9期150-163,共14页
航空发动机轴承长时间工作在高速重载的恶劣条件下,将不可避免地产生性能衰退甚至引发各种故障,自动准确的航空发动机高速轴承故障诊断方法有助于提升运行安全性和维修经济性。航空发动机高速轴承的原始振动信号具有强烈的非平稳性,且... 航空发动机轴承长时间工作在高速重载的恶劣条件下,将不可避免地产生性能衰退甚至引发各种故障,自动准确的航空发动机高速轴承故障诊断方法有助于提升运行安全性和维修经济性。航空发动机高速轴承的原始振动信号具有强烈的非平稳性,且其故障样本数量远小于健康样本,传统的智能诊断方法更容易向大样本偏斜,从而导致诊断性能的降低。针对上述问题,提出了一种基于自适应权重和多尺度卷积的提升卷积神经网络(CNN)。首先构造多尺度卷积网络提取故障样本的多尺度特征,挖掘具有识别性的有用信息;然后设计自适应权重单元对多尺度特征进行加权融合,增加重要特征的贡献度,减少非相关特征的影响;最后采用Focal Loss作为损失函数,使训练过程中网络模型更关注故障样本和易混淆样本。通过航空发动机高速轴承振动数据的测试与分析,证实了所提方法在不平衡数据故障诊断任务中的可行性。 展开更多
关键词 航空发动机高速轴承 智能故障诊断 提升卷积神经网络 不平衡数据 多尺度特征提取 自适应权重 损失函数补偿
原文传递
一种基于综合不放回抽样的随机森林算法改进 被引量:15
15
作者 李慧 李正 佘堃 《计算机工程与科学》 CSCD 北大核心 2015年第7期1233-1238,共6页
数据挖掘是大数据服务计算的一个重要方法,对于优化服务计算有重要意义。作为一种典型的数据挖掘方法,随机森林有着较高的正确率,因而得到广泛的应用。为了更加准确高效地处理服务计算中的大数据问题,进一步提升随机森林的正确率和... 数据挖掘是大数据服务计算的一个重要方法,对于优化服务计算有重要意义。作为一种典型的数据挖掘方法,随机森林有着较高的正确率,因而得到广泛的应用。为了更加准确高效地处理服务计算中的大数据问题,进一步提升随机森林的正确率和效率,成为一项极其重要的研究。通过改变训练集的样本量和样本抽样方法,对平衡样本集和不平衡样本集进行分析,发现通过上述两个改进后,在优化区间内,平衡样本集泛化误差会减小12%~20%;单项改变抽样方法,可以使算法时间缩短,提升效率达10%~40%;对不平衡数据,也能够明显提升效率。理论和实验均证明,基于综合不放回抽样的随机森林算法改进能够提升平衡样本的正确率,使得该数据挖掘方法更适用于服务计算中的大数据分析和处理。 展开更多
关键词 随机森林 平衡数据 不平衡数据 不重复抽样
下载PDF
组内相关系数:定义辨析、估计方法与实际应用 被引量:15
16
作者 杨奇明 林坚 《浙江大学学报(理学版)》 CAS CSCD 2013年第5期509-515,共7页
"组内相关系数"正越来越多地被用于自然科学与社会科学诸领域,但国内外应用者对其定义与估计方法的理解尚有不足.其名称源于将"皮尔逊积矩相关"与对称表结合构成配对估计量的经典定义.而费希尔基于组间方差比重的... "组内相关系数"正越来越多地被用于自然科学与社会科学诸领域,但国内外应用者对其定义与估计方法的理解尚有不足.其名称源于将"皮尔逊积矩相关"与对称表结合构成配对估计量的经典定义.而费希尔基于组间方差比重的新定义得益于哈里斯对配对估计量的简化.新定义在平衡数据下可由ANOVA法估计且与配对估计量渐近相等,故两种定义被统称为组内相关系数.在非平衡数据下有9个估计量可供选择,包括6个加权配对和3个方差成分类估计量.应用中需按观察变量是否符合正态分布假设等原则加以选择.本研究例解了方差成分类估计量的Stata命令. 展开更多
关键词 组内相关系数 配对估计量 方差成分 非平衡数据 STATA
下载PDF
基于犹豫模糊决策树的非均衡数据分类 被引量:15
17
作者 张旭 周新志 +1 位作者 赵成萍 邵伦 《计算机工程》 CAS CSCD 北大核心 2019年第8期75-79,91,共6页
为优化针对非均衡数据的分类效果,结合犹豫模糊集理论与决策树算法,提出一种改进的模糊决策树算法。通过SMOTE算法对非均衡数据进行过采样处理,使用K-means聚类方法获得各属性的聚类中心点,利用2种不同的隶属度函数对数据集进行模糊化... 为优化针对非均衡数据的分类效果,结合犹豫模糊集理论与决策树算法,提出一种改进的模糊决策树算法。通过SMOTE算法对非均衡数据进行过采样处理,使用K-means聚类方法获得各属性的聚类中心点,利用2种不同的隶属度函数对数据集进行模糊化处理。在此基础上,根据隶属度函数和犹豫模糊集的信息能量求得各属性的犹豫模糊信息增益,选取最大值替代Fuzzy ID3算法中的模糊信息增益作为属性的分裂准则,构建一个用于非均衡数据分类的犹豫模糊决策树模型。实验结果表明,基于犹豫模糊决策树的分类器在AUC评价指标上相对于C4.5、KNN、随机森林等传统分类算法平均提高了12.6 %。 展开更多
关键词 非均衡数据 犹豫模糊集 犹豫模糊决策树 K-MEANS聚类 FUZZY ID3算法
下载PDF
基于混合采样的非平衡数据集分类研究 被引量:14
18
作者 古平 欧阳源遊 《计算机应用研究》 CSCD 北大核心 2015年第2期379-381,418,共4页
针对传统的过采样算法在增加样本的同时可能使决策域变小和噪声点增加的问题进行了研究,提出了一种基于错分的混合采样算法。该算法是以SVM为元分类器,Ada Boost算法进行迭代,对每次错分的样本点根据其空间近邻关系,采取一种改进的混合... 针对传统的过采样算法在增加样本的同时可能使决策域变小和噪声点增加的问题进行了研究,提出了一种基于错分的混合采样算法。该算法是以SVM为元分类器,Ada Boost算法进行迭代,对每次错分的样本点根据其空间近邻关系,采取一种改进的混合采样策略:对噪声样本直接删除;对危险样本约除其近邻中的正类样本;对安全样本则采用SMOTE算法合成新样本并加入到新的训练集中重新训练学习。在实际数据集上进行实验,并与SMOTE-SVM和Ada Boost-SVM-OBMS算法进行比较,实验结果表明该算法能够有效地提高负类的分类准确率。 展开更多
关键词 混合采样 错分样本 非平衡数据集 ADA Boost算法 支持向量机算法
下载PDF
一种针对不平衡数据分类的集成学习算法 被引量:14
19
作者 张宗堂 王森 孙世林 《山东大学学报(工学版)》 CAS CSCD 北大核心 2019年第4期8-13,共6页
针对水声目标识别中常被忽略的数据不平衡问题,提出一种随机子空间AdaBoost算法(RSBoost)。通过随机子空间法在不同水声特征空间上提取子训练样本集,在各个子训练样本集上训练基分类器,将其中少类间隔均值最大的基分类器作为本轮选定的... 针对水声目标识别中常被忽略的数据不平衡问题,提出一种随机子空间AdaBoost算法(RSBoost)。通过随机子空间法在不同水声特征空间上提取子训练样本集,在各个子训练样本集上训练基分类器,将其中少类间隔均值最大的基分类器作为本轮选定的分类器,迭代形成最终集成分类器。在实测数据上进行试验,利用F-measure和G-mean两个准则对RSBoost算法和AdaBoost算法在不同特征集上的性能进行评价。试验结果表明:相对于AdaBoost算法,RSBoost算法在F-measure准则下的平均值由0.07提升到0.22,在G-mean准则下的平均值由0.18提升到0.25,说明在处理水声数据不平衡分类问题上,RSBoost算法优于AdaBoost算法。 展开更多
关键词 不平衡数据 集成学习 水声目标识别 ADABOOST算法 随机子空间
原文传递
基于支持向量机混合采样的不平衡数据分类方法 被引量:13
20
作者 姜飞 杨明 刘雨欣 《数学的实践与认识》 2021年第1期88-96,共9页
利用传统支持向量机(SVM)对不平衡数据进行分类时,由于真实的少数类支持向量样本过少且难以被识别,造成了分类时效果不是很理想.针对这一问题,提出了一种基于支持向量机混合采样的不平衡数据分类方法(BSMS).该方法首先对经过支持向量机... 利用传统支持向量机(SVM)对不平衡数据进行分类时,由于真实的少数类支持向量样本过少且难以被识别,造成了分类时效果不是很理想.针对这一问题,提出了一种基于支持向量机混合采样的不平衡数据分类方法(BSMS).该方法首先对经过支持向量机分类的原始不平衡数据按照所处位置的不同划分为支持向量区(SV),多数类非支持向量区(MNSV)以及少数类非支持向量区(FNSV)三个区域,并对MNSV区和FNSV区的样本做去噪处理;然后对SV区分类错误和部分分类正确且靠近决策边界的少数类样本重复进行过采样处理,直到找到测试结果最优的训练数据集;最后有选择的随机删除MNSV区的部分样本.实验结果表明:方法优于其他采样方法. 展开更多
关键词 不平衡数据 支持向量机 过采样 欠采样
原文传递
上一页 1 2 20 下一页 到第
使用帮助 返回顶部