期刊文献+
共找到59篇文章
< 1 2 3 >
每页显示 20 50 100
不均衡数据分类算法的综述 被引量:66
1
作者 陶新民 郝思媛 +1 位作者 张冬雪 徐鹏 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2013年第1期101-110,121,共11页
传统的分类方法都是建立在类分布大致平衡这一假设基础上的,然而实际情况中,数据往往都是不均衡的。因此,传统分类器分类性能通常比较有限。从数据层面和算法层面对国内外分类算法做了详细而系统的概述。并通过仿真实验,比较了多种不平... 传统的分类方法都是建立在类分布大致平衡这一假设基础上的,然而实际情况中,数据往往都是不均衡的。因此,传统分类器分类性能通常比较有限。从数据层面和算法层面对国内外分类算法做了详细而系统的概述。并通过仿真实验,比较了多种不平衡分类算法在6个不同数据集上的分类性能,发现改进的分类算法在整体性能上得到不同程度的提高,最后列出了不均衡数据分类发展还需解决的一些问题。 展开更多
关键词 不均衡数据 改进算法 分类性能
原文传递
不平衡数据集分类方法综述 被引量:43
2
作者 王乐 韩萌 +2 位作者 李小娟 张妮 程浩东 《计算机工程与应用》 CSCD 北大核心 2021年第22期42-52,共11页
不平衡数据集的特点导致了在分类时产生了诸多难题。对不平衡数据集的分类方法进行了分析与总结。在数据采样方法中从欠采样、过采样和混合采样三方面介绍不平衡数据集的分类方法;在欠采样方法中分为基于K近邻、Bagging和Boosting三种方... 不平衡数据集的特点导致了在分类时产生了诸多难题。对不平衡数据集的分类方法进行了分析与总结。在数据采样方法中从欠采样、过采样和混合采样三方面介绍不平衡数据集的分类方法;在欠采样方法中分为基于K近邻、Bagging和Boosting三种方法;在过采样方法中从合成少数过采样技术(SyntheticMinorityOver-sampling Technology,SMOTE)、支持向量机(SupportVectorMachine,SVM)两个角度来分析不平衡数据集的分类方法;对这两类采样方法的优缺点进行了比较,在相同数据集下比较算法的性能并进行分析与总结。从深度学习、极限学习机、代价敏感和特征选择四方面对不平衡数据集的分类方法进行了归纳。最后对下一步工作方向进行了展望。 展开更多
关键词 不平衡数据集 分类 采样方法 K近邻(KNN) 合成少数过采样技术(SMOTE) 深度学习
下载PDF
改进SMOTE的不平衡数据集成分类算法 被引量:32
3
作者 王忠震 黄勃 +2 位作者 方志军 高永彬 张娟 《计算机应用》 CSCD 北大核心 2019年第9期2591-2596,共6页
针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(K NN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目... 针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(K NN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目,对样本集中的噪声样本进行精确识别并予以滤除;其次,在过采样过程中基于聚类的思想将样本集划分为不同的子簇,根据子簇的簇心及其所包含的样本数目,在簇内样本与簇心之间进行新样本的合成操作。在样本合成过程中充分考虑类间和类内数据不平衡性,对样本及时修正以保证合成样本质量,平衡样本信息;最后,利用AdaBoost算法的优势,采用决策树作为基分类器,对平衡后的样本集进行训练,迭代多次直到满足终止条件,得到最终分类模型。选择G-mean、AUC作为评价指标,通过在6组KEEL数据集进行对比实验。实验结果表明,所提的过采样算法与经典的过采样算法SMOTE、自适应综合过采样技术(ADASYN)相比,G-means和AUC在4组中有3组最高;所提分类模型与现有的不平衡分类模型SMOTE-Boost,CUS-Boost,RUS-Boost相比,6组数据中:G-means均高于CUS-Boost和RUS-Boost,有3组低于SMOTE-Boost;AUC均高于SMOTE-Boost和RUS-Boost,有1组低于CUS-Boost。验证了所提的KSMOTE-AdaBoost具有更好的分类效果,且模型泛化性能更高。 展开更多
关键词 不平衡数据分类 合成少数类过采样技术 K近邻 过采样 聚类 ADABOOST算法
下载PDF
不平衡数据集分类方法研究综述 被引量:25
4
作者 周玉 孙红玉 +1 位作者 房倩 夏浩 《计算机应用研究》 CSCD 北大核心 2022年第6期1615-1621,共7页
社会发展的同时带来大量数据的产生,不平衡成为众多数据集的显著特点,如何使不平衡数据集得到更好的分类效果成为了机器学习的研究热点。基于此,对目前存在的不平衡数据集分类方法进行综述研究,从不平衡数据采样方法、基于机器学习的改... 社会发展的同时带来大量数据的产生,不平衡成为众多数据集的显著特点,如何使不平衡数据集得到更好的分类效果成为了机器学习的研究热点。基于此,对目前存在的不平衡数据集分类方法进行综述研究,从不平衡数据采样方法、基于机器学习的改进算法以及组合方法三个层面对目前存在的方法进行全面的梳理与总结,对各方面方法所解决的问题、算法思想、应用场景以及各自的优缺点进行归纳和分析,同时对不平衡数据集分类方法存在的问题和未来研究方向提出一些总结和展望。 展开更多
关键词 不平衡数据集 分类 数据处理 机器学习
下载PDF
基于欠采样和代价敏感的不平衡数据分类算法 被引量:24
5
作者 王俊红 闫家荣 《计算机应用》 CSCD 北大核心 2021年第1期48-52,共5页
针对不平衡数据集中的少数类在传统分类器上预测精度低的问题,提出了一种基于欠采样和代价敏感的不平衡数据分类算法——USCBoost。首先在AdaBoost算法每次迭代训练基分类器之前对多数类样本按权重由大到小进行排序,根据样本权重选取与... 针对不平衡数据集中的少数类在传统分类器上预测精度低的问题,提出了一种基于欠采样和代价敏感的不平衡数据分类算法——USCBoost。首先在AdaBoost算法每次迭代训练基分类器之前对多数类样本按权重由大到小进行排序,根据样本权重选取与少数类样本数量相当的多数类样本;之后将采样后的多数类样本权重归一化并与少数类样本组成临时训练集训练基分类器;其次在权重更新阶段,赋予少数类更高的误分代价,使得少数类样本权重增加更快,并且多数类样本权重增加更慢。在10组UCI数据集上,将USCBoost与AdaBoost、AdaCost、RUSBoost进行对比实验。实验结果表明USCBoost在F1-measure和G-mean准则下分别在6组和9组数据集获得了最高的评价指标。可见所提算法在不平衡数据上具有更好的分类性能。 展开更多
关键词 不平衡数据 分类 代价敏感 ADABOOST算法 欠采样
下载PDF
不平衡训练数据下的基于深度学习的文本分类 被引量:21
6
作者 陈志 郭武 《小型微型计算机系统》 CSCD 北大核心 2020年第1期1-5,共5页
近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流.但是当不同类别的训练数据不均衡时,训练得到的神经网络模型会由多数类所主导,分类结果往往倾向多数类,极大彩响了分类... 近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流.但是当不同类别的训练数据不均衡时,训练得到的神经网络模型会由多数类所主导,分类结果往往倾向多数类,极大彩响了分类效果.针对这种情况,本文在卷积神经网络训练过程中,损失函数引入类别标签权重,强化少数类对模型参数的影响.在复旦大学文本分类数据集上进行测试,实验表明本文提出的方法相比于基线系统宏平均F1值提高了4.49%,较好地解决数据不平衡分类问题. 展开更多
关键词 不平衡数据集 词向量 卷积神经网络 文本分类
下载PDF
基于机器学习方法的强对流天气识别研究 被引量:15
7
作者 修媛媛 韩雷 冯海磊 《电子设计工程》 2016年第9期4-7,11,共5页
用机器学习中有监督学习模型支持向量机SVM来进行强对流天气的识别和预报。强对流天气的发生可以看作是小概率事件,因此强对流天气的预警问题可以作为不平衡数据分类问题来处理。在SVM的应用上结合判别准则来对不平衡数据进行处理,更好... 用机器学习中有监督学习模型支持向量机SVM来进行强对流天气的识别和预报。强对流天气的发生可以看作是小概率事件,因此强对流天气的预警问题可以作为不平衡数据分类问题来处理。在SVM的应用上结合判别准则来对不平衡数据进行处理,更好的对强对流天气进行预警。本文从数据的获取、训练算法的选择、算法的应用、实验结果的评估几个方面进行了详细的描述。通过采用丹佛地区的数据进行大量试验,排除了不平衡数据对分类的干扰,提高了强对流天气识别的准确度。 展开更多
关键词 强对流天气预警 SVM 不平衡数据分类 机器学习
下载PDF
一种改进的基于欧氏距离的SDRSMOTE算法 被引量:14
8
作者 李克文 林亚林 杨耀忠 《计算机工程与科学》 CSCD 北大核心 2019年第11期2063-2070,共8页
SMOTE算法可以扩充少数类样本,提高不平衡数据集中少数类的分类能力,但是它在扩充少数类样本时对于边界样本的选择以及随机数的取值具有盲目性。针对此问题,将传统的SMOTE过采样算法进行改进,改进后的过采样算法定义为SDRSMOTE,该算法... SMOTE算法可以扩充少数类样本,提高不平衡数据集中少数类的分类能力,但是它在扩充少数类样本时对于边界样本的选择以及随机数的取值具有盲目性。针对此问题,将传统的SMOTE过采样算法进行改进,改进后的过采样算法定义为SDRSMOTE,该算法综合考虑不平衡数据集中全部样本的分布状况,通过融合支持度sd和影响因素posFac来指导少数类样本的合成。在WEKA平台上分别使用SMOTE、SDRSMOTE算法对所选用的6个不平衡数据集进行过采样数据预处理,然后使用决策树、AdaBoost、Bagging和朴素贝叶斯分类器对预处理后的数据集进行预测,选择F-value、G-mean和AUC作为分类性能的评价指标,实验表明SDRSMOTE算法预处理的不平衡数据集的分类效果更好,证明了该算法的有效性。 展开更多
关键词 不平衡数据集 分类 边界样本 支持度 影响因素 欧氏距离 SMOTE
下载PDF
基于鲸群优化随机森林算法的非平衡数据分类 被引量:12
9
作者 叶丽珠 郑冬花 +1 位作者 刘月红 牛少华 《南京邮电大学学报(自然科学版)》 北大核心 2022年第6期99-105,共7页
为了提高非平衡数据分类的准确性,采用随机森林算法用于数据分类,并结合鲸鱼优化算法对随机森林弱分类器权重进行优化求解,以增强随机森林算法对非平衡数据分类的适应性。首先,建立基于随机森林的非平衡数据分类模型。通过随机森林的多... 为了提高非平衡数据分类的准确性,采用随机森林算法用于数据分类,并结合鲸鱼优化算法对随机森林弱分类器权重进行优化求解,以增强随机森林算法对非平衡数据分类的适应性。首先,建立基于随机森林的非平衡数据分类模型。通过随机森林的多个决策树弱分类器进行分类,有效解决样本不均衡导致的分类困难问题。接着,采用鲸群优化算法对弱分类器权重进行优化求解,将分类准确率均值作为鲸群优化适应度函数,以提高弱分类器权重投票对最终分类结果的精度。最后,采用经过鲸群优化得到的随机森林模型进行非平衡数据分类。实验证明,通过合理设置鲸群优化算法参数,可以获得分类准确度更高的随机森林弱分类器权重,相较于常用非平衡数据分类算法,文中算法能够获得更优的分类性能。 展开更多
关键词 非平衡数据分类 随机森林 鲸群优化算法 弱分类器 决策树
下载PDF
基于MTS-AdaBoost的不平衡数据分类研究 被引量:10
10
作者 顾玉萍 程龙生 《计算机应用研究》 CSCD 北大核心 2018年第2期346-348,353,共4页
不平衡数据在实际应用中广泛存在,而传统的分类算法大多假定类分布平衡,因此解决不平衡数据的分类问题已经成为数据挖掘的瓶颈问题之一。马田系统(MTS)是一种多元模式识别方法,将其与Ada Boost集成算法相结合,形成MTS-Ada Boost算法。... 不平衡数据在实际应用中广泛存在,而传统的分类算法大多假定类分布平衡,因此解决不平衡数据的分类问题已经成为数据挖掘的瓶颈问题之一。马田系统(MTS)是一种多元模式识别方法,将其与Ada Boost集成算法相结合,形成MTS-Ada Boost算法。该算法以MTS为基分类器,根据上一个基分类器的预测结果,自行调整下一个基分类器中样本被抽中的概率,以此来改变不同类数据的平衡度。最后,利用该算法对2010—2015年间上市公司的财务危机预警进行实证研究,结果表明,MTS-Ada Boost算法在系统降维和分类效果上都优于传统MTS,也优于其他常用的单一分类器。 展开更多
关键词 马田系统 AdaBoost集成算法 不平衡数据 财务危机预警 分类
下载PDF
优化的支持向量机集成分类器在非平衡数据集分类中的应用 被引量:9
11
作者 章少平 梁雪春 《计算机应用》 CSCD 北大核心 2015年第5期1306-1309,共4页
传统的分类算法大都建立在平衡数据集的基础上,当样本数据不平衡时,这些学习算法的性能往往会明显下降。对于非平衡数据分类问题,提出了一种优化的支持向量机(SVM)集成分类器模型,采用KSMOTE和Bootstrap对非平衡数据进行预处理,生成相应... 传统的分类算法大都建立在平衡数据集的基础上,当样本数据不平衡时,这些学习算法的性能往往会明显下降。对于非平衡数据分类问题,提出了一种优化的支持向量机(SVM)集成分类器模型,采用KSMOTE和Bootstrap对非平衡数据进行预处理,生成相应的SVM模型并用复合形算法优化模型参数,最后利用优化的参数并行生成SVM集成分类器模型,采用投票机制得到分类结果。对5组UCI标准数据集进行实验,结果表明采用优化的SVM集成分类器模型较SVM模型、优化的SVM模型等分类精度有了明显的提升,同时验证了不同的boot Num取值对分类器性能效果的影响。 展开更多
关键词 非平衡数据 分类算法 支持向量机 集成分类器
下载PDF
适用于中国外语学习者的英文作文全自动集成评分算法 被引量:9
12
作者 李霞 刘建达 《中文信息学报》 CSCD 北大核心 2013年第5期100-106,共7页
中国英语学习者人数众多,迫切需要针对中国学生特点的、有效适用于大规模英文作文数据的全自动评分算法,以解决中国现有英语教学和大规模英语考试中英文作文批改量大和难度大的瓶颈问题。该文提出了一种能够有效识别中国英语学习者写作... 中国英语学习者人数众多,迫切需要针对中国学生特点的、有效适用于大规模英文作文数据的全自动评分算法,以解决中国现有英语教学和大规模英语考试中英文作文批改量大和难度大的瓶颈问题。该文提出了一种能够有效识别中国英语学习者写作特点并能自动识别特征维数的特征选择方法,并在此基础上提出了适用于不平衡分布数据的集成分类评分算法。对来自中国英语学习者语料库中大学英语四、六级不同主题下的1 115篇作文的分类结果显示,该文提出的算法比传统的分类评分算法在类内及类间平均分类准确度、召回率及F度量值上均有较大幅度的提升。 展开更多
关键词 作文自动评分 不平衡数据分类 多项式朴素贝叶斯
下载PDF
基于模糊核匹配追寻的特征模式识别 被引量:8
13
作者 李青 焦李成 周伟达 《计算机学报》 EI CSCD 北大核心 2009年第8期1687-1694,共8页
核匹配追寻算法是近年来新兴的模式识别方法,在处理非线性及高维模式识别问题中表现出了突出的优点.传统的核匹配追寻在处理模式识别的问题中平等地对待所有样本,最终的判决函数是针对所有样本的一个平等综合考虑,要求总识别误差尽可能... 核匹配追寻算法是近年来新兴的模式识别方法,在处理非线性及高维模式识别问题中表现出了突出的优点.传统的核匹配追寻在处理模式识别的问题中平等地对待所有样本,最终的判决函数是针对所有样本的一个平等综合考虑,要求总识别误差尽可能小,并不能对某一类指定样本进行针对性识别,然而实际应用中经常会碰到这样的情况:要求对某一类样本的识别精度很高,尤其是对于非平衡样本中或者对于具有时间属性的样本序列,由于标准核匹配追寻学习机自身的局限性,使其不能有效地处理这些问题.文中针对这些问题,提出了模糊核匹配追寻学习机,预先根据分类的要求对每个样本做出了不同的重要性定义,学习机根据重要性不同,对样本进行程度不同的学习,最终得到基于问题的判决——对重要样本保持很高的分类精度;最后通过实际的仿真实验证明了模糊匹配追寻的有效性及可行性. 展开更多
关键词 机器学习 核匹配追寻 模糊核匹配追寻 时间序列 特征目标识别
下载PDF
基于不平衡数据集的主动学习分类算法 被引量:8
14
作者 赵小强 刘梦依 《控制工程》 CSCD 北大核心 2019年第2期314-319,共6页
针对不平衡数据集在分类过程中易产生噪声数据和分类精度低的问题,提出一种基于改进SMOTE的不平衡数据集主动学习SVM分类算法。该算法对训练样本集利用少数类样本的归属值通过多数票选择法控制合成少数类样本的数量,以距离公式为衡量标... 针对不平衡数据集在分类过程中易产生噪声数据和分类精度低的问题,提出一种基于改进SMOTE的不平衡数据集主动学习SVM分类算法。该算法对训练样本集利用少数类样本的归属值通过多数票选择法控制合成少数类样本的数量,以距离公式为衡量标准划分超平面,在分类超平面两侧选择最近距离的等量对称的多数类样本,组成平衡采样数据集,利用支持向量机(SVM)进行分类得到优化分类器,再用主动学习对去除了训练样本的不平衡数据集利用优化分类器进行分类循环,直到剩余样本为零。利用UCI数据集中的数据实验表明,该算法有效地减少了噪声数据对分类的影响,并有效改善不平衡数据集的分类精度。 展开更多
关键词 数据挖掘 不平衡数据集 分类 少数类样本合成过采样技术
下载PDF
基于改进Bert模型的建筑事故隐患分类方法研究 被引量:8
15
作者 李华 陈俞源 +2 位作者 高红 何思敏 乔峥元 《安全与环境学报》 CAS CSCD 北大核心 2022年第3期1421-1429,共9页
在智慧工地项目安全管理过程中,为实现事故隐患排查信息的自动分类识别,提出了建筑事故隐患分类的Bert改进模型。该模型首先将术语多类别加权与单词嵌入方式相结合,其次对focal loss函数采用遗传算法优化类别权重_(αt代替)交叉熵损失函... 在智慧工地项目安全管理过程中,为实现事故隐患排查信息的自动分类识别,提出了建筑事故隐患分类的Bert改进模型。该模型首先将术语多类别加权与单词嵌入方式相结合,其次对focal loss函数采用遗传算法优化类别权重_(αt代替)交叉熵损失函数,再者以Bert模型为基础构建了3种改进型分类算法,实现了隐患语料集的有效分类,最后采用3组算法对语料集进行对比验证。结果表明:ga_Bert+tfidf+focal模型在各隐患类别上的总体F_(1)分别高出其他3类模型5.9%、1.6%和0.66%,达到92.86%,对建筑事故隐患文本分类适用性较好。改进后的Bert模型解决了术语在不同类别标签的文档中具有不同重要性的问题,减缓了在多分类任务中各类别数据分布不均衡对模型分类性能的影响,为建筑企业项目安全管理智能化提供了理论支持。 展开更多
关键词 安全社会工程 Focal loss Bert 术语权重 不均衡数据集 事故隐患分类
下载PDF
双判别器生成对抗网络及其在接触网鸟巢检测与半监督学习中的应用 被引量:8
16
作者 金炜东 杨沛 唐鹏 《中国科学:信息科学》 CSCD 北大核心 2018年第7期888-902,共15页
基于图像的接触网异常检测中,鸟巢检测是其中一种典型的异常状况.但在接触网图像数据中含有鸟巢的图像只占总数据很小的一部分,属一类典型的不平衡数据分类问题.使用机器学习模型解决该类不平衡数据问题,模型对于数据特征的学习能力非... 基于图像的接触网异常检测中,鸟巢检测是其中一种典型的异常状况.但在接触网图像数据中含有鸟巢的图像只占总数据很小的一部分,属一类典型的不平衡数据分类问题.使用机器学习模型解决该类不平衡数据问题,模型对于数据特征的学习能力非常关键.生成对抗网络(generative adversarial networks,GANs)可以无监督地学习到丰富的数据特征,其优异的数据特征捕获能力被越来越多地证实和应用.但由于GANs模型自身结构及原理所限,直接将其用作图像分类模型效果并不理想.本文针对图像分类任务对GANs模型进行了研究和改进,提出了双判别器生成对抗网络(double discriminator generative adversarial networks,DDGANs),在接触网鸟巢检测中取得了令人满意的分类效果.同时DDGANs也是一种有效的半监督学习模型,对MNIST标准数据集的实验表明,与其他模型相比,准确率和收敛速度获得了明显提高. 展开更多
关键词 生成对抗网络 半监督学习 不平衡数据分类 异常检测 接触网
原文传递
不平衡数据集上的文本分类特征选择新方法 被引量:8
17
作者 张玉芳 王勇 +1 位作者 熊忠阳 刘明 《计算机应用研究》 CSCD 北大核心 2011年第12期4532-4534,共3页
针对不平衡数据集上进行文本分类,传统的特征选择方法容易导致分类器倾向于大类而忽视小类,提出一种新的特征选择方法 IPR(integrated probability ratio)。该方法综合考虑特征在正类和负类中的分布性质,结合四种衡量特征类别相关性的... 针对不平衡数据集上进行文本分类,传统的特征选择方法容易导致分类器倾向于大类而忽视小类,提出一种新的特征选择方法 IPR(integrated probability ratio)。该方法综合考虑特征在正类和负类中的分布性质,结合四种衡量特征类别相关性的指标对特征词进行评分,能够更好地解决传统特征选择方法在不平衡数据集上的不适应性,在不降低大类分类性能的同时提高了小类的识别率。实验结果表明,该方法有效可行。 展开更多
关键词 不平衡数据集 文本分类 特征选择 正类 负类
下载PDF
不平衡数据的迁移学习分类算法 被引量:8
18
作者 陈琼 徐洋洋 陈林清 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第1期122-130,共9页
以Tr Adaboost算法为基础,提出了一个针对不平衡数据的二分类迁移学习算法Unbalanced Tr Adaboost(UBTA).UBTA算法利用不同类别的Precision-Recall曲线下的面积auprc(the Area Under the Precision-Recall Curve)计算弱分类器权重,对不... 以Tr Adaboost算法为基础,提出了一个针对不平衡数据的二分类迁移学习算法Unbalanced Tr Adaboost(UBTA).UBTA算法利用不同类别的Precision-Recall曲线下的面积auprc(the Area Under the Precision-Recall Curve)计算弱分类器权重,对不同类别的样本采取不同的权重更新策略;AUC指标对数据分布变化不敏感,结合G-mean和BER能更准确地评估不平衡分类算法的性能.实验结果表明,UBTA具有较好的分类性能,既能提升对少数类的关注,又能保持多数类的分类准确度. 展开更多
关键词 不平衡数据 分类 迁移学习 分类准确度 Precision-Recall曲线
下载PDF
基于改进BP神经网络的非均衡数据分类算法 被引量:7
19
作者 张文东 吕扇扇 张兴森 《计算机系统应用》 2017年第6期153-156,共4页
传统的分类算法大都默认所有类别的分类代价一致,导致样本数据非均衡时产生分类性能急剧下降的问题.对于非均衡数据分类问题,结合神经网络与降噪自编码器,提出一种改进的神经网络实现非均衡数据分类算法,在神经网络模型输入层与隐层之... 传统的分类算法大都默认所有类别的分类代价一致,导致样本数据非均衡时产生分类性能急剧下降的问题.对于非均衡数据分类问题,结合神经网络与降噪自编码器,提出一种改进的神经网络实现非均衡数据分类算法,在神经网络模型输入层与隐层之间加入一层特征受损层,致使部分冗余特征值丢失,降低数据集的不平衡度,训练模型得到最优参数后进行特征分类得到结果.选取UCI标准数据集的3组非均衡数据集进行实验,结果表明采用该算法对小数据集的分类精度有明显改善,但是数据集较大时,分类效果低于某些分类器.该算法的整体分类效果要优于其他分类器. 展开更多
关键词 非均衡数据 神经网络 降噪自编码器 分类
下载PDF
非均衡数据的去噪模糊支持向量机新方法 被引量:4
20
作者 张桂香 费岚 +1 位作者 杜喆 刘三阳 《计算机工程与应用》 CSCD 北大核心 2008年第16期142-144,共3页
针对支持向量机对噪声的敏感,以及当两类训练样本数量差别悬殊时,造成分类结果倾向较大类等弱点,通过理论分析,合理地设计隶属度函数,提出了一种新隶属度函数的模糊支持向量机。该方法既可补偿倾向性造成的不利影响,又可增加抗噪声能力... 针对支持向量机对噪声的敏感,以及当两类训练样本数量差别悬殊时,造成分类结果倾向较大类等弱点,通过理论分析,合理地设计隶属度函数,提出了一种新隶属度函数的模糊支持向量机。该方法既可补偿倾向性造成的不利影响,又可增加抗噪声能力,提高预测分类精度。最后通过对含噪声的非均衡数据实验表明,该方法比传统支持向量机和简单去噪模糊支持向量机都有着较高的分类能力。 展开更多
关键词 支持向量机 非均衡数据 分类 隶属度函数
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部