题名 基于集成学习和代价敏感的类别不平衡数据分类算法
被引量:1
1
作者
贺指陈
机构
广东工业大学数学与统计学院
出处
《信息记录材料》
2022年第1期18-22,共5页
文摘
在数据分类分析中,一些特别的类别里往往存在更重要的信息。提出一种基于集成学习,欠采样和代价敏感的类别不平衡数据分类算法(USCensemble),来解决传统算法处理类别不平衡数据分类任务时难以正确识别少数类样本的问题。该算法首先运用EasyEnsemble的算法结构,在前一组数据训练完毕后,运用欠采样方法选取权重大的多数类样本,并将其与少数类样本结合为临时训练数据以此平衡数据集并进行下一轮训练。同时赋予少数类样本更大的错分代价,快速提高错误分类的少数类的样本权重,降低多数类的样本权重,使算法更倾向少数类的正确分类,达到对少数类样本正确识别的目的。在10个uci的数据集生成的分类任务上进行了对比实验,实验结果表明,该算法能更好地识别少数类样本。
关键词
类别不平衡数据
分类
集成学习
欠采样
代价敏感
Keywords
class imbalance data
class ification
Ensemble learning
Undersampling
Cost-sensitiveness
分类号
TP274
[自动化与计算机技术—检测技术与自动化装置]
题名 面向高维混合不平衡信贷数据的单类分类方法
被引量:1
2
作者
张东梅
买日旦·吾守尔
古兰拜尔·吐尔洪
机构
新疆大学信息科学与工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2021年第10期233-240,共8页
基金
教育厅高校科研青年项目(61021800032,61021211418)
自治区高层次创新人才项目(100400016,042419006)
新疆大学博士启动基金(620312308,620312310)。
文摘
为实现对高维混合、不平衡信贷数据中的不良贷款者的准确预测,从降维预处理和分类算法两方面进行优化,提出一种基于混合数据主成分分析(Principal Component Analysis of Mixed Data,PCAmix)预处理的单类K近邻(K-Nearest Neighbor,KNN)计算均值算法。针对传统的主成分分析(Principal Component Analysis,PCA)不能直接处理定性变量的问题,使用PCAmix降维预处理数据,为规避不平衡数据在二分类模型中性能较差的缺点,采用单类分类和K近邻算法邻居计算的思想,仅采用多数类训练模型。利用Bootstrap方法找到最佳的决策边界,使得正负样本最大限度地分离,最终准确预测客户的违约风险。采用UCI数据库中的German和Default个人信用评分数据集进行验证,实验结果表明该算法在处理高维混合、不平衡的信贷数据上具有较好的分类效果。
关键词
信用评分
单类分类
不平衡数据
高维混合数据
混合数据主成分分析
Keywords
credit score
one-class class ification
imbalance data
high-dimensional mixed data
Principal Component Analysis of Mixed data (PCAmix)
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 代价敏感支持向量机的投影次梯度求解方法
3
作者
梁万路
机构
解放军炮兵学院
出处
《兵工自动化》
2011年第4期85-87,共3页
基金
国家自然科学基金项目"统计学习理论与算法研究"(60575001)和"基于损失函数的统计机器学习算法及其应用研究"(60975040)
文摘
针对传统的分类算法以及精度作为评价指标不能够满足现实分类问题的需要,将代价敏感方法引入支持向量机中,提出一种新的学习算法CSSVM,并得到了类似于Pegasos的投影次梯度求解方法,用于大规模数据的处理。Pegasos的步骤包括初始化、迭代、确定梯度下降的步长、确定梯度下降方向、更新、投影和结束。实验结果表明,该算法能有效提高识别率和识别精度,具有一定的竞争力。
关键词
不均衡数据
代价敏感
支持向量机
大规模数据
Keywords
class -imbalance data
cost-sensitive
SVM
large scale data
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于邻域粗糙集的高维类不平衡数据在线流特征选择
被引量:17
4
作者
陈祥焰
林耀进
王晨曦
机构
闽南师范大学计算机学院
数据科学与智能应用福建省高等学校重点实验室
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2019年第8期726-735,共10页
基金
国家自然科学基金项目(No.61672272)
福建省自然科学基金项目(No.2018J01548,2018J01547)
福建省教育厅科技项目(No.JT180318)资助~~
文摘
在许多实际应用中,数据经常呈现高维不平衡特征,特征还根据需求在不同时间段动态生成.基于此种情况,文中提出基于邻域粗糙集的高维类不平衡数据的在线流特征选择算法.算法设计基于小类重要度的粗糙依赖度计算公式,同时,提出在线相关性分析、在线冗余度分析、在线重要度分析三种策略,用于选择在大类和小类之间具有高可分离性的特征.在7个高维类不平衡数据集上的实验表明,文中算法可以有效选择一个较好的特征子集,性能较优.
关键词
在线特征选择
高维不平衡数据
邻域粗糙集
粗糙依赖度
Keywords
Online Feature Selection
High-Dimensional and class -imbalance data
Neighborhood Rough Set
Rough Dependence
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 多类不平衡数据分类方法综述
被引量:8
5
作者
李昂
韩萌
穆栋梁
高智慧
刘淑娟
机构
北方民族大学计算机科学与工程学院
出处
《计算机应用研究》
CSCD
北大核心
2022年第12期3534-3545,共12页
基金
国家自然科学基金资助项目(62062004)
宁夏自然科学基金资助项目(2020AAC03216,2022AAC03279)
北方民族大学研究生创新项目(YCX22191)。
文摘
现实中许多领域产生的数据通常具有多个类别并且是不平衡的。在多类不平衡分类中,类重叠、噪声和多个少数类等问题降低了分类器的能力,而有效解决多类不平衡问题已经成为机器学习与数据挖掘领域中重要的研究课题。根据近年来的多类不平衡分类方法的文献,从数据预处理和算法级分类方法两方面进行了分析与总结,并从优缺点和数据集等方面对所有算法进行了详细分析。在数据预处理方法中,介绍了过采样、欠采样、混合采样和特征选择方法,对使用相同数据集算法的性能进行了比较。从基分类器优化、集成学习和多类分解技术三个方面对算法级分类方法展开介绍和分析。最后对多类不平衡数据分类研究领域的未来发展方向进行总结归纳。
关键词
分类
多类不平衡数据
数据预处理方法
算法级分类方法
Keywords
class ification
multi-class imbalance data
data preprocessing method
algorithm-level class ification method
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
题名 处理多类不平衡数据的SVM分类算法
被引量:7
6
作者
李珍香
王文剑
郭虎升
机构
中国民航大学计算机学院
山西大学计算机与信息技术学院
出处
《计算机工程与设计》
CSCD
北大核心
2014年第7期2499-2503,共5页
基金
国家自然科学基金项目(60975035
61273291)
+1 种基金
山西省回国留学人员科研基金项目(2012-008)
山西省研究生教育创新基金项目(2013-001)
文摘
针对多类不平衡数据分类准确率低的问题,提出一种基于空间扩展的支持向量机学习算法(support vector machine algorithm based on space spreading,SS-SVM)。根据空间扩展原理,在多维欧式空间中通过空间扩展对少类数据进行上采样,使其处理数据时减少小区块的影响;降低数据不平衡度以优化分类器组;在扩展的数据集上训练SVM分类器。标准数据集上的实验结果表明,与几种经典的算法相比,SS-SVM在多类不平衡数据分类上可获得令人满意的分类结果,对少类数据分类精度要求较高的问题尤为有效。
关键词
多类不平衡数据
支持向量机
空间扩展
小区快
上采样
SS-SVM算法
Keywords
multi-class imbalance data
support vector machine
space-spreading
small-block
up-sampling
SS-SVM algorithm
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 知识嵌入的迁移孪生支持向量机
被引量:2
7
作者
王洪元
耿磊
倪彤光
王冲
机构
常州大学信息学院
出处
《控制与决策》
EI
CSCD
北大核心
2019年第3期519-526,共8页
基金
国家自然科学基金项目(61572085
61502058)
文摘
孪生支持向量机(TwinSVM)相比支持向量机在解决类别不平衡数据问题上具有优势,但其在训练数据不足时受训所得分类器的泛化能力较差.针对此问题,探讨一种知识嵌入的迁移孪生支持向量机(KE-T-TwinSVM).该分类器不但继承了TwinSVM的优点,还可基于知识嵌入的思想利用从相关领域学到的知识来辅助学习以提高分类效果.各种真实数据集上的实验结果表明,所提出的分类器在目标领域数据不足和不平衡情况下具有更佳的性能.
关键词
分类
孪生支持向量机
迁移学习
不平衡数据
Keywords
class ification
twin support vector machines
transfer learning: class -imbalance data
分类号
TP311
[自动化与计算机技术—计算机软件与理论]