-
题名类别混叠度对非均衡数据分类的有效性分析
被引量:2
- 1
-
-
作者
邢延
陈嘉锋
贾小彦
汪新
-
机构
广东工业大学自动化学院
广东工业大学土木与交通工程学院
-
出处
《数据采集与处理》
CSCD
北大核心
2018年第5期936-944,共9页
-
基金
国家自然科学基金(51378128)资助项目
广东省自然科学基金(2015A030313498)资助项目
-
文摘
类别混叠度是指不同类别数据之间互相交叠、混合的程度,其量化指标包含基于几何统计的和基于信息论的两类,用于衡量数据分类的难易。实际分类任务中存在大量的非均衡数据,大类与小类样本之间悬殊的数量差别给分类造成了极大的困难。本文采用实验研究的方法,验证类别混叠度量化指标指导非均衡数据分类的有效性,以减少甚至避免盲目试错带来的庞大计算开销。首先,针对两类分类问题,设计验证实验,在不同类数据非均衡率,不同别边界形状、不同特征类型、不同概率分布的非均衡仿真数据上研究类别混叠度的有效性。其次,在实验研究的基础上,分析数据的非均衡性对类别混叠度的影响规律,找出类别混叠度指导非均衡分类的有效方法。最后,在真实的非均衡数据上验证类别混叠度指导非均衡分类的实际效果。实验结果表明,对数据的非均衡率具有较强鲁棒性的类别混叠度量化指标可以有效地指导非均衡数据的分类器选择。
-
关键词
类别混叠度
分类复杂度
非均衡数据
分类
非均衡率
-
Keywords
class overlap measures
classification complexity
imbalanced data
classification
imbalance ratio
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于伪分类超平面的线性可分几何判定方法及应用
- 2
-
-
作者
张银川
韩立新
曾晓勤
-
机构
河海大学计算机与信息学院智能科学与技术研究所南京
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2014年第1期60-69,共10页
-
基金
国家自然科学基金资助项目(No.60971088)
-
文摘
针对模式分类中线性可分的问题,文中将模式看作是欧氏空间中的点,研究欧氏空间中点与面的关系等解析几何性质,在一般的分类超平面概念上定义伪分类超平面.根据线性可分等价性,在需降维时进行空间映射.研究根据数据寻找伪分类超平面,给出几何意义明显的线性可分判断方法,在该方法的基础上给出一种分类复杂度的度量方法.实验结果表明,该方法较好地体现数据的分类复杂度.
-
关键词
线性可分
伪分类超平面
空间映射
分类复杂度
-
Keywords
Linear Separability, Pseudo-Separating Hyperplane, Space Mapping, ClassificationComplexity
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-