-
题名基于改进邻域空间的高维混合数据特征选择算法
被引量:1
- 1
-
-
作者
张腾飞
张宇迪
马福民
-
机构
南京邮电大学自动化学院人工智能学院
南京财经大学信息工程学院
-
出处
《控制与决策》
EI
CSCD
北大核心
2024年第3期929-938,共10页
-
基金
国家自然科学基金项目(62073173,61973151)
江苏省自然科学基金项目(BK20191376,BK20191406)。
-
文摘
作为数据挖掘领域中一项重要的数据预处理技术,特征选择算法能够有效应对高维数据带来的“维数灾难”问题.然而,如何对高维的混合数据进行特征选取仍然是当前研究的重点和难点之一.基于邻域关系的邻域粗糙集模型因其能够处理名词型属性与数值型属性并存的混合数据,已成功应用于混合数据的特征选择.但是,现有邻域粗糙集对混合数据邻域关系的度量,仍然是基于等价关系的名词型数据划分与基于相似关系的数值型数据划分的简单融合,在利用模型划分的邻域空间和预定义的评价函数对高维混合数据进行特征选取时,适应性较差.为此,在邻域粗糙集模型的基础上,提出一种改进的邻域空间构造方法,并设计相应的邻域空间度量公式作为判别指标,自适应地调节邻域空间下邻域粒的大小;为了准确地表征高维混合数据邻域空间的判别能力,设计一种考虑边界数据和邻域空间大小的评价函数;在此基础上,提出一种启发式的高维混合数据特征选择算法.通过UCI标准数据集验证所提出算法的有效性.
-
关键词
特征选择
邻域空间
高维混合数据
邻域粗糙集
评价函数
-
Keywords
feature selection
neighborhood space
high-dimensional mixed data
neighborhood rough set
evaluation function
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名网络云计算中高维混合数据高效检测仿真
被引量:1
- 2
-
-
作者
梁燕红
-
机构
玉林师范学院
-
出处
《计算机仿真》
北大核心
2018年第3期309-313,共5页
-
基金
国家自然科学基金项目(61364020)
广西壮族自治区教育厅科研项目(2013LX111)
玉林师范学院2014年教师教育研究专项课题(2014XJJSJY15)
-
文摘
网络云计算中对高维混合数据的高效检测,能够有效提高云计算环境下高维混合数据的利用效率。对高维混合数据的检测,需要通过对高维混合数据属性的抽取,对高维混合数据进行聚类,完成高维数据的检测。传统方法对数据进行相空间重构,并提取关联规则特征,但忽略了对高维混合数据进行聚类,导致检测精度偏低。提出基于指数分布模型的网络云计算中高维混合数据高效检测方法,首先对网络云计算中高维混合数据分布的概率密度函数进行分析,利用网络云计算中web间的重要性衰减因子,建立高维混合数据的指数分布模型,通过对高维混合数据属性的抽取,对高维混合数据进行聚类,并利用数据的描述簇,实现高维混合数据检测。实验结果表明,所提方法能够有效提高高维混合数据检测的效率,为上述领域的研究发展提供新的思路。
-
关键词
云计算
高维混合数据
数据检测
-
Keywords
Cloud computing
High-dimensional mixed data
Data detection
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名通信网络中高维混合数据弱关联挖掘方法仿真
被引量:1
- 3
-
-
作者
陈志华
-
机构
广东技术师范大学
-
出处
《计算机仿真》
北大核心
2019年第12期284-287,331,共5页
-
基金
广东省科技发展专项资金项目(2017A040403068)
-
文摘
采用当前方法挖掘高维混合数据弱关联时,数据挖掘所用的时间较长,方法对应的容错系数较低,存在挖掘效率低和容错性差的问题。为此提出通信网络中高维混合数据弱关联挖掘方法。采用K-means算法对通信网络做分簇处理,分析节点之间在通信网络中的关联模式,根据分析结果构建一元线性回归模型,消除高维混合数据中存在的空间冗余数据。通过FCM算法对处理后的高维混合数据做离散化处理,获得不同等级的模糊集,利用模糊集构建模糊数据库,采用Apriori算法在数据库中计算蕴涵度得到频繁项集,结合蕴涵度和频繁项集挖掘通信网络中高维混合数据的弱关联规则。仿真结果表明,所提方法的挖掘效率高,容错性好。
-
关键词
通信网络
高维混合数据
弱关联挖掘
-
Keywords
Communications network
High-dimensional mixed data
Weak correlation mining
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名一种改进的K-Prototypes聚类算法
被引量:1
- 4
-
-
作者
吴孟书
吴喜之
-
机构
中国人民大学统计学院
-
出处
《统计与决策》
CSSCI
北大核心
2008年第5期24-26,共3页
-
基金
国家自然科学基金资助项目(10431010)
教育部重点基地重大项目(05JJD910001)
-
文摘
传统的K-Prototypes聚类算法是利用划分的思想来对混合数据进行聚类,但是当混合数据的维度增大时,对象之间的差异度几乎相等,使得此算法难以进行。针对上述缺陷,文章提出一种改进的K-Prototyes聚类算法,聚类前先剔除各类中不相关的维度,将高维混合数据投影降维后再进行聚类。文中给出了Heart Disease Databases的算例,验证了算法的有效性。
-
关键词
高维混合数据
投影寻踪聚类
K—Prototyes聚类
-
分类号
F224.7
[经济管理—国民经济]
-
-
题名面向高维混合不平衡信贷数据的单类分类方法
被引量:1
- 5
-
-
作者
张东梅
买日旦·吾守尔
古兰拜尔·吐尔洪
-
机构
新疆大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2021年第10期233-240,共8页
-
基金
教育厅高校科研青年项目(61021800032,61021211418)
自治区高层次创新人才项目(100400016,042419006)
新疆大学博士启动基金(620312308,620312310)。
-
文摘
为实现对高维混合、不平衡信贷数据中的不良贷款者的准确预测,从降维预处理和分类算法两方面进行优化,提出一种基于混合数据主成分分析(Principal Component Analysis of Mixed Data,PCAmix)预处理的单类K近邻(K-Nearest Neighbor,KNN)计算均值算法。针对传统的主成分分析(Principal Component Analysis,PCA)不能直接处理定性变量的问题,使用PCAmix降维预处理数据,为规避不平衡数据在二分类模型中性能较差的缺点,采用单类分类和K近邻算法邻居计算的思想,仅采用多数类训练模型。利用Bootstrap方法找到最佳的决策边界,使得正负样本最大限度地分离,最终准确预测客户的违约风险。采用UCI数据库中的German和Default个人信用评分数据集进行验证,实验结果表明该算法在处理高维混合、不平衡的信贷数据上具有较好的分类效果。
-
关键词
信用评分
单类分类
不平衡数据
高维混合数据
混合数据主成分分析
-
Keywords
credit score
one-class classification
imbalance data
high-dimensional mixed data
Principal Component Analysis of Mixed Data(PCAmix)
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-