基于自然邻居和最小生成树的原型选择算法被引量：3

Prototype Selection Algorithm Based on Natural Neighbor and MST

下载PDF

导出

摘要 K最近邻居是最流行的有监督分类算法之一。然而,传统的K最近邻居有两个主要的问题:参数K的选择以及在大规模数据集下过高的时间和空间复杂度需求。为了解决这些问题,提出了一种新的原型选择算法,它保留了一些对分类贡献很大的关键原型点,同时移除噪声点和大多数对分类贡献较小的点。不同于其他原型选择算法,该算法使用了自然邻居这个新的邻居概念来做数据预处理,然后基于设定的终止条件构建若干个最小生成树。基于最小生成树,保留边界原型,同时生成一些具有代表性的内部原型。基于UCI基准数据集进行实验,结果表明提出的算法有效地约简了原型的数量,同时保持了与传统KNN相同水平的分类准确率;而且,该算法在分类准确率和原型保留率上优于其他原型选择算法。 K-nearest neighbor（KNN）is one of the most popular algorithms for supervised classification.However,the traditional KNN classification has two limitations that the option of parameter K and prohibitive computational and storage demand for large datasets.To overcome these limitations,a new prototype selection algorithm was proposed,which retains some key prototypes that make a large contribution to classification and removes the most of other prototypes with little contribution for classification.Differing from other prototype selection algorithms,the proposal uses a novel neighbor concept natural neighbor to preprocess the dataset and builds minimum spanning tree based on the specific terminal conditions.According to the MST,the prototypes close to boundaries and some internal prototypes are preserved.Experimental results show that the proposed algorithm effectively reduces the number of prototypes while maintaining the same level of classification accuracy as the traditional KNN classification algorithm.Moreover,it is a little bit superior to other prototype selection algorithms in classification accuracy and retention ratio.

作者朱庆生段浪军杨力军

机构地区重庆大学计算机学院

出处《计算机科学》 CSCD 北大核心 2017年第4期241-245,268,共6页 Computer Science

基金国家自然科学基金(61272194)资助

关键词 K最近邻居原型选择自然邻居最小生成树分类 K-nearest neighbor Prototype selection Natural neighbor Minimum spanning tree Classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献20

1李订芳,胡文超,何炎祥.基于共享最近邻聚类和模糊集理论的分类器[J].控制与决策,2006,21(10):1103-1108. 被引量：5
2贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：228
3吴加敏,姚建华,张永庭,王志有.银川平原土壤盐渍化与中低产田遥感应用研究[J].遥感学报,2007,11(3):414-419. 被引量：19
4孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1079
5姚荣江,杨劲松,陈小兵,余世鹏,李晓明.苏北海涂典型围垦区土壤盐渍化风险评估研究[J].中国生态农业学报,2010,18(5):1000-1006. 被引量：23
6王飞,丁建丽,伍漫春.基于NDVI-SI特征空间的土壤盐渍化遥感模型[J].农业工程学报,2010,26(8):168-173. 被引量：81
7丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10. 被引量：925
8陈海涛,梁富山.基于支持向量机的地下水位预测[J].华北水利水电学院学报,2011,32(2):11-14. 被引量：7
9周在明,张光辉,王金哲,严明疆.环渤海低平原区土壤盐渍化风险的多元指示克立格评价[J].水利学报,2011,42(10):1144-1151. 被引量：17
10谷洪彪,姜纪沂.土壤盐碱化的灾害学定义及其风险评价体系[J].灾害学,2013,28(1):23-27. 被引量：18

引证文献3

1李捷,陈雁彬.基于自然邻居改进的DBSCAN算法[J].现代计算机,2018,24(9):3-7.
2武丹,贾科利,张晓东,张俊华.基于异质SVM神经网络的土壤盐渍化灾害预测模型[J].水文地质工程地质,2018,45(5):143-149. 被引量：12
3孙元元,张德生,张晓.基于CURE聚类算法改进的原型选择算法[J].计算机系统应用,2019,28(8):162-169. 被引量：2

二级引证文献14

1杨丽萍,任杰,王宇,张静,王彤,李凯旋.基于多源遥感数据的居延泽地区土壤盐分估算模型[J].农业机械学报,2022,53(11):226-235. 被引量：10
2魏玉涛,刘德玉,张伟,喻生波,吴耀坤.荒漠-湿地生态系统区盐渍土特征及空间变异性[J].水文地质工程地质,2020,47(2):183-190. 被引量：5
3何攀,许强,刘佳良,蒲川豪,陈达,赵宽耀.基于核磁共振与氮吸附技术的黄土含盐量对结合水膜厚度的影响研究[J].水文地质工程地质,2020,47(5):142-149. 被引量：11
4张研,廖逸夫,王鹏鹏,吴哲康.THM作用下砂岩三轴抗压强度预测的PCA-RVM模型[J].矿业研究与开发,2020,40(11):52-58.
5高曦文,贾科利,毛鸿欣,张俊华.基于小波变换及异质SVM方法的土壤盐渍化高光谱定量分类研究[J].现代电子技术,2021,44(3):155-161. 被引量：2
6毛鸿欣,贾科利,张旭.基于实测高光谱和Sentinel-2B影像的银川平原土壤盐分反演[J].云南大学学报（自然科学版）,2021,43(5):929-941. 被引量：10
7靳晓辉,樊玉苗,段浩,杨健,宋常吉,贾倩,胡亚伟.银川平原地下水位对黄河流域水量统一调度的时空响应分析[J].水资源与水工程学报,2021,32(4):45-51. 被引量：3
8顾晴,董永权,胡杨.相似重复记录检测研究与发展动态的知识图谱分析[J].计算机应用与软件,2022,39(3):1-7. 被引量：1
9陈忠华,朱军,王育飞,凌晨.基于一致性K均值聚类的电动汽车充电负荷建模方法[J].现代电力,2022,39(3):338-346. 被引量：11
10魏慧敏,贾科利,张旭,张俊华.基于机器学习和多光谱遥感的银川平原土壤盐分预测[J].干旱区地理,2023,46(1):103-114. 被引量：5

1刘永强.基于原型选择的图嵌入方法研究[J].电脑知识与技术（过刊）,2015,21(1X):172-175.
2李娟,王宇平.自适应边界逼近的原型选择算法[J].模式识别与人工智能,2015,28(6):568-576. 被引量：1
3李净,郭洪禹.图像检索中结合文本信息的多示例原型选择及主动学习策略[J].计算机应用,2012,32(10):2899-2903. 被引量：3
4钱峻屏,彭龙军.网络地理信息系统的研制与开发[J].遥感技术与应用,2000,15(3):184-188. 被引量：16
5李娟,王宇平.考虑局部均值和类全局信息的快速近邻原型选择算法[J].自动化学报,2014,40(6):1116-1125. 被引量：10
6王忠林,尹宝林.开源软件定制改造过程中的原型选择[J].北京航空航天大学学报,2006,32(12):1490-1494. 被引量：3
7刘小凯,方勇,黄诚,刘亮.基于有限状态机的Web漏洞扫描器识别研究[J].信息安全研究,2017,3(2):123-128. 被引量：3
8潘家驰.通信服务供应商的信息回报[J].微电脑世界,2013(6):95-95.
9王林,郭娜娜.基于差异度的不均衡电信客户数据分类方法[J].计算机应用,2017,37(4):1032-1037. 被引量：11
10构建高密度数据中心[J].网管员世界,2012(11):117-117.

计算机科学

2017年第4期

浏览历史

内容加载中请稍等...

基于自然邻居和最小生成树的原型选择算法被引量：3

同被引文献20

引证文献3

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于自然邻居和最小生成树的原型选择算法 被引量：3

同被引文献20

引证文献3

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于自然邻居和最小生成树的原型选择算法被引量：3