K-最近邻分类技术的改进算法被引量：25

An Improved K-Nearest Neighbor Algorithm

下载PDF

导出

摘要该文提出了一种改进的K-最近邻分类算法。该算法首先将训练事例集中的每一类样本进行聚类,既减小了训练事例集的数据量,又去除了孤立点,大大提高了算法的快速性和预测精度,从而使该算法适用于海量数据集的情况。同时,在算法中根据每个属性对分类贡献的大小,采用神经网络计算其权重,将这些属性权重用在最近邻计算中,从而提高了算法的分类精度。在几个标准数据库和实际数据库上的实验结果表明,该算法适合于对复杂而数据量比较大的数据库进行分类。 This paper presents a improved K.-NN algorithm. The CURE clustering is carried out to select the subset of the training set. It can reduce the volume of the training set and omit the outlier. Therefore it can lead both to computational efficiency and to higher classification accuracy. In the algorithm, the weights of each feature are learned using neural network. The feature weights are used in the nearest measure computation such that the important features contribute more in the nearest measure. Experiments on several UCI databases and practical data sets show the efficiency of the algorithm.

作者王晓晔王正欧

机构地区天津大学系统工程研究所

出处《电子与信息学报》 EI CSCD 北大核心 2005年第3期487-491,共5页 Journal of Electronics & Information Technology

基金国家自然科学基金(60275020)河北省教委基金(2002269)资助课题

关键词 K-最近邻聚类权值调整分类 K-nearest neighbor, Cluster, Weight adjustment, Classification

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1Shin C, Yun U, Kim H, Park S. A hybrid approach of neural network and memory-based learning to data mining. IEEE Trans. on Neural Networks, 2000, 11(3): 637 - 46. 被引量：1
2Wettschereck D, Aha D W, Mohri T. A review and empirical evaluation of feature weighting metbords for a class of lazy learning algorithms. AI Review, 1997, 11 (2): 273 - 314. 被引量：1
3范明孟小峰.数据挖掘概念与技术:第七章第七节[M].北京:机械工业出版社,2001.. 被引量：1
4Kuncheva L I. Fitness Functions in Editing k-nn Reference Set by Genetic Algorithms. Pattern Recognition, 1997, 30(6):1041 - 1049. 被引量：1
5Setiono R, Liu H. Neural-network feature selector. IEEE Trans.on Neural Networks, 1997 8(3): 654 - 662. 被引量：1
6Guha S, Rastugi R, Shim K. CURE: An efficient clustering algorithm for large databases. In Proc. 1998 ACM-SIGMOD Int.Conf. Management of Data (SIGMOD'98), Seattle, WA, June 1998:73 - 84. 被引量：1
7Pemg C, Wang H, Zhang S, parker D. Landmarks: A new model for similarity-based pattern querying in time series databases.IEEE Conf. on Data Engineering, 2000:33 - 44. 被引量：1
8Quinlan J R. C4.5: Programs for Machine Learning. San Mateo,CA: Morgan Kaufmann, 1993, Chapter 3. 被引量：1

同被引文献286

1王晶晶,李长硕,卓越,檀海斌,侯永胜,严海军.基于多时相无人机遥感生育时期优选的冬小麦估产[J].农业机械学报,2022,53(9):197-206. 被引量：7
2姜文瀚,周晓飞,杨静宇.基于样本选择的最近邻凸包分类器[J].中国图象图形学报,2008,13(1):109-113. 被引量：4
3郭建星,刘松林,倪丽,马淑宇.一种改进的基于最大类间方差的图像分割方法[J].仪器仪表学报,2005,26(z1):665-666. 被引量：19
4吴晓,种玉珍,倪红波,王海鹏.一种CBR与RBR相结合的智能家庭推理系统[J].计算机应用研究,2009,26(3):977-979. 被引量：3
5刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
6张国平.B—G组合预测理论剖析[J].预测,1988,7(5):22-25. 被引量：27
7刘光蓉,管庶安,周红.基于数字图像处理技术的汽车轮廓提取[J].计算机与数字工程,2004,32(4):32-33. 被引量：7
8盛德号,邱小刚,张柯.对非HLA仿真系统的HLA兼容性改造的研究[J].计算机仿真,2004,21(9):97-100. 被引量：2
9徐晓颖,王晓晔,杜太行.基于Fuzzy ART的K-最近邻分类改进算法[J].河北工业大学学报,2004,33(6):1-5. 被引量：4
10刘世芳,刘叶冰.车辆类型识别技术的研究[J].计算机与数字工程,2005,33(1):71-72. 被引量：7

引证文献25

1翟乃斌,苏建,宋年秀,刘玉梅,陈友谊.基于不变矩的机器视觉车辆类型识别技术[J].武汉理工大学学报（信息与管理工程版）,2007,29(4):7-10. 被引量：4
2王煜,王正欧,白石.用于文本分类的改进KNN算法[J].中文信息学报,2007,21(3):76-82. 被引量：15
3王煜,张明,王正欧,白石.用于文本分类的改进KNN算法[J].计算机工程与应用,2007,43(13):159-162. 被引量：6
4王煜,白石,王正欧.基于特征权重优化的改进KNN Web文本分类算法[J].情报学报,2007,26(5):643-647. 被引量：2
5谭泗桥,袁哲明,柏连阳,熊洁仪.基于支持向量机回归与K-最近邻法的组合预测用于除草剂QSAR建模[J].农药学学报,2007,9(4):324-329. 被引量：6
6刘海博,郗亚辉,王煜.用于文本分类的快速KNN算法[J].河北大学学报（自然科学版）,2008,28(3):322-326. 被引量：5
7区卫民,谭泗桥,袁哲明,柏连阳,熊洁仪.SVR-KNN法用于除草剂QSAR研究[J].安徽农业科学,2008,36(35):15284-15286.
8王娜,侯爽.K-最近邻分类技术的新发展与技术改进[J].河北省科学院学报,2009,26(4):11-13. 被引量：5
9孙荣宗.一种快速KNN文本分类算法[J].电脑知识与技术,2010,6(1):174-175. 被引量：5
10许朝阳.KNN系数修正迭代求精算法[J].计算机与现代化,2010(10):20-22.

二级引证文献158

1赵璐,刘佳雯,鲁夏云,师存霞,郭晓芸,张永栋.基于OpenCV的图像识别在外来医疗器械追溯管理中的应用[J].中国数字医学,2021,16(8):70-75. 被引量：5
2方艺辉,邹长忠,吴国祥.面向复杂决策的异构水环境模型表示与一体化集成[J].武汉大学学报（理学版）,2022,68(6):635-643. 被引量：1
3刘闯,鱼小军,张婷,朱豪坤.无人集群装备仿真试验关键技术现状及趋势[J].航空学报,2022,43(S01):21-33. 被引量：5
4乔冠禹,胡然,李咏晋.基于随机森林与特征提取算法的试验文本分类算法研究[J].军民两用技术与产品,2018,0(18):198-200.
5李灿泽,吴根秀.基于证据理论与核函数的k-NN分类新方法[J].中国软科学,2010(S1):393-397.
6郑亚斌,刘知远,孙茂松.中文歌词的统计特征及其检索应用[J].中文信息学报,2007,21(5):61-67. 被引量：8
7袁哲明,左斌,谭泗桥,谭显胜,熊兴耀.基于均匀设计与支持向量回归的发酵配方优化[J].过程工程学报,2009,9(1):148-152. 被引量：14
8谭泗桥,袁哲明,柏连阳,谭显胜,熊洁仪.基于局部核函数与全局核函数支持向量回归优化小样本QSAR建模[J].分子科学学报,2009,25(3):158-162. 被引量：4
9田宝明,戴新宇,陈家骏.一种基于随机森林的多视角文本分类方法[J].中文信息学报,2009,23(4):48-54. 被引量：8
10靳敏,石磊,郑静.运动目标检测与识别算法的研究[J].黑龙江工程学院学报,2009,23(3):45-48.

1熊忠阳,蒋健,张玉芳.新的CDF文本分类特征提取方法[J].计算机应用,2009,29(7):1755-1757. 被引量：11
2张玉芳,王勇,刘明,熊忠阳.新的文本分类特征选择方法研究[J].计算机工程与应用,2013,49(5):132-135. 被引量：7
3杨帆,郭建华,谭海,王竞雪.灰度直方图与K-最近邻的影像分割算法[J].测绘科学,2017,42(3):7-11. 被引量：1
4张艳华,王海涌,郑丽英.基于支持向量机的文本分类技术研究[J].甘肃科学学报,2006,18(3):72-74. 被引量：5
5滕敏,卫文学,滕宁.K-最近邻分类算法应用研究[J].软件导刊,2015,14(3):44-46. 被引量：11
6李金库,张德运,高鹏,孙钦东.网络信息审计系统中的文本片断模糊分类算法[J].西安交通大学学报,2005,39(8):800-803. 被引量：2
7刘振岩,王万森,张艳宁.急切分类与懒散分类的研究[J].小型微型计算机系统,2002,23(12):1489-1491. 被引量：1

电子与信息学报

2005年第3期

浏览历史

内容加载中请稍等...

K-最近邻分类技术的改进算法被引量：25

参考文献8

同被引文献286

引证文献25

二级引证文献158

相关作者

相关机构

相关主题

浏览历史

K-最近邻分类技术的改进算法 被引量：25

参考文献8

同被引文献286

引证文献25

二级引证文献158

相关作者

相关机构

相关主题

浏览历史

K-最近邻分类技术的改进算法被引量：25