基于改进K-modes聚类的KNN分类算法被引量：23

KNN classification algorithm based on improved K-modes clustering

下载PDF

导出

摘要为解决K-modes算法初始化k簇时误差率较高和KNN(K最近邻算法)算法面对大样本数据量时分类不准确的现状,分析传统的K-modes算法从k簇的初始化到簇中心不再变化的全过程和KNN(K最近邻算法)算法在面对大样本数据时执行效率低下的问题,提出改进的K-modes-KNN算法。使用字符串核函数初始化k簇,字符串核函数迭代计算样本到簇中心的距离来动态改变簇中心,利用改进的K-modes算法将数据集进行分簇处理后,在每个子簇中建立KNN(K最近邻算法)分类模型。通过真实数据验证了所提算法在一定程度上优于同种分类算法。 To solve the problems that the K-modes algorithm initializes k clusters with high error rate and KNN (K nearest neighbor algorithm) algorithm is inaccurate when it faces large sample data volume,the problems that the traditional K-modes algorithm from the initialization of the k-cluster to the whole process of the cluster center is no longer changed and the KNN (K-nearest neighbor algorithm) algorithm is inefficient in the face of large sample data were analyzed.An improved K-modes-KNN algorithm was proposed.The string kernel function was used to initialize the k-cluster.The string kernel function was used to iteratively calculate the distance from the sample to the cluster center to dynamically change the cluster center,and the improved K-modes algorithm was used to cluster the data set after each sub-cluster.A KNN (K nearest neighbor algorithm) classification model was established.The real data of a research institute verified that the proposed algorithm is better than the same classification algorithm to some extent.

作者王志华刘绍廷罗齐 WANG Zhi-hua;LIU Shao-ting;LUO Qi(School of Software and Applied Science and Technology,Zhengzhou University,Zhengzhou 450002,China)

机构地区郑州大学软件与应用科技学院

出处《计算机工程与设计》北大核心 2019年第8期2228-2234,共7页 Computer Engineering and Design

基金国家社会科学基金项目(15BTQ064) 河南省科技攻关基金项目(182102210007)

关键词 K-modes算法 KNN算法分类簇中心 K-modes-KNN算法字符串核函数 K-modes algorithm KNN algorithm classification cluster center K-modes-KNN algorithm string kernel function

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献9

1陈海彬,郭金玉,谢彦红.基于改进K-means聚类的kNN故障检测研究[J].沈阳化工大学学报,2013,27(1):69-73. 被引量：8
2谢攀,邓珍荣,朱益立.结合文本信息量和聚类的文本裁剪算法[J].计算机工程与设计,2018,39(3):880-884. 被引量：2
3罗贤锋,祝胜林,陈泽健,袁玉强.基于K-Medoids聚类的改进KNN文本分类算法[J].计算机工程与设计,2014,35(11):3864-3867. 被引量：25
4朱付保,谢利杰,汤萌萌,朱颢东.基于模糊C-Means的改进型KNN分类算法[J].华中师范大学学报（自然科学版）,2017,51(6):754-759. 被引量：12
5周庆平,谭长庚,王宏君,湛淼湘.基于聚类改进的KNN文本分类算法[J].计算机应用研究,2016,33(11):3374-3377. 被引量：68
6苏毅娟,邓振云,程德波,宗鸣.大数据下的快速KNN分类算法[J].计算机应用研究,2016,33(4):1003-1006. 被引量：29
7杨帅华,张清华.粗糙集近似集的KNN文本分类算法研究[J].小型微型计算机系统,2017,38(10):2192-2196. 被引量：20
8路敦利,宁芊,臧军.基于BP神经网络决策的KNN改进算法[J].计算机应用,2017,37(A02):65-67. 被引量：19
9姜华,韩安琪,王美佳,王峥,吴雲玲.基于改进编辑距离的字符串相似度求解算法[J].计算机工程,2014,40(1):222-227. 被引量：71

二级参考文献98

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：63
3王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：25
4余小鹏,周德翼.一种自适应k-最近邻算法的研究[J].计算机应用研究,2006,23(2):70-72. 被引量：16
5刘世成,王海清,李平.青霉素生产过程的在线统计监测与产品质量控制[J].计算机与应用化学,2006,23(3):227-232. 被引量：9
6周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：71
7董乐红,耿国华,周明全.基于Boosting算法的文本自动分类器设计[J].计算机应用,2007,27(2):384-386. 被引量：13
8He P Q, Wang Jin. Principal component based k- nearest-neighbor rule for semiconductor process fault detection [ C ]//American Control Conference, June 11-13,2008. Seattle. conference Publications, 2008. 1606 - 1611. 被引量：1
9He P Q,Wang Jin. Fault Detection Using the k-nea- rest Neighbor Rule for Semiconductor Manufactur- ing Processes [J].IEEE Transactions on Semicon- ductor Manufacturing,2007,20 (4) :345 - 354. 被引量：1
10Birol G, Cinar A. A Modular Simulation Package for Fed-batch Fermentation: Penicillin Production [ J ]. Computers & Chemical Engineering, 2002,26 ( 11 ) : 1553 - 1565. 被引量：1

共引文献228

1刘筱,阎小培.九十年代广东省不同经济地域差异分析[J].热带地理,2000,20(1):1-7. 被引量：25
2王督,蔡永香,李博涵,刘远刚.油气行业垂直搜索引擎关键问题解决方案[J].计算机系统应用,2018,27(12):18-24.
3王鹤琴,王杨.基于贝叶斯决策的网格社区案卷分发模型[J].山东大学学报（理学版）,2018,53(11):85-94. 被引量：1
4裴韬,郭思慧,袁烨城,张雪英,袁文,高昂,赵志远,薛存金.面向公共安全事件的网络文本大数据结构化研究[J].地球信息科学学报,2019,21(1):2-13. 被引量：15
5梁炳进,林燕君,蔡荣杰.放射信息系统报告修改痕迹的研究与软件开发[J].中国医疗设备,2014,29(10):44-45. 被引量：2
6成江荣.模糊查找与模糊分组在批量数据合并中的应用[J].北京印刷学院学报,2014,22(6):63-66.
7胡迪.反作用轮不完全数据故障诊断新算法[J].中国空间科学技术,2015,35(1):19-26. 被引量：1
8董富森,杨波,马坤,王文华.MapReduce模型下增量重复数据检测方法[J].济南大学学报（自然科学版）,2015,29(4):241-245. 被引量：3
9吴凌芬,杨小渊,叶添杰,刘冰,王太宏.改进Jaro-Winkler算法在迎宾机器人语音交互中的应用[J].现代计算机（中旬刊）,2015(3):8-13. 被引量：5
10李元,吴杰,王国柱.k近邻补值方法在工业过程故障诊断中的应用[J].上海交通大学学报,2015,49(6):830-836.

同被引文献207

1宫文峰,陈辉,张美玲,张泽辉.基于深度学习的电机轴承微小故障智能诊断方法[J].仪器仪表学报,2020,41(1):195-205. 被引量：82
2陈悦.历史文化名村保护规划实施过程评估方法探究——以宁波为例[J].城市规划学刊,2019(S01):124-129. 被引量：15
3李曦,曹广益,朱新坚.质子交换膜燃料电池电堆温度特性的模糊建模[J].上海交通大学学报,2005,39(S1):187-188. 被引量：28
4陈根军,唐国庆.基于禁忌搜索与蚁群最优结合算法的配电网规划[J].电网技术,2005,29(2):23-27. 被引量：48
5简毅文,江亿.住宅供暖空调能耗计算模式的研究[J].暖通空调,2005,35(2):11-14. 被引量：8
6钟伟民,何国龙,皮道映,孙优贤.SVM with Quadratic Polynomial Kernel Function Based Nonlinear Model One-step-ahead Predictive Control[J].Chinese Journal of Chemical Engineering,2005,13(3):373-379. 被引量：12
7黄勇,郑春颖,宋忠虎.多类支持向量机算法综述[J].计算技术与自动化,2005,24(4):61-63. 被引量：33
8邓群,孙才新,周湶,张晓星,程其云.采用动态规划技术实现配电网恢复供电[J].重庆大学学报（自然科学版）,2006,29(3):40-44. 被引量：6
9苑津莎,张铁峰,刘建新,孔英会.基于级别高于关系和线性规划的配电网规划辅助决策方法[J].中国电机工程学报,2006,26(12):106-110. 被引量：10
10张弛,程浩忠,奚珣,夏夷,沈晓岚,奚增辉.基于层次分析和模糊综合评价法的配电网供电模式选型[J].电网技术,2006,30(22):67-71. 被引量：48

引证文献23

1段仲渊,罗钧韶,李强.基于浮动车的高速公路行程时间短时预测方法研究[J].交通与运输,2022,38(S01):108-111.
2韦锦.廓坊日记[J].岁月,2000(7):34-36.
3陈嘉伟,韩晶,郝瑞玲,胡迪.基于改进KNN算法的动态手势识别研究[J].中北大学学报（自然科学版）,2020,41(3):232-237. 被引量：8
4王雷,陈莹,杨茗,杨仕军,张合强.基于云平台的计量运行数据深化应用与故障智能识别研究[J].电测与仪表,2020,57(7):87-92. 被引量：6
5温生毅,安娟,黄存强,赵雪,李宁可.基于改进K-means聚类算法的配电网区域规划方法研究[J].电子设计工程,2020,28(11):59-63. 被引量：2
6林泳昌,朱晓姝.一种基于SMOTE的不均衡样本KNN分类方法[J].广西科学,2020,27(3):276-283. 被引量：4
7严佩敏,唐婉琪.基于可分离卷积神经网络的文本分类[J].电子测量技术,2020,43(13):7-12. 被引量：6
8徐国天.网络入侵检测中K近邻高速匹配算法研究[J].信息网络安全,2020(8):71-80. 被引量：2
9刘婉莹.特征加权KNN分类算法在跨境电商人才培养中的应用[J].微型电脑应用,2020,36(9):44-46. 被引量：1
10余嘉熹,李奇,陈维荣,刘嘉蔚,李锦程.基于随机森林算法的大功率质子交换膜燃料电池系统故障分类方法[J].中国电机工程学报,2020,40(17):5591-5598. 被引量：17

二级引证文献87

1胡媛敏,张寿明.基于信息论的TF-IDF算法在文本分类中的应用研究[J].中国水运（下半月）,2021,21(12):31-33. 被引量：6
2劳永钊,吴任博,肖健,徐全,陈吕鹏.中压配电网线损实时同步监测系统设计方案研究[J].南方能源建设,2022,9(S01):139-146. 被引量：3
3张彤,李英梅.基于聚类和混合采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2022,38(2):58-63.
4张弛,吕国,孙皓月,祝焦焦.基于机器学习的校园网络入侵检测方法研究[J].河北建筑工程学院学报,2022,40(4):160-165. 被引量：2
5顾唐杰,秦波,蒋小菲.一种基于改进型Chameleon算法的宿舍分配方法[J].智能计算机与应用,2022,12(5):23-30.
6陈新华.基于K-Means改进的算法在客户聚类中的应用[J].信息通信,2020(9):35-37. 被引量：2
7王鑫,张涛,金映谷.异常检测算法综述[J].现代计算机,2020,26(30):21-26. 被引量：11
8陈蓉燕.现货市场化交易用户电能量数据“可视化”分析及应用[J].电气开关,2020,58(6):83-85.
9张雪霞,蒋宇,黄平,郭雪庆,陈维荣.质子交换膜燃料电池容错控制方法综述[J].中国电机工程学报,2021,41(4):1431-1444. 被引量：12
10杨鲜,赵计生,强保华,米路中,彭博,唐成华,李宝莲.基于改进的BSMOTE和时序特征的风机故障采样算法[J].计算机应用,2021,41(6):1673-1678. 被引量：4

1沈黎,肖勇,刘莺.一种基于中文关键字符串核函数的分类算法[J].吉首大学学报（自然科学版）,2019,40(1):18-20.
2鲁鹏程,许志明,瞿文政,刘少江,倪伟传,万智萍.改进差分阈值和位移匹配模型的车辆跟踪算法[J].计算机技术与发展,2019,29(3):183-186.
3张丰收,韩敬阳,曹军杰.基于图像熵的主动轮廓分割模型[J].智能计算机与应用,2019,9(3):6-10. 被引量：3
4陆姣,吴林海,董汉芳,陈秀娟.k-modes聚类方法的改进与在可追溯猪肉消费偏好研究中的应用[J].系统管理学报,2019,28(4):752-762. 被引量：3
5涂锐,秦江灵,赵志平,徐建川,陈顺举,夏立.基于K最近邻算法的城市路段行程时间短时预测[J].重庆理工大学学报（自然科学）,2019,33(7):152-159. 被引量：4
6白莹莹,王会青,郭芷榕.基于局部均值分解和改进小波熵的时序SAX模型[J].计算机工程与科学,2019,41(8):1490-1496. 被引量：2

计算机工程与设计

2019年第8期

浏览历史

内容加载中请稍等...

基于改进K-modes聚类的KNN分类算法被引量：23

参考文献9

二级参考文献98

共引文献228

同被引文献207

引证文献23

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

基于改进K-modes聚类的KNN分类算法 被引量：23

参考文献9

二级参考文献98

共引文献228

同被引文献207

引证文献23

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

基于改进K-modes聚类的KNN分类算法被引量：23