一种非独立同分布下针对数值型数据的PAM改进算法

An Improved PAM Algorithm for Numerical Data Under Non-independent and Identical Distribution

下载PDF

导出

摘要 PAM算法是K-中心点算法中最具代表性的算法。在此算法中,相似性度量的计算方法仅假设数据对象属性之间是独立同分布,采用欧几里得距离公式来进行计算。但现实数据集中,数据对象属性之间是非独立同分布的,即它们之间都是相关联的。因此,本文针对数值型数据,在PAM算法中引入了数值型数据非独立同分布计算公式,将原本的皮尔森相关系数替换为斯皮尔曼等级相关系数,并进行了实验验证。结果显示,数值型数据非独立同分布计算公式的引入很好地提高了PAM算法的聚类精度。 The PAM algorithm is the most representative algorithm in the K-medoids algorithm.In this algorithm,the calculation method of the similarity measure only assumes that the data object attributes are independent and identically distributed,and the Euclidean distance formula is used to calculate the distance.However,in the actual data set,the data object attributes are non-independent and identically distributed,that is,they are all related to each other.In this work,for the numerical data,the non-independent and identical distribution formula was introduced into the PAM algorithm,and the experimental verification was carried out.Results show that the introduction of non-independent and identical distribution calculation formulas for numerical data improves the clustering accuracy of PAM algorithm.

作者韩冰姜合 HAN Bing;JIANG He(School of Computer Science and Technology,Qilu University of Technology(Shandong Academy of Sciences),Jinan 250353,China)

机构地区齐鲁工业大学(山东省科学院)计算机科学与技术学院

出处《齐鲁工业大学学报》 2019年第2期56-61,共6页 Journal of Qilu University of Technology

基金国家自然科学青年基金项目(61502259)

关键词聚类 PAM算法相似性非独立同分布 clustering PAM algorithm similarity non-independent and identical distribution

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献14

1蔡元萃,陈立潮.聚类算法研究综述[J].科技情报开发与经济,2007,17(1):145-146. 被引量：21
2贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：225
3周涛,陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用,2012,48(12):100-111. 被引量：145
4何云斌,张志超,万静,李松.不确定数据聚类的U-PAM算法和UM-PAM算法的研究[J].计算机科学,2016,43(6):263-269. 被引量：7
5高小梅,冯云,冯兴杰.增量式K-Medoids聚类算法[J].计算机工程,2005,31(B07):181-183. 被引量：9
6张钊,王锁柱,张雨.一种基于SOM和PAM的聚类算法[J].计算机应用,2007,27(6):1400-1402. 被引量：8
7李静滨,杨柳,华蓓.基于多核平台并行K-Medoids算法研究[J].计算机应用研究,2011,28(2):498-500. 被引量：9
8罗德超,吴文亮,姬应江,杨淑爱,胡君.一种基于K均值预处理回溯的PAM算法[J].软件,2011,32(4):95-99. 被引量：3
9谢娟英,郭文娟,谢维信.基于邻域的K中心点聚类算法[J].陕西师范大学学报（自然科学版）,2012,40(4):16-22. 被引量：32
10路浩,倪世宏,查翔,张鹏.基于递减概率初始点选择K中心点进化算法[J].计算机仿真,2014,31(9):314-318. 被引量：3

二级参考文献163

1伍忠东,高新波,谢维信.基于核方法的模糊聚类算法[J].西安电子科技大学学报,2004,31(4):533-537. 被引量：75
2WANGShun-jiu,YANGZhi-feng,DINGJing.Projection pursuit cluster model and its application in water quality assessment[J].Journal of Environmental Sciences,2004,16(6):994-995. 被引量：20
3周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
4余建桥,张帆.基于数据场改进的PAM聚类算法[J].计算机科学,2005,32(1):165-167. 被引量：15
5张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
6邓庆山.聚类分析在基因表达数据上的应用研究[J].计算机工程与应用,2005,41(35):210-212. 被引量：3
7孙放,胡光锐,高军.SOM结合MLP的神经网络语音识别系统[J].数据采集与处理,1996,11(2):119-122. 被引量：4
8王家耀,张雪萍,周海燕.一个用于空间聚类分析的遗传K-均值算法[J].计算机工程,2006,32(3):188-190. 被引量：19
9王伦文.聚类的粒度分析[J].计算机工程与应用,2006,42(5):29-31. 被引量：19
10何振峰.一种基于限制的PAM算法[J].计算机工程与应用,2006,42(6):190-192. 被引量：5

共引文献455

1刘壮,张悦.统计学方法在生物信息学分析中的应用[J].医学信息学杂志,2020,41(6):20-23. 被引量：1
2孙伟鹏,吴锡生,孟斌.基于Spark并行的密度峰值聚类算法[J].计算机应用研究,2020,37(1):163-166. 被引量：2
3邢春燕.大规模数据集聚类算法的研究进展分析[J].花炮科技与市场,2020(2):4-4.
4尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
5褚娜,马利庄,王彦.聚类趋势问题的研究综述[J].计算机应用研究,2009,26(3):801-803. 被引量：6
6汤周文,叶东毅.基于层次聚类的差异化属性约简算法[J].计算机应用,2009,29(2):419-420. 被引量：1
7杜秀亭,杨晨光.基于最短主干道距离的零售户聚类研究[J].内蒙古大学学报（自然科学版）,2012,43(3):306-312.
8甘克勤,丛超,张宝林,孙旭凯.基于划分的文本聚类算法在标准文献中的试验与对比研究[J].标准科学,2013(10):47-50. 被引量：5
9司建波,姚燕,郭蔚莹,杨芳.基于模糊聚类的Web用户聚类方法与实现[J].吉林大学学报（工学版）,2013,43(S1):485-488.
10徐新华,谢永红.增量聚类综述及增量DBSCAN聚类算法研究[J].华北航天工业学院学报,2006,16(2):15-17. 被引量：5

1滕寰宇,叶仁传,田阿利,赵元帅.基于平均条件超越率和插值法的风速极值预测[J].海岸工程,2018,37(4):29-34. 被引量：2
2张宜,谢娟英,李静,陈媛媛,贺瑞瑞,李燕.红斑鳞状皮肤病的聚类分析[J].济南大学学报（自然科学版）,2017,31(3):181-187. 被引量：4

齐鲁工业大学学报

2019年第2期

浏览历史

内容加载中请稍等...

一种非独立同分布下针对数值型数据的PAM改进算法

参考文献14

二级参考文献163

共引文献455

相关作者

相关机构

相关主题

浏览历史