针对传统的层次聚类算法每次迭代只将距离最小的那对类簇合并,容易受离群点影响,偏向于发现凸状或球状簇等缺点,受CURE算法启发,采用簇中固定数量代表点来代表簇对象进行距离的计算,并结合90_10规则,提出了一种改进的层次聚类算法REPBFC...针对传统的层次聚类算法每次迭代只将距离最小的那对类簇合并,容易受离群点影响,偏向于发现凸状或球状簇等缺点,受CURE算法启发,采用簇中固定数量代表点来代表簇对象进行距离的计算,并结合90_10规则,提出了一种改进的层次聚类算法REPBFC(REpresentative Points Based Fast Clustering),实验表明该算法是有效的。展开更多
传统的分层聚类算法在聚类过程中,仅使用样本间的距离作为相似度的唯一标准,其描述过于单一。考虑到宇宙中星系的形成过程本质也是一种聚类过程,星系之间吸引力是靠万有引力作用。将万有引力思想引人分层聚类中,提出一种基于引力的...传统的分层聚类算法在聚类过程中,仅使用样本间的距离作为相似度的唯一标准,其描述过于单一。考虑到宇宙中星系的形成过程本质也是一种聚类过程,星系之间吸引力是靠万有引力作用。将万有引力思想引人分层聚类中,提出一种基于引力的层次聚类算法HCBG(Hierarchical Clustering Base Gravity),从样本问的距离和类簇的大小两个方面更加精确地刻厕相似度。把分层聚类的过程看成样本点之间依据“万有引力”自发吸引的过程。采用UCI机器学习数据库的I.ris,Wine和Glass数据集,实验结果表明,提出的HCBG算法的聚类结果比经典的基于距离的层次聚类HC(Hierarchical Clustering)提高5%~10%左右。展开更多
文摘针对传统的层次聚类算法每次迭代只将距离最小的那对类簇合并,容易受离群点影响,偏向于发现凸状或球状簇等缺点,受CURE算法启发,采用簇中固定数量代表点来代表簇对象进行距离的计算,并结合90_10规则,提出了一种改进的层次聚类算法REPBFC(REpresentative Points Based Fast Clustering),实验表明该算法是有效的。
文摘传统的分层聚类算法在聚类过程中,仅使用样本间的距离作为相似度的唯一标准,其描述过于单一。考虑到宇宙中星系的形成过程本质也是一种聚类过程,星系之间吸引力是靠万有引力作用。将万有引力思想引人分层聚类中,提出一种基于引力的层次聚类算法HCBG(Hierarchical Clustering Base Gravity),从样本问的距离和类簇的大小两个方面更加精确地刻厕相似度。把分层聚类的过程看成样本点之间依据“万有引力”自发吸引的过程。采用UCI机器学习数据库的I.ris,Wine和Glass数据集,实验结果表明,提出的HCBG算法的聚类结果比经典的基于距离的层次聚类HC(Hierarchical Clustering)提高5%~10%左右。