-
题名K-means聚类算法中聚类个数的方法研究
被引量:19
- 1
-
-
作者
刘飞
唐雅娟
刘瑶
-
机构
汕头大学电子工程系
-
出处
《电子设计工程》
2017年第15期9-13,共5页
-
基金
国家自然科学基金面上项目(61471228)
广东省重大科技计划项目(2015B020233018)
-
文摘
在数据挖掘算法中,K均值聚类算法是一种比较常见的无监督学习方法,簇间数据对象越相异,簇内数据对象越相似,说明该聚类效果越好。然而,簇个数的选取通常是由有经验的用户预先进行设定的参数。本文提出了一种能够自动确定聚类个数,采用SSE和簇的个数进行度量,提出了一种聚类个数自适应的聚类方法(简称:SKKM)。通过UCI数据和仿真数据对象的实验,对SKKM算法进行了验证,实验结果表明改进的算法可以快速的找到数据对象中聚类个数,提高了算法的性能。
-
关键词
k-means算法
聚类个数
初始聚类中心
数据挖掘
k-means算法改进
-
Keywords
k-means algorithm
the clustering number
the initial clustering center
data mining
k-means algorithm improvement
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名K-means聚类算法初始中心选择研究
被引量:7
- 2
-
-
作者
杨金花
刘显为
-
机构
西安铁路职业技术学院
西北工业大学
-
出处
《河南科学》
2016年第3期348-351,共4页
-
文摘
传统K-means聚类算法中聚类初始中心点是随机确定的,实际聚类数据集中可能有孤立点,造成了每次聚类的结果不同,聚类质量不同,有时陷入局部优化状态.针对这些问题,研究者曾试图用距离法解决孤立点的判断和确定初始聚类中心.这种思路存在不科学性.因为孤立点不仅指远离其他点,同时它的周围点稀疏;另外,当数据量过大、数据特征值过多时,算法的运算量大,需要占用大量的计算机资源,运算速度过慢.对传统的K-means聚类算法进行研究,提出了基于密度参数和距离理论的初始聚类中心的确定和孤立点的判断,对传统的K-means聚类算法进行改进.
-
关键词
k-means聚类算法
k个聚类中心
密度参数
k-means算法改进
-
Keywords
k-means clustering algorithm
k cluster centers
density parameter
k-means algorithm improvement
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于聚类算法的内容识别研究
被引量:1
- 3
-
-
作者
徐勇
-
机构
吉林建筑大学
-
出处
《电脑与电信》
2016年第11期39-41,共3页
-
文摘
随着互联网内容的快速增长,对于网络内容的快速识别压力越来越大。本文进行基于聚类算法的内容识别研究,为维护网络安全、网络内容健康,具有非常重要的意义。目前的互联网内容识别方式主要以关键字检索方法进行识别,但是面对日益丰富的网络内容和不同方式存储在服务器的内容,这种方式已经无法满足实际的需求。从实际问题出发针对互联网内容中以图形、图像、音频等非结构化数据形式存储在服务器中的内容进行识别,依据互联网内容的发展规律对现有的聚类算法进行改进,以求能够最大程度地对互联网内容进行筛选和甄别,维护互联网安全。
-
关键词
数据挖掘
内容识别
聚类分析
k-means聚类算法改进
-
Keywords
data mining
content recognition
clustering analysis
k-means clustering algorithm improvement
-
分类号
TP393.06
[自动化与计算机技术—计算机应用技术]
-