期刊文献+
共找到4,537篇文章
< 1 2 227 >
每页显示 20 50 100
K-Means聚类算法研究综述 被引量:277
1
作者 杨俊闯 赵超 《计算机工程与应用》 CSCD 北大核心 2019年第23期7-14,63,共9页
K-均值(K-Means)算法是聚类分析中一种基于划分的算法,同时也是无监督学习算法。其具有思想简单、效果好和容易实现的优点,广泛应用于机器学习等领域。但是K-Means算法也有一定的局限性,比如:算法中聚类数目K值难以确定,初始聚类中心如... K-均值(K-Means)算法是聚类分析中一种基于划分的算法,同时也是无监督学习算法。其具有思想简单、效果好和容易实现的优点,广泛应用于机器学习等领域。但是K-Means算法也有一定的局限性,比如:算法中聚类数目K值难以确定,初始聚类中心如何选取,离群点的检测与去除,距离和相似性度量等。从多个方面对K-Means算法的改进措施进行概括,并和传统K-Means算法进行比较,分析了改进算法的优缺点,指出了其中存在的问题。对K-Means算法的发展方向和趋势进行了展望。 展开更多
关键词 k-means 聚类算法 聚类中心 离群点
下载PDF
初始聚类中心优化的k-means算法 被引量:152
2
作者 袁方 周志勇 宋鑫 《计算机工程》 CAS CSCD 北大核心 2007年第3期65-66,共2页
传统的k-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动。为消除这种敏感性,提出一种优化初始聚类中心的方法,此方法计算每个数据对象所在区域的密度,选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验表... 传统的k-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动。为消除这种敏感性,提出一种优化初始聚类中心的方法,此方法计算每个数据对象所在区域的密度,选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验表明改进后的k-means算法能产生质量较高的聚类结果,并且消除了对初始输入的敏感性。 展开更多
关键词 数据挖掘 聚类 k-means算法 聚类中心
下载PDF
K-Means聚类算法的研究 被引量:134
3
作者 周爱武 于亚飞 《计算机技术与发展》 2011年第2期62-65,共4页
K-Means算法是一种经典的聚类算法,有很多优点,也存在许多不足。比如初始聚类数K要事先指定,初始聚类中心选择存在随机性,算法容易生成局部最优解,受孤立点的影响很大等。文中主要针对K-Means算法初始聚类中心的选择以及孤立点问题加以... K-Means算法是一种经典的聚类算法,有很多优点,也存在许多不足。比如初始聚类数K要事先指定,初始聚类中心选择存在随机性,算法容易生成局部最优解,受孤立点的影响很大等。文中主要针对K-Means算法初始聚类中心的选择以及孤立点问题加以改进,首先计算所有数据对象之间的距离,根据距离和的思想排除孤立点的影响,然后提出了一种新的初始聚类中心选择方法,并通过实验比较了改进算法与原算法的优劣。实验表明,改进算法受孤立点的影响明显降低,而且聚类结果更接近实际数据分布。 展开更多
关键词 k-means算法 初始聚类中心 孤立点
下载PDF
一种基于K-Means局部最优性的高效聚类算法 被引量:113
4
作者 雷小锋 谢昆青 +1 位作者 林帆 夏征义 《软件学报》 EI CSCD 北大核心 2008年第7期1683-1692,共10页
K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感.许多研究工作都着力于降低这种敏感性.然而,K-Means的局部最优和结果敏感性却构成了K-MeanSCAN聚类算法的基础.K-MeanSCAN算法对数据集进行多次采样... K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感.许多研究工作都着力于降低这种敏感性.然而,K-Means的局部最优和结果敏感性却构成了K-MeanSCAN聚类算法的基础.K-MeanSCAN算法对数据集进行多次采样和K-Means预聚类以产生多组不同的聚类结果,来自不同聚类结果的子簇之间必然会存在交集.算法的核心思想是,利用这些交集构造出关于子簇的加权连通图,并根据连通性合并子簇.理论和实验证明,K-MeanScan算法可以在很大程度上提高聚类结果的质量和算法的效率. 展开更多
关键词 k-meansCAN 基于密度 k-means 聚类:连通性
下载PDF
用于数据挖掘的聚类算法 被引量:67
5
作者 姜园 张朝阳 +1 位作者 仇佩亮 周东方 《电子与信息学报》 EI CSCD 北大核心 2005年第4期655-662,共8页
数据挖掘用于从超大规模数据库中提取感兴趣的信息。聚类是数据挖掘的重要工具,根据数据间的相似性 将数据库分成多个类,每类中数据应尽可能相似。从机器学习的观点来看,类相当于隐藏模式,寻找类是无监督学 习过程。目前已有应用于统计... 数据挖掘用于从超大规模数据库中提取感兴趣的信息。聚类是数据挖掘的重要工具,根据数据间的相似性 将数据库分成多个类,每类中数据应尽可能相似。从机器学习的观点来看,类相当于隐藏模式,寻找类是无监督学 习过程。目前已有应用于统计、模式识别、机器学习等不同领域的几十种聚类算法。该文对数据挖掘中的聚类算法 进行了归纳和分类,总结了7类算法并分析了其性能特点。 展开更多
关键词 数据挖掘 聚类 分层聚类 分割聚类 k-means
下载PDF
一种改进的K-means算法 被引量:72
6
作者 张玉芳 毛嘉莉 熊忠阳 《计算机应用》 CSCD 北大核心 2003年第8期31-33,60,共4页
聚类分析在科研和商业应用中都有着非常重要的应用,K means算法是聚类方法中常用的一种划分方法。随着数据量的增加,K means算法的局限性日益突出。基于取样的划分思想,提出了一种改进的K means算法,在一定程度上避免了聚类结果陷入局... 聚类分析在科研和商业应用中都有着非常重要的应用,K means算法是聚类方法中常用的一种划分方法。随着数据量的增加,K means算法的局限性日益突出。基于取样的划分思想,提出了一种改进的K means算法,在一定程度上避免了聚类结果陷入局部解的现象,减少了原始K means算法因采用误差平方和准则函数而出现将大的聚类簇分割开的情况,仿真实验结果表明:改进后的K means算法优于原始算法,并且稳定性更好。 展开更多
关键词 聚类 k-means算法 误差平方和准则函数
下载PDF
基于气流轨迹聚类的大气污染输送影响 被引量:99
7
作者 王芳 陈东升 +1 位作者 程水源 李明君 《环境科学研究》 EI CAS CSCD 北大核心 2009年第6期637-642,共6页
基于中尺度气象预报模式(MM5)、混合单粒子拉格朗日积分(HYSPLIT)轨迹模式模拟和K均值聚类算法,利用气流轨迹聚类判断不同尺度大气输送型对城市空气的质量影响.采用MM5模式对2006年珠江三角洲地区四季代表月(1,4,7,10月)的气象场进行了... 基于中尺度气象预报模式(MM5)、混合单粒子拉格朗日积分(HYSPLIT)轨迹模式模拟和K均值聚类算法,利用气流轨迹聚类判断不同尺度大气输送型对城市空气的质量影响.采用MM5模式对2006年珠江三角洲地区四季代表月(1,4,7,10月)的气象场进行了模拟,将模拟结果输入到HYSPLIT模式中,以计算广州市上空气团每日逐时的12 h后向轨迹;利用K均值聚类算法按轨迹移动方向和速度将各月气流轨迹线聚为有代表性的5类,计算各类输送型出现时段广州市ρ(PM10)和ρ(SO2)的平均值.结果表明,珠江三角洲地区低层大气输送季节性变化明显,按输送特征及其对城市污染物浓度的影响差异,可将输送型分为局地输送、城市间输送和远距离输送3类.结合污染源排放清单得出的污染源空间分布,分析结果表明,广州市大气污染较重时段主要受特殊气象条件和珠江三角洲地区周边城市排放源的影响,本地源排放与周边城市污染物输送的叠加使大气污染加重. 展开更多
关键词 气流轨迹 k均值聚类 污染物输送 城市空气质量
下载PDF
一种改进的k-means初始聚类中心选取算法 被引量:92
8
作者 韩凌波 王强 +1 位作者 蒋正锋 郝志强 《计算机工程与应用》 CSCD 北大核心 2010年第17期150-152,共3页
在传统的k-means聚类算法中,聚类结果会随着初始聚类中心点的不同而波动,针对这个缺点,提出一种优化初始聚类中心的算法。该算法通过计算每个数据对象的密度参数,然后选取k个处于高密度分布的点作为初始聚类中心。实验表明,在聚类类别... 在传统的k-means聚类算法中,聚类结果会随着初始聚类中心点的不同而波动,针对这个缺点,提出一种优化初始聚类中心的算法。该算法通过计算每个数据对象的密度参数,然后选取k个处于高密度分布的点作为初始聚类中心。实验表明,在聚类类别数给定的情况下,通过用标准的UCI数据库进行实验比较,发现采用改进后方法选取的初始类中心的k-means算法比随机选取初始聚类中心算法有相对较高的准确率和稳定性。 展开更多
关键词 k-means算法 聚类中心 密度参数
下载PDF
新的K-均值算法最佳聚类数确定方法 被引量:90
9
作者 周世兵 徐振源 唐旭清 《计算机工程与应用》 CSCD 北大核心 2010年第16期27-31,共5页
K-均值聚类算法是以确定的类数k和随机选定的初始聚类中心为前提对数据集进行聚类的。通常聚类数k事先无法确定,随机选定的初始聚类中心容易使聚类结果不稳定。提出了一种新的确定K-均值聚类算法的最佳聚类数方法,通过设定AP算法的参数,... K-均值聚类算法是以确定的类数k和随机选定的初始聚类中心为前提对数据集进行聚类的。通常聚类数k事先无法确定,随机选定的初始聚类中心容易使聚类结果不稳定。提出了一种新的确定K-均值聚类算法的最佳聚类数方法,通过设定AP算法的参数,将AP算法产生的聚类数作为聚类数搜索范围的上界kmax,并通过选择合适的有效性指标Silhouette指标,以及基于最大最小距离算法思想设定初始聚类中心,分析聚类效果,确定最佳聚类数。仿真实验和分析验证了以上算法方案的可行性。 展开更多
关键词 k-均值聚类 聚类数 聚类有效性指标 初始聚类中心
下载PDF
基于k-means聚类算法的研究 被引量:87
10
作者 黄韬 刘胜辉 谭艳娜 《计算机技术与发展》 2011年第7期54-57,62,共5页
分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机选取初始聚类中心的影响较大的缺点,提出一种改进算法。通过将对数据集的多次采样,选取最终较优的初始聚类中心,使... 分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机选取初始聚类中心的影响较大的缺点,提出一种改进算法。通过将对数据集的多次采样,选取最终较优的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响度大大降低;同时,在选取初始聚类中心后,对初值进行数据标准化处理,使聚类效果进一步提高。通过UCI数据集上的数据对新算法Hk-means进行检测,结果显示Hk-means算法比原始的k-means算法在聚类效果上有显著的提高,并对相关领域有借鉴意义。 展开更多
关键词 数据挖掘 聚类算法 k-means算法
下载PDF
一种有效的K-means聚类中心初始化方法 被引量:86
11
作者 熊忠阳 陈若田 张玉芳 《计算机应用研究》 CSCD 北大核心 2011年第11期4188-4190,共3页
传统K-means算法由于随机选取初始聚类中心,使得聚类结果波动性大;已有的最大最小距离法选取初始聚类中心过于稠密,容易造成聚类冲突现象。针对以上问题,对最大最小距离法进行了改进,提出了最大距离积法。该方法在基于密度概念的基础上... 传统K-means算法由于随机选取初始聚类中心,使得聚类结果波动性大;已有的最大最小距离法选取初始聚类中心过于稠密,容易造成聚类冲突现象。针对以上问题,对最大最小距离法进行了改进,提出了最大距离积法。该方法在基于密度概念的基础上,选取到所有已初始化聚类中心距离乘积最大的高密度点作为当前聚类中心。理论分析与对比实验结果表明,此方法相对于传统K-means算法和最大最小距离法有更快的收敛速度、更高的准确率和更强的稳定性。 展开更多
关键词 k-均值算法 基于密度 初始聚类中心 最大最小距离 最大距离积
下载PDF
最小方差优化初始聚类中心的K-means算法 被引量:84
12
作者 谢娟英 王艳娥 《计算机工程》 CAS CSCD 2014年第8期205-211,223,共8页
传统K-means算法随机选取初始聚类中心,容易导致聚类结果不稳定,而优化初始聚类中心的K-means算法需要一定的参数选择,也会使聚类结果缺乏客观性。为此,根据样本空间分布紧密度信息,提出利用最小方差优化初始聚类中心的K-means算法。该... 传统K-means算法随机选取初始聚类中心,容易导致聚类结果不稳定,而优化初始聚类中心的K-means算法需要一定的参数选择,也会使聚类结果缺乏客观性。为此,根据样本空间分布紧密度信息,提出利用最小方差优化初始聚类中心的K-means算法。该算法运用样本空间分布信息,通过计算样本空间分布的方差得到样本紧密度信息,选择方差最小(即紧密度最高)且相距一定距离的样本作为初始聚类中心,实现优化的K-means聚类。在UCI机器学习数据库数据集和含有噪音的人工模拟数据集上的实验结果表明,该算法不仅能得到较好的聚类结果,且聚类结果稳定,对噪音具有较强的免疫性能。 展开更多
关键词 聚类 k-means算法 方差 紧密度 初始聚类中心
下载PDF
基于遗传算法的K均值聚类分析 被引量:70
13
作者 赖玉霞 刘建平 杨国兴 《计算机工程》 CAS CSCD 北大核心 2008年第20期200-202,共3页
传统K均值算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动,容易陷入局部最优值。针对上述问题,该文提出一种基于遗传算法的K均值聚类算法,将K均值算法的局部寻优能力与遗传算法的全局寻优能力相结合,在自适应交叉概率和变异概... 传统K均值算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动,容易陷入局部最优值。针对上述问题,该文提出一种基于遗传算法的K均值聚类算法,将K均值算法的局部寻优能力与遗传算法的全局寻优能力相结合,在自适应交叉概率和变异概率的遗传算法中引入K均值操作,以克服传统K均值算法的局部性和对初始中心的敏感性,实验证明,该算法有较好的全局收敛性,聚类效果更好。 展开更多
关键词 k均值算法 聚类中心 遗传算法
下载PDF
K-means算法的初始聚类中心的优化 被引量:74
14
作者 赖玉霞 刘建平 《计算机工程与应用》 CSCD 北大核心 2008年第10期147-149,共3页
传统的K-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动,针对K-means算法存在的问题,提出了基于密度的改进的K-means算法,该算法采取聚类对象分布密度方法来确定初始聚类中心,选择相互距离最远的K个处于高密度区域的点... 传统的K-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动,针对K-means算法存在的问题,提出了基于密度的改进的K-means算法,该算法采取聚类对象分布密度方法来确定初始聚类中心,选择相互距离最远的K个处于高密度区域的点作为初始聚类中心,理论分析与实验结果表明,改进的算法能取得更好的聚类结果。 展开更多
关键词 聚类 k-means算法 密度 聚类中心 高密度区域
下载PDF
基于HSI和LAB颜色空间的彩色图像分割 被引量:77
15
作者 庞晓敏 闵子建 阚江明 《广西大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第6期976-980,共5页
彩色图像分割一直是彩色图像处理与分析中最为困难的不可缺少的步骤,针对图像分割质量直接在很大程度上影响了图像后期分析的效果,提出了一种基于HSI和LAB颜色空间的彩色图像分割方法。该方法在HSI颜色空间用最优阈值方法进行阈值分割,... 彩色图像分割一直是彩色图像处理与分析中最为困难的不可缺少的步骤,针对图像分割质量直接在很大程度上影响了图像后期分析的效果,提出了一种基于HSI和LAB颜色空间的彩色图像分割方法。该方法在HSI颜色空间用最优阈值方法进行阈值分割,在LAB颜色空间采用基于K均值聚类图像分割,然后将两次分割结果进行区域合并,最后进行加窗滤波消除噪声。对林区活立木真彩色图像进行分割的实验结果表明,该方法能够精准地将活立木从背景中提取出来。 展开更多
关键词 彩色图像分割 k均值聚类 颜色空间 HSI LAB
下载PDF
基于密度的改进K均值算法及实现 被引量:76
16
作者 傅德胜 周辰 《计算机应用》 CSCD 北大核心 2011年第2期432-434,共3页
传统的K均值算法的初始聚类中心从数据集中随机产生,聚类结果很不稳定。提出一种基于密度算法优化初始聚类中心的改进K-means算法,该算法选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验证明,改进的K-means算法能够消... 传统的K均值算法的初始聚类中心从数据集中随机产生,聚类结果很不稳定。提出一种基于密度算法优化初始聚类中心的改进K-means算法,该算法选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验证明,改进的K-means算法能够消除对初始聚类中心的依赖,聚类结果有了较大的改进。 展开更多
关键词 聚类 k-均值算法 初始聚类中心 高密度区域
下载PDF
基于Logistic模型的中国各省碳排放预测 被引量:73
17
作者 杜强 陈乔 杨锐 《长江流域资源与环境》 CAS CSSCI CSCD 北大核心 2013年第2期143-151,共9页
在"碳排放量与能源消费成正比"假设的基础上,对中国30个省区2011~2020年碳排放进行了预测。首先对中国30个省区1987~2010年的历史累计排放量和人均累计排放量进行计算,依据历史累计排放量和人均累计排放量两个指标,运用K-... 在"碳排放量与能源消费成正比"假设的基础上,对中国30个省区2011~2020年碳排放进行了预测。首先对中国30个省区1987~2010年的历史累计排放量和人均累计排放量进行计算,依据历史累计排放量和人均累计排放量两个指标,运用K-均值聚类分析法将中国各省区碳排放分成了5类。分别绘出5类区域中各省的历年碳排放量曲线,并进行数据分析,发现:以2002年为界线,2002年前后两个时段中国各省区碳排放变化差异很大。这一现象说明2002年以前的各省碳排放趋势并不能表征未来年份各省的碳排放。在此结论的基础上,构建了碳排放量增长的Logistic预测模型,并以2002~2010年碳排放数据为样本数据,对2011~2020年中国各省区碳排放进行了预测。为了验证预测模型的精确性,利用Logistic预测模型对中国30个省区2002~2010年的碳排放进行了预测,并将预测值与实际排放值进行比较发现,除了宁夏自治区的误差达14.58%外,其他地区的误差均在7%以下。除宁夏外的中国各省区预测误差的平均值为6.22%,由此验证了Logistic预测模型的精确性。同时,也说明对中国30个省区2011~2020年碳排放的预测值具有较高的可信性。本研究为中国各省未来碳排放政策的制定提供了方法与数据支持。 展开更多
关键词 LOGISTIC模型 中国各省 碳排放 预测 k-均值聚类
原文传递
学习特征权值对K-均值聚类算法的优化 被引量:48
18
作者 王熙照 王亚东 +1 位作者 湛燕 袁方 《计算机研究与发展》 EI CSCD 北大核心 2003年第6期869-873,共5页
K 均值 (K means)算法聚类的结果依赖于距离度量的选取 传统的K 均值算法选择的相似性度量通常是欧几里德距离的倒数 ,这种距离通常涉及所有的特征 在距离公式中引入一些特征权参数后 ,其聚类结果将依赖于这些权值 ,从而可以通过调整这... K 均值 (K means)算法聚类的结果依赖于距离度量的选取 传统的K 均值算法选择的相似性度量通常是欧几里德距离的倒数 ,这种距离通常涉及所有的特征 在距离公式中引入一些特征权参数后 ,其聚类结果将依赖于这些权值 ,从而可以通过调整这些权值优化聚类效果 由于K 均值算法是迭代算法 ,很难直接确定其权值以优化聚类结果 ,因此提出了一种间接的学习权值算法以改进聚类结果 从数学意义上讲 ,这种权值学习相当于欧氏空间中对一组点进行了一个线性变换 展开更多
关键词 k-均值聚类 相似度量 特征权值 梯度下降技术
下载PDF
基于最优划分的K-Means初始聚类中心选取算法 被引量:61
19
作者 张健沛 杨悦 +1 位作者 杨静 张泽宝 《系统仿真学报》 CAS CSCD 北大核心 2009年第9期2586-2590,共5页
针对传统K-Means算法聚类过程中,聚类数目k值难以准确预设和随机选取初始聚类中心造成聚类精度及效率降低等问题,提出一种基于最优划分的K-Means初始聚类中心选取算法,该算法利用直方图方法将数据样本空间进行最优划分,依据数据样本自... 针对传统K-Means算法聚类过程中,聚类数目k值难以准确预设和随机选取初始聚类中心造成聚类精度及效率降低等问题,提出一种基于最优划分的K-Means初始聚类中心选取算法,该算法利用直方图方法将数据样本空间进行最优划分,依据数据样本自身分布特点确定K-Means算法的初始聚类中心,无需预设k值,减少了算法结果对参数的依赖,提高算法运算效率及准确率。实验结果表明,利用该算法改进的K-Means算法,运算时间明显减少,其聚类结果准确率以及算法效率均得到显著提高。 展开更多
关键词 kmeans算法 初始聚类中心 直方图 最优划分方法
下载PDF
面向海量用户用电特性感知的分布式聚类算法 被引量:67
20
作者 朱文俊 王毅 +3 位作者 罗敏 林国营 程将南 康重庆 《电力系统自动化》 EI CSCD 北大核心 2016年第12期21-27,共7页
智能电表的普及促进了配用电大数据的发展。通过对用户用电数据的挖掘和用电特性的感知,能够有效识别用户用电模式、评估需求响应潜力、指导电价制定等。然而,用户用电数据一方面随时间不断更新,增长迅速,呈海量态势;另一方面,数据采集... 智能电表的普及促进了配用电大数据的发展。通过对用户用电数据的挖掘和用电特性的感知,能够有效识别用户用电模式、评估需求响应潜力、指导电价制定等。然而,用户用电数据一方面随时间不断更新,增长迅速,呈海量态势;另一方面,数据采集点分布在用户侧,具有极强的分散性。针对海量、分散的用电数据带来的挑战,文中提出一种新的分布式聚类算法。首先利用自适应k-means聚类算法对分布在各区域的用电数据进行局部聚类分析,提取各局部数据的典型负荷曲线,构建局部模型;然后利用传统聚类算法对获取的局部模型进行二次聚类分析,获取全局的典型负荷曲线,构建全局模型;最后向局部数据中心反馈全局聚类结果,实现全局聚类分析。通过爱尔兰实际量测用电数据证明了所提出算法的有效性。 展开更多
关键词 分布式聚类 自适应k-means 聚类算法 大数据 负荷曲线 态势感知
下载PDF
上一页 1 2 227 下一页 到第
使用帮助 返回顶部