期刊文献+
共找到3,050篇文章
< 1 2 153 >
每页显示 20 50 100
K-Means聚类算法研究综述 被引量:299
1
作者 杨俊闯 赵超 《计算机工程与应用》 CSCD 北大核心 2019年第23期7-14,63,共9页
K-均值(K-Means)算法是聚类分析中一种基于划分的算法,同时也是无监督学习算法。其具有思想简单、效果好和容易实现的优点,广泛应用于机器学习等领域。但是K-Means算法也有一定的局限性,比如:算法中聚类数目K值难以确定,初始聚类中心如... K-均值(K-Means)算法是聚类分析中一种基于划分的算法,同时也是无监督学习算法。其具有思想简单、效果好和容易实现的优点,广泛应用于机器学习等领域。但是K-Means算法也有一定的局限性,比如:算法中聚类数目K值难以确定,初始聚类中心如何选取,离群点的检测与去除,距离和相似性度量等。从多个方面对K-Means算法的改进措施进行概括,并和传统K-Means算法进行比较,分析了改进算法的优缺点,指出了其中存在的问题。对K-Means算法的发展方向和趋势进行了展望。 展开更多
关键词 k-means 算法 中心 离群点
下载PDF
初始聚类中心优化的k-means算法 被引量:154
2
作者 袁方 周志勇 宋鑫 《计算机工程》 CAS CSCD 北大核心 2007年第3期65-66,共2页
传统的k-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动。为消除这种敏感性,提出一种优化初始聚类中心的方法,此方法计算每个数据对象所在区域的密度,选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验表... 传统的k-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动。为消除这种敏感性,提出一种优化初始聚类中心的方法,此方法计算每个数据对象所在区域的密度,选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验表明改进后的k-means算法能产生质量较高的聚类结果,并且消除了对初始输入的敏感性。 展开更多
关键词 数据挖掘 k-means算法 中心
下载PDF
K-means算法研究综述 被引量:166
3
作者 吴夙慧 成颖 +1 位作者 郑彦宁 潘云涛 《现代图书情报技术》 CSSCI 北大核心 2011年第5期28-35,共8页
对聚类分析中的基本算法K-means算法中的K值确定、初始聚类中心选择以及分类属性数据处理等主要问题进行综述,理清K-means算法的整个发展脉络及算法研究中的热点和难点,提出改进K-means聚类算法的思路。
关键词 kmeans算法 算法 k 初始中心
原文传递
K-means算法最佳聚类数确定方法 被引量:144
4
作者 周世兵 徐振源 唐旭清 《计算机应用》 CSCD 北大核心 2010年第8期1995-1998,共4页
K-means聚类算法是以确定的类数k为前提对数据集进行聚类的,通常聚类数事先无法确定。从样本几何结构的角度设计了一种新的聚类有效性指标,在此基础上提出了一种新的确定K-means算法最佳聚类数的方法。理论研究和实验结果验证了以上算... K-means聚类算法是以确定的类数k为前提对数据集进行聚类的,通常聚类数事先无法确定。从样本几何结构的角度设计了一种新的聚类有效性指标,在此基础上提出了一种新的确定K-means算法最佳聚类数的方法。理论研究和实验结果验证了以上算法方案的有效性和良好性能。 展开更多
关键词 k-means 有效性指标 分析
下载PDF
K-Means聚类算法的研究 被引量:134
5
作者 周爱武 于亚飞 《计算机技术与发展》 2011年第2期62-65,共4页
K-Means算法是一种经典的聚类算法,有很多优点,也存在许多不足。比如初始聚类数K要事先指定,初始聚类中心选择存在随机性,算法容易生成局部最优解,受孤立点的影响很大等。文中主要针对K-Means算法初始聚类中心的选择以及孤立点问题加以... K-Means算法是一种经典的聚类算法,有很多优点,也存在许多不足。比如初始聚类数K要事先指定,初始聚类中心选择存在随机性,算法容易生成局部最优解,受孤立点的影响很大等。文中主要针对K-Means算法初始聚类中心的选择以及孤立点问题加以改进,首先计算所有数据对象之间的距离,根据距离和的思想排除孤立点的影响,然后提出了一种新的初始聚类中心选择方法,并通过实验比较了改进算法与原算法的优劣。实验表明,改进算法受孤立点的影响明显降低,而且聚类结果更接近实际数据分布。 展开更多
关键词 k-means算法 初始中心 孤立点
下载PDF
一种基于K-Means局部最优性的高效聚类算法 被引量:114
6
作者 雷小锋 谢昆青 +1 位作者 林帆 夏征义 《软件学报》 EI CSCD 北大核心 2008年第7期1683-1692,共10页
K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感.许多研究工作都着力于降低这种敏感性.然而,K-Means的局部最优和结果敏感性却构成了K-MeanSCAN聚类算法的基础.K-MeanSCAN算法对数据集进行多次采样... K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感.许多研究工作都着力于降低这种敏感性.然而,K-Means的局部最优和结果敏感性却构成了K-MeanSCAN聚类算法的基础.K-MeanSCAN算法对数据集进行多次采样和K-Means预聚类以产生多组不同的聚类结果,来自不同聚类结果的子簇之间必然会存在交集.算法的核心思想是,利用这些交集构造出关于子簇的加权连通图,并根据连通性合并子簇.理论和实验证明,K-MeanScan算法可以在很大程度上提高聚类结果的质量和算法的效率. 展开更多
关键词 k-meansCAN 基于密度 k-means :连通性
下载PDF
一种改进的k-means初始聚类中心选取算法 被引量:94
7
作者 韩凌波 王强 +1 位作者 蒋正锋 郝志强 《计算机工程与应用》 CSCD 北大核心 2010年第17期150-152,共3页
在传统的k-means聚类算法中,聚类结果会随着初始聚类中心点的不同而波动,针对这个缺点,提出一种优化初始聚类中心的算法。该算法通过计算每个数据对象的密度参数,然后选取k个处于高密度分布的点作为初始聚类中心。实验表明,在聚类类别... 在传统的k-means聚类算法中,聚类结果会随着初始聚类中心点的不同而波动,针对这个缺点,提出一种优化初始聚类中心的算法。该算法通过计算每个数据对象的密度参数,然后选取k个处于高密度分布的点作为初始聚类中心。实验表明,在聚类类别数给定的情况下,通过用标准的UCI数据库进行实验比较,发现采用改进后方法选取的初始类中心的k-means算法比随机选取初始聚类中心算法有相对较高的准确率和稳定性。 展开更多
关键词 k-means算法 中心 密度参数
下载PDF
最小方差优化初始聚类中心的K-means算法 被引量:87
8
作者 谢娟英 王艳娥 《计算机工程》 CAS CSCD 2014年第8期205-211,223,共8页
传统K-means算法随机选取初始聚类中心,容易导致聚类结果不稳定,而优化初始聚类中心的K-means算法需要一定的参数选择,也会使聚类结果缺乏客观性。为此,根据样本空间分布紧密度信息,提出利用最小方差优化初始聚类中心的K-means算法。该... 传统K-means算法随机选取初始聚类中心,容易导致聚类结果不稳定,而优化初始聚类中心的K-means算法需要一定的参数选择,也会使聚类结果缺乏客观性。为此,根据样本空间分布紧密度信息,提出利用最小方差优化初始聚类中心的K-means算法。该算法运用样本空间分布信息,通过计算样本空间分布的方差得到样本紧密度信息,选择方差最小(即紧密度最高)且相距一定距离的样本作为初始聚类中心,实现优化的K-means聚类。在UCI机器学习数据库数据集和含有噪音的人工模拟数据集上的实验结果表明,该算法不仅能得到较好的聚类结果,且聚类结果稳定,对噪音具有较强的免疫性能。 展开更多
关键词 k-means算法 方差 紧密度 初始中心
下载PDF
最优聚类个数和初始聚类中心点选取算法研究 被引量:82
9
作者 张素洁 赵怀慈 《计算机应用研究》 CSCD 北大核心 2017年第6期1617-1620,共4页
传统K-means算法的聚类数k值事先无法确定,而且算法是随机性地选取初始聚类中心点,这样容易造成聚类结果不稳定且准确率较低。基于SSE来选取聚类个数k值,基于聚类中心点所在的周围区域相对比较密集、聚类中心点之间距离相对较远的选取... 传统K-means算法的聚类数k值事先无法确定,而且算法是随机性地选取初始聚类中心点,这样容易造成聚类结果不稳定且准确率较低。基于SSE来选取聚类个数k值,基于聚类中心点所在的周围区域相对比较密集、聚类中心点之间距离相对较远的选取原则来选取初始聚类中心点,避免初始聚类中心点集中在一个小的范围,防止陷入局部最优。实验证明,该算法能选取最优的k值,通过用标准的UCI数据库进行实验,采用的算法能选择出唯一的初始中心点,聚类准确率较高、误差平方和较小。 展开更多
关键词 k-means算法 中心 准确率 误差平方和
下载PDF
K-means算法的初始聚类中心的优化 被引量:75
10
作者 赖玉霞 刘建平 《计算机工程与应用》 CSCD 北大核心 2008年第10期147-149,共3页
传统的K-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动,针对K-means算法存在的问题,提出了基于密度的改进的K-means算法,该算法采取聚类对象分布密度方法来确定初始聚类中心,选择相互距离最远的K个处于高密度区域的点... 传统的K-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动,针对K-means算法存在的问题,提出了基于密度的改进的K-means算法,该算法采取聚类对象分布密度方法来确定初始聚类中心,选择相互距离最远的K个处于高密度区域的点作为初始聚类中心,理论分析与实验结果表明,改进的算法能取得更好的聚类结果。 展开更多
关键词 k-means算法 密度 中心 高密度区域
下载PDF
澜沧江及周边流域TRMM 3B43数据精度检验 被引量:75
11
作者 曾红伟 李丽娟 《地理学报》 EI CSCD 北大核心 2011年第7期994-1004,共11页
在地形复杂的澜沧江及周边流域,利用相关系数法、散点斜率法,以研究区内35个国家基准与基本站观测数据为"真值"对1998-2009年之间月尺度的TRMM 3B43降水数据精度进行检验,采用泰森多边形法、K-Means聚类法分析了高程与坡度对... 在地形复杂的澜沧江及周边流域,利用相关系数法、散点斜率法,以研究区内35个国家基准与基本站观测数据为"真值"对1998-2009年之间月尺度的TRMM 3B43降水数据精度进行检验,采用泰森多边形法、K-Means聚类法分析了高程与坡度对检验结果的影响,借助主成分法比较了高程与坡度对TRMM 3B43的影响程度。研究表明:在整体上,月尺度的TRMM 3B43数据具有较高精度;就个体而言,研究区上游与下游地区具有较高的精度,而在波密,以及中游的贡山、德钦、德钦及香格里拉等地区精度较低;高程对TRMM 3B43数据精度的影响小于坡度,在空间上呈现出较复杂的变化趋势,自托托河—勐腊随着海拔的降低,数据精度出现高值—低值—高值的变化规律;坡度对TRMM 3B43数据精度有较大影响,坡度越大,数据精度越低。 展开更多
关键词 气象 降水 TRMM 3B43 泰森多边形 k-means 地形 澜沧江流域
原文传递
基于K-means的手肘法自动获取K值方法研究 被引量:69
12
作者 吴广建 章剑林 袁丁 《软件》 2019年第5期167-170,共4页
典型的K-means算法利用手肘法选择合适的K值在实际项目中应用的较多,但是手肘法获取K值自动性低,以及面对海量数据的处理,效率上也有待提高。提出利用手肘法关系图初始点和末尾点连接的关系直线,求K值范围下直线y值与误差平方和的最大... 典型的K-means算法利用手肘法选择合适的K值在实际项目中应用的较多,但是手肘法获取K值自动性低,以及面对海量数据的处理,效率上也有待提高。提出利用手肘法关系图初始点和末尾点连接的关系直线,求K值范围下直线y值与误差平方和的最大差值的方法,最大差值对应的K值为手肘法的最优肘点,由于手肘法需要多次迭代以及数据集稠密度对关系图的影响较小,提出利用数据集预抽样并且将程序部署在spark平台之上的方式自动获取手肘法的肘点K值,这样不仅根据此方法自动获取K-means最优K值而且提高了大数据集的处理效率。 展开更多
关键词 k-means算法 k 手肘法 误差平方和 肘点
下载PDF
基于最优划分的K-Means初始聚类中心选取算法 被引量:62
13
作者 张健沛 杨悦 +1 位作者 杨静 张泽宝 《系统仿真学报》 CAS CSCD 北大核心 2009年第9期2586-2590,共5页
针对传统K-Means算法聚类过程中,聚类数目k值难以准确预设和随机选取初始聚类中心造成聚类精度及效率降低等问题,提出一种基于最优划分的K-Means初始聚类中心选取算法,该算法利用直方图方法将数据样本空间进行最优划分,依据数据样本自... 针对传统K-Means算法聚类过程中,聚类数目k值难以准确预设和随机选取初始聚类中心造成聚类精度及效率降低等问题,提出一种基于最优划分的K-Means初始聚类中心选取算法,该算法利用直方图方法将数据样本空间进行最优划分,依据数据样本自身分布特点确定K-Means算法的初始聚类中心,无需预设k值,减少了算法结果对参数的依赖,提高算法运算效率及准确率。实验结果表明,利用该算法改进的K-Means算法,运算时间明显减少,其聚类结果准确率以及算法效率均得到显著提高。 展开更多
关键词 kmeans算法 初始中心 直方图 最优划分方法
下载PDF
面向海量用户用电特性感知的分布式聚类算法 被引量:67
14
作者 朱文俊 王毅 +3 位作者 罗敏 林国营 程将南 康重庆 《电力系统自动化》 EI CSCD 北大核心 2016年第12期21-27,共7页
智能电表的普及促进了配用电大数据的发展。通过对用户用电数据的挖掘和用电特性的感知,能够有效识别用户用电模式、评估需求响应潜力、指导电价制定等。然而,用户用电数据一方面随时间不断更新,增长迅速,呈海量态势;另一方面,数据采集... 智能电表的普及促进了配用电大数据的发展。通过对用户用电数据的挖掘和用电特性的感知,能够有效识别用户用电模式、评估需求响应潜力、指导电价制定等。然而,用户用电数据一方面随时间不断更新,增长迅速,呈海量态势;另一方面,数据采集点分布在用户侧,具有极强的分散性。针对海量、分散的用电数据带来的挑战,文中提出一种新的分布式聚类算法。首先利用自适应k-means聚类算法对分布在各区域的用电数据进行局部聚类分析,提取各局部数据的典型负荷曲线,构建局部模型;然后利用传统聚类算法对获取的局部模型进行二次聚类分析,获取全局的典型负荷曲线,构建全局模型;最后向局部数据中心反馈全局聚类结果,实现全局聚类分析。通过爱尔兰实际量测用电数据证明了所提出算法的有效性。 展开更多
关键词 分布式 自适应k-means 算法 大数据 负荷曲线 态势感知
下载PDF
高效率的K-means最佳聚类数确定算法 被引量:65
15
作者 王勇 唐靖 +1 位作者 饶勤菲 袁巢燕 《计算机应用》 CSCD 北大核心 2014年第5期1331-1335,共5页
针对K-means聚类算法通常无法事先设定聚类数,而人为设定初始聚类数目容易导致聚类结果不够稳定的问题,提出一种新的高效率的K-means最佳聚类数确定算法。该算法通过样本数据分层来得到聚类数搜索范围的上界,并设计了一种聚类有效性指... 针对K-means聚类算法通常无法事先设定聚类数,而人为设定初始聚类数目容易导致聚类结果不够稳定的问题,提出一种新的高效率的K-means最佳聚类数确定算法。该算法通过样本数据分层来得到聚类数搜索范围的上界,并设计了一种聚类有效性指标来评价聚类后类内与类间的相似性程度,从而在聚类数搜索范围内获得最佳聚类数。仿真实验结果表明,该算法能够快速、高效地获得最佳聚类数,对数据集聚类效果良好。 展开更多
关键词 k-means 数据分层 有效性指标 相似性程度 最佳
下载PDF
文档聚类中k-means算法的一种改进算法 被引量:29
16
作者 万小军 杨建武 陈晓鸥 《计算机工程》 CAS CSCD 北大核心 2003年第2期102-103,157,共3页
介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感。为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算法的改进算法。实验表明,该改进算法比原... 介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感。为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算法的改进算法。实验表明,该改进算法比原k-means算法具有更高的准确性和稳定性。 展开更多
关键词 文档 k-means算法 划分算法 数据库
下载PDF
基于混沌理论和K-means聚类的有载分接开关机械状态监测 被引量:62
17
作者 周翔 王丰华 +2 位作者 傅坚 林嘉杨 金之俭 《中国电机工程学报》 EI CSCD 北大核心 2015年第6期1541-1548,共8页
变压器有载分接开关的可靠性对保障电力系统的安全稳定运行意义重大。考虑到有载分接开关操作过程中的振动信号与其机械性能密切相关,从振动信号的混沌动力学特性出发,通过计算嵌入维数和延迟时间,对实测到的振动信号进行了相空间重构... 变压器有载分接开关的可靠性对保障电力系统的安全稳定运行意义重大。考虑到有载分接开关操作过程中的振动信号与其机械性能密切相关,从振动信号的混沌动力学特性出发,通过计算嵌入维数和延迟时间,对实测到的振动信号进行了相空间重构。根据振动信号的相空间分布特性,使用K-means聚类分析方法对重构后的振动信号模式进行识别,据此对有载分接开关的机械性能进行监测。现场实测数据的计算结果表明:使用改进Wolf法计算得到的最大李雅普诺夫指数为正,进一步证实了有载分接开关切换过程中振动信号的混沌特性,基于K-means聚类分析法得到的簇中心位移矢量的变化可清晰地识别出有载分接开关的故障隐患。研究结果为从混沌动力学角度监测有载分接开关的运行状态提供了理论依据。 展开更多
关键词 k-means 最大李雅普诺夫指数 有载分接开关 相空间重构 振动信号
下载PDF
基于统计相关性与K-means的区分基因子集选择算法 被引量:56
18
作者 谢娟英 高红超 《软件学报》 EI CSCD 北大核心 2014年第9期2050-2075,共26页
针对高维小样本癌症基因数据集的有效区分基因子集选择难题,提出基于统计相关性和K-means的新颖混合基因选择算法实现有效区分基因子集选择.算法首先采用Pearson相关系数和Wilcoxon秩和检验计算各基因与类标的相关性,根据统计相关性原... 针对高维小样本癌症基因数据集的有效区分基因子集选择难题,提出基于统计相关性和K-means的新颖混合基因选择算法实现有效区分基因子集选择.算法首先采用Pearson相关系数和Wilcoxon秩和检验计算各基因与类标的相关性,根据统计相关性原则选取与类标相关性较大的若干基因构成预选择基因子集;然后,采用K-means算法将预选择基因子集中高度相关的基因聚集到同一类簇,训练SVM分类模型,计算每一个基因的权重,从每一类簇选择一个权重最大或者采用轮盘赌思想从每一类簇选择一个得票数最多的基因作为本类簇的代表基因,各类簇的代表基因构成有效区分基因子集.将该算法与采用随机策略选择各类簇代表基因的随机基因选择算法Random,Guyon的经典基因选择算法SVM-RFE、采用顺序前向搜索策略的基因选择算法SVM-SFS进行实验比较,几个经典基因数据集上的200次重复实验的平均实验结果表明:所提出的混合基因选择算法能够选择到区分性能非常好的基因子集,建立在该区分基因子集上的分类器具有非常好的分类性能. 展开更多
关键词 区分基因子集选择 Pearson 相关系数 Wilcoxon 秩和检验 k-means 统计相关性 FILTER 算法 Wrapper算法
下载PDF
1961-2015年新疆降水及干旱特征分析 被引量:55
19
作者 谢培 顾艳玲 +1 位作者 张玉虎 向柳 《干旱区地理》 CSCD 北大核心 2017年第2期332-339,共8页
基于1961-2015年新疆地区51个气象站过去55 a逐日降水资料,借助标准化降水指数、降水距平百分率表征干旱,利用线性趋势,K-means聚类,Mann-Kendall非参数检验,Morlet小波分析等方法,分析过去55 a降水及干旱变化特征。研究表明:(1)过去55 ... 基于1961-2015年新疆地区51个气象站过去55 a逐日降水资料,借助标准化降水指数、降水距平百分率表征干旱,利用线性趋势,K-means聚类,Mann-Kendall非参数检验,Morlet小波分析等方法,分析过去55 a降水及干旱变化特征。研究表明:(1)过去55 a新疆降水量、雨日整体呈上升趋势,相关系数为0.83,降水量增加主要表现为雨日增长;降水空间分布和聚类得出,降水呈现显著"北多南少"格局,3个降水分区的降水量表现为Ⅲ区>Ⅱ区>Ⅰ区。(2)干旱指数SPI、降水距平Pa极显著相关,干旱频次、影响范围、严重性总体呈现下降趋势;干旱变化率空间分布整体存在一致性,由南向北干旱缓解趋势增大,但局域上又有异质性,北疆个别站点干旱加剧;(3)干旱变化具有周期性,主周期为8 a,次主周期为4 a、16 a。 展开更多
关键词 标准化降水指数 降水距平百分率 k-means 新疆
下载PDF
考虑动态需求的外卖配送路径优化模型及算法 被引量:52
20
作者 李桃迎 吕晓宁 +1 位作者 李峰 陈燕 《控制与决策》 EI CSCD 北大核心 2019年第2期406-413,共8页
外卖业务模式高度复杂,现有文献中缺少针对外卖配送路径优化问题的研究.鉴于此,基于同时送取货VRP问题的求解策略,引入时间惩罚成本衡量外卖配送超出时间窗的情况,定义目标函数为外卖配送成本增量总和,包括新订单的固定配送成本、额外... 外卖业务模式高度复杂,现有文献中缺少针对外卖配送路径优化问题的研究.鉴于此,基于同时送取货VRP问题的求解策略,引入时间惩罚成本衡量外卖配送超出时间窗的情况,定义目标函数为外卖配送成本增量总和,包括新订单的固定配送成本、额外配送成本和时间惩罚成本之和.考虑随机参数对计算复杂程度产生的影响,设定配送区域范围,对新订单进行调度时,已指派但尚未完成的订单仍由原车配送,且将时间惩罚成本作为变动成本修正目标函数,直接去掉时间窗约束,降低算法求解难度.设计"商家-客户"配对策略,引入k-means对"商家-客户"进行聚类,同一类内设计"商家-客户"遗传算法,得到启发式路径优化方案.最后,采用随机模拟算法生成动态订单测试算例,通过R语言测试模型及算法的有效性. 展开更多
关键词 车辆路径问题 外卖配送 k-means 遗传算法 随机模拟算法 动态需求
原文传递
上一页 1 2 153 下一页 到第
使用帮助 返回顶部