期刊文献+
共找到6,466篇文章
< 1 2 250 >
每页显示 20 50 100
K-Means聚类算法研究综述 被引量:299
1
作者 杨俊闯 赵超 《计算机工程与应用》 CSCD 北大核心 2019年第23期7-14,63,共9页
K-均值(K-Means)算法是聚类分析中一种基于划分的算法,同时也是无监督学习算法。其具有思想简单、效果好和容易实现的优点,广泛应用于机器学习等领域。但是K-Means算法也有一定的局限性,比如:算法中聚类数目K值难以确定,初始聚类中心如... K-均值(K-Means)算法是聚类分析中一种基于划分的算法,同时也是无监督学习算法。其具有思想简单、效果好和容易实现的优点,广泛应用于机器学习等领域。但是K-Means算法也有一定的局限性,比如:算法中聚类数目K值难以确定,初始聚类中心如何选取,离群点的检测与去除,距离和相似性度量等。从多个方面对K-Means算法的改进措施进行概括,并和传统K-Means算法进行比较,分析了改进算法的优缺点,指出了其中存在的问题。对K-Means算法的发展方向和趋势进行了展望。 展开更多
关键词 K-means 聚类算法 聚类中心 离群点
下载PDF
一种基于K-Means局部最优性的高效聚类算法 被引量:114
2
作者 雷小锋 谢昆青 +1 位作者 林帆 夏征义 《软件学报》 EI CSCD 北大核心 2008年第7期1683-1692,共10页
K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感.许多研究工作都着力于降低这种敏感性.然而,K-Means的局部最优和结果敏感性却构成了K-MeanSCAN聚类算法的基础.K-MeanSCAN算法对数据集进行多次采样... K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感.许多研究工作都着力于降低这种敏感性.然而,K-Means的局部最优和结果敏感性却构成了K-MeanSCAN聚类算法的基础.K-MeanSCAN算法对数据集进行多次采样和K-Means预聚类以产生多组不同的聚类结果,来自不同聚类结果的子簇之间必然会存在交集.算法的核心思想是,利用这些交集构造出关于子簇的加权连通图,并根据连通性合并子簇.理论和实验证明,K-MeanScan算法可以在很大程度上提高聚类结果的质量和算法的效率. 展开更多
关键词 K-meansCAN 基于密度 K-means 聚类:连通性
下载PDF
用于数据挖掘的聚类算法 被引量:68
3
作者 姜园 张朝阳 +1 位作者 仇佩亮 周东方 《电子与信息学报》 EI CSCD 北大核心 2005年第4期655-662,共8页
数据挖掘用于从超大规模数据库中提取感兴趣的信息。聚类是数据挖掘的重要工具,根据数据间的相似性 将数据库分成多个类,每类中数据应尽可能相似。从机器学习的观点来看,类相当于隐藏模式,寻找类是无监督学 习过程。目前已有应用于统计... 数据挖掘用于从超大规模数据库中提取感兴趣的信息。聚类是数据挖掘的重要工具,根据数据间的相似性 将数据库分成多个类,每类中数据应尽可能相似。从机器学习的观点来看,类相当于隐藏模式,寻找类是无监督学 习过程。目前已有应用于统计、模式识别、机器学习等不同领域的几十种聚类算法。该文对数据挖掘中的聚类算法 进行了归纳和分类,总结了7类算法并分析了其性能特点。 展开更多
关键词 数据挖掘 聚类 分层聚类 分割聚类 K-means
下载PDF
一种基于Spark和聚类分析的辨识电力系统不良数据新方法 被引量:66
4
作者 孟建良 刘德超 《电力系统保护与控制》 EI CSCD 北大核心 2016年第3期85-91,共7页
随着电力系统智能化建设的不断深入和推进,电力系统数据呈现海量化、高维化的趋势。针对电力系统中的不良数据将导致电力系统状态估计结果的准确性降低,而传统聚类算法处理海量高维数据时单机计算资源不足,近年来较流行的Map Reduce框... 随着电力系统智能化建设的不断深入和推进,电力系统数据呈现海量化、高维化的趋势。针对电力系统中的不良数据将导致电力系统状态估计结果的准确性降低,而传统聚类算法处理海量高维数据时单机计算资源不足,近年来较流行的Map Reduce框架不能有效处理频繁迭代计算等问题,提出一种基于Spark的并行K-means算法辨识不良数据的新方法。以某一节点电力负荷数据为研究对象,运用基于Spark的并行K-means聚类算法提取出日负荷特征曲线,分别对输电网状态估计中的不良数据进行检测和辨识。选用EUNITE提供的真实电力负荷数据进行实验,结果表明此方法能有效提高状态估计结果的准确性,与基于Map Reduce框架的方法相比,具有更好的加速比、扩展性,能更好地处理电力系统的海量数据。 展开更多
关键词 SPARK 聚类 K-means 电力系统 不良数据 负荷曲线分类
下载PDF
Research on practical power system stability analysis algorithm based on modified SVM 被引量:66
5
作者 Kaiyuan Hou Guanghui Shao +4 位作者 Haiming Wang Le Zheng Qiang Zhang Shuang Wu Wei Hu 《Protection and Control of Modern Power Systems》 2018年第1期129-135,共7页
Stable and safe operation of power grids is an important guarantee for economy development.Support Vector Machine(SVM)based stability analysis method is a significant method started in the last century.However,the SVM... Stable and safe operation of power grids is an important guarantee for economy development.Support Vector Machine(SVM)based stability analysis method is a significant method started in the last century.However,the SVM method has several drawbacks,e.g.low accuracy around the hyperplane and heavy computational burden when dealing with large amount of data.To tackle the above problems of the SVM model,the algorithm proposed in this paper is optimized from three aspects.Firstly,the gray area of the SVM model is judged by the probability output and the corresponding samples are processed.Therefore the clustering of the samples in the gray area is improved.The problem of low accuracy in the training of the SVM model in the gray area is improved,while the size of the sample is reduced and the efficiency is improved.Finally,by adjusting the model of the penalty factor in the SVM model after the clustering of the samples,the number of samples with unstable states being misjudged as stable is reduced.Test results on the IEEE 118-bus test system verify the proposed method. 展开更多
关键词 Security region analysis Support vector machine K-means clustering
原文传递
数据挖掘技术在高校教学与管理中的应用 被引量:59
6
作者 刘美玲 李熹 李永胜 《计算机工程与设计》 CSCD 北大核心 2010年第5期1130-1133,共4页
针对传统的求总分统计成绩方法的不足,提出了一种基于K-Means算法的成绩聚类分析方法。该方法根据成绩分布情况选取固定的初始聚类中心,改进了K-Means算法随机选取初始聚类中心导致聚类不稳定的不足,在聚类后通过聚类内差异与聚类间差... 针对传统的求总分统计成绩方法的不足,提出了一种基于K-Means算法的成绩聚类分析方法。该方法根据成绩分布情况选取固定的初始聚类中心,改进了K-Means算法随机选取初始聚类中心导致聚类不稳定的不足,在聚类后通过聚类内差异与聚类间差异的比值来衡量聚类的质量。通过一个实例说明了该方法在分析学生成绩数据中的应用,实验结果表明,聚类方法比传统的求总分方法更合理、更科学,聚类结果蕴含更多有用的信息,而且改进后的聚类方法降低了随机选取初始聚类中心所产生的结果的不稳定性,聚类效果较好。 展开更多
关键词 数据挖掘 聚类分析 K-means 教学 管理
下载PDF
聚类分析的遗传算法方法 被引量:27
7
作者 刘健庄 谢维信 +1 位作者 黄建军 李文化 《电子学报》 EI CAS CSCD 北大核心 1995年第11期81-83,共3页
本文提出了一种利用遗传算法来对传统的聚类算法中的目标函数进行寻优的聚类分析方法,实验结果表明,本文方法得到最优(或近似最优)解的可能性比c-均值和c-线聚类算法大得多。
关键词 C-均值 聚类 遗传算法 模式识别
下载PDF
K-means聚类算法研究综述 被引量:48
8
作者 王森 刘琛 邢帅杰 《华东交通大学学报》 2022年第5期119-126,共8页
聚类分析是数据挖掘的重要技术,而在5G时代,海量的数据维度高、数据集大,利用K-means算法易受离群点的影响,且K值、初始聚类中心的选取影响聚类结果的稳定性和准确率,甚至导致聚类陷入局部最优,对K-means算法的改进受到众多研究者的关... 聚类分析是数据挖掘的重要技术,而在5G时代,海量的数据维度高、数据集大,利用K-means算法易受离群点的影响,且K值、初始聚类中心的选取影响聚类结果的稳定性和准确率,甚至导致聚类陷入局部最优,对K-means算法的改进受到众多研究者的关注。主要对K-means聚类的研究现状进行归纳总结。首先,介绍K-means算法的思想原理;其次,针对初始聚类中心点的选取、K值确定、离群点对现有改进算法进行基于密度和距离的分类总结,并对各个改进算法的优势和缺陷进行分析;最后对K-means算法未来可能的研究方向和趋势进行展望。 展开更多
关键词 K-means 聚类算法 K值 初始聚类中心 离群点 密度 距离
下载PDF
基于密度的K-means聚类中心选取的优化算法 被引量:48
9
作者 周炜奔 石跃祥 《计算机应用研究》 CSCD 北大核心 2012年第5期1726-1728,共3页
针对传统的K-means算法对于初始聚类中心点和聚类数的敏感问题,提出了一种优化初始聚类中心选取的算法。该算法针对数据对象的分布密度以及计算最近两点的垂直中点方法来确定k个初始聚类中心,再结合均衡化函数对聚类个数进行优化,以获... 针对传统的K-means算法对于初始聚类中心点和聚类数的敏感问题,提出了一种优化初始聚类中心选取的算法。该算法针对数据对象的分布密度以及计算最近两点的垂直中点方法来确定k个初始聚类中心,再结合均衡化函数对聚类个数进行优化,以获得最优聚类。采用标准的UCI数据集进行实验对比,发现改进后的算法相比传统的算法有较高的准确率和稳定性。 展开更多
关键词 K-均值 数据挖掘 聚类中心 垂直中点 密度
下载PDF
差分隐私保护k-means聚类方法研究 被引量:48
10
作者 李杨 郝志峰 +1 位作者 温雯 谢光强 《计算机科学》 CSCD 北大核心 2013年第3期287-290,共4页
研究了基于差分隐私保护的k-means聚类隐私保护方法。首先介绍了隐私保护数据挖掘和隐私保护聚类分析的研究现状,简单介绍了差分隐私保护的基本原理和方法。为了解决差分隐私k-means聚类方法聚类结果可用性差的问题,提出了一个新的IDP k... 研究了基于差分隐私保护的k-means聚类隐私保护方法。首先介绍了隐私保护数据挖掘和隐私保护聚类分析的研究现状,简单介绍了差分隐私保护的基本原理和方法。为了解决差分隐私k-means聚类方法聚类结果可用性差的问题,提出了一个新的IDP k-means聚类方法,并证明了其满足ε-差分隐私保护。最后的仿真实验表明,在相同隐私保护级别下,IDP k-means聚类方法与差分隐私k-means聚类方法相比,聚类可用性得到了较大程度的提高。 展开更多
关键词 差分隐私 K-均值 聚类 隐私保护
下载PDF
基于K-Means聚类算法的自动图谱识别在电缆局部放电在线监测系统中的应用 被引量:46
11
作者 靖小平 彭小圣 +3 位作者 姜伟 周文俊 周承科 唐泽洋 《高电压技术》 EI CAS CSCD 北大核心 2012年第9期2437-2446,共10页
局部放电相位谱图(phase resolved partial discharge pattern)是局部放电模式识别普遍采用的重要方法。但在中高压电缆在线局放监测系统中,电缆中的电压信号难以直接获取,使得局放相位谱图分析的开展遇到了重大的挑战。为此,在多年局... 局部放电相位谱图(phase resolved partial discharge pattern)是局部放电模式识别普遍采用的重要方法。但在中高压电缆在线局放监测系统中,电缆中的电压信号难以直接获取,使得局放相位谱图分析的开展遇到了重大的挑战。为此,在多年局放理论研究和局放现场应用研究的基础上,提出了基于K-Means聚类的局部放电相位谱图自动模式识别技术。该技术通过信号提取、坐标变换、K-Means聚类、中心点平移、模式判断的流程,克服了电缆局放监测中相位信息难以直接获取的缺点,能对来自三相的局部放电信号进行自动识别判断。5个应用实例证明,该方法能对电晕放电、内部放电、沿面放电和干扰信号做出准确的判断,必将在电缆在线监测系统中获得广泛的应用。 展开更多
关键词 局部放电(PD) K-means 局部放电相位谱图 自动模式识别 聚类 在线监测 电力电缆
下载PDF
面向大数据处理的并行优化抽样聚类K-means算法 被引量:46
12
作者 周润物 李智勇 +2 位作者 陈少淼 陈京 李仁发 《计算机应用》 CSCD 北大核心 2016年第2期311-315,329,共6页
针对大数据环境下K-means聚类算法聚类精度不足和收敛速度慢的问题,提出一种基于优化抽样聚类的K-means算法(OSCK)。首先,该算法从海量数据中概率抽样多个样本;其次,基于最佳聚类中心的欧氏距离相似性原理,建模评估样本聚类结果并去除... 针对大数据环境下K-means聚类算法聚类精度不足和收敛速度慢的问题,提出一种基于优化抽样聚类的K-means算法(OSCK)。首先,该算法从海量数据中概率抽样多个样本;其次,基于最佳聚类中心的欧氏距离相似性原理,建模评估样本聚类结果并去除抽样聚类结果的次优解;最后,加权整合评估得到的聚类结果得到最终k个聚类中心,并将这k个聚类中心作为大数据集聚类中心。理论分析和实验结果表明,OSCK面向海量数据分析相对于对比算法具有更好的聚类精度,并且具有很强的稳健性和可扩展性。 展开更多
关键词 大数据 K-均值 概率抽样 欧氏距离 聚类精度
下载PDF
一种集成簇内和簇间距离的加权k-means聚类方法 被引量:43
13
作者 黄晓辉 王成 +1 位作者 熊李艳 曾辉 《计算机学报》 EI CSCD 北大核心 2019年第12期2836-2848,共13页
聚类分析是数据挖掘与分析最重要的方法之一.它把相似的数据对象归类到一个簇,把不同的数据对象尽可能分到不同的簇.其中k-means聚类算法,由于其简单性和高效性,被广泛运用于解决各种现实问题,例如文本演化分析、图像聚类、社区发现等.... 聚类分析是数据挖掘与分析最重要的方法之一.它把相似的数据对象归类到一个簇,把不同的数据对象尽可能分到不同的簇.其中k-means聚类算法,由于其简单性和高效性,被广泛运用于解决各种现实问题,例如文本演化分析、图像聚类、社区发现等.然而在聚类过程中,大部分现有的类k-means算法主要考虑簇内距离,而忽略了簇间距离的作用.本文结合特征加权方法,提出了一种新的集成簇内和簇间距离的加权k-means方法(a weighting k-means clustering approach by integrating Intra-Cluster and Inter-Cluster distances,KICIC)来解决高维数据聚类问题.虽然现有少数类k-means算法通过最大化簇中心与全局中心距离来融入簇间信息,但不同于这类方法,KICIC通过在子空间内最大化簇中心与其他簇数据对象的距离来融合簇内和簇间距离进行聚类.基于此思路,本文首先为KICIC算法设计了一个目标函数,然后通过优化求解目标函数得到算法参数的更新迭代公式,并在此基础上设计了KICIC算法.最后,在6个真实数据集上的实验结果表明,对比现有类k-means算法,KICIC算法在大部分情况下都有获得更好的聚类结果. 展开更多
关键词 K-means 聚类分析 特征加权 熵调整 数据挖掘
下载PDF
基于改进K-means聚类算法的负荷建模及应用 被引量:42
14
作者 白雪峰 蒋国栋 《电力自动化设备》 EI CSCD 北大核心 2010年第7期80-83,共4页
根据数据所处区域的数据密度选择初始聚类中心以充分反映数据的分布特征;在迭代计算新的聚类中心时,利用数据与类中心的平均距离作为新一轮迭代的聚类中心以排除噪声点的影响;通过集群评估指标DBI(Davies-Bouldin Index)选择最优聚类个... 根据数据所处区域的数据密度选择初始聚类中心以充分反映数据的分布特征;在迭代计算新的聚类中心时,利用数据与类中心的平均距离作为新一轮迭代的聚类中心以排除噪声点的影响;通过集群评估指标DBI(Davies-Bouldin Index)选择最优聚类个数,以更准确地反映数据空间分布的特征。利用改进K-means算法对某省变电所数据进行聚类分析,得到负荷特征数据,并在此基础上建立了分段3次Hermite插值函数负荷模型。算例分析表明基于改进K-means的负荷建模方法对电网仿真分析可行、有效。 展开更多
关键词 电力系统 K-means 聚类分析 负荷建模
下载PDF
基于K-means的改进人工蜂群聚类算法 被引量:41
15
作者 曹永春 蔡正琦 邵亚斌 《计算机应用》 CSCD 北大核心 2014年第1期204-207,217,共5页
针对K-means聚类算法对初始聚类中心敏感和易陷入局部最优解的缺点,提出一种基于K-means的人工蜂群(ABC)聚类算法。将改进的人工蜂群算法和K-means迭代相结合,使算法对初始聚类中心的依赖性和陷入局部最优解的可能性降低,提高了算法的... 针对K-means聚类算法对初始聚类中心敏感和易陷入局部最优解的缺点,提出一种基于K-means的人工蜂群(ABC)聚类算法。将改进的人工蜂群算法和K-means迭代相结合,使算法对初始聚类中心的依赖性和陷入局部最优解的可能性降低,提高了算法的稳定性。通过基于反向学习的初始化策略,增强了初始群体的多样性。利用非线性选择策略,改善了过早收敛问题,提高了搜索效率。通过对邻域搜索范围的动态调整,提高了算法收敛速度,增强了局部寻优能力。实验结果表明,该算法不仅克服了K-means算法稳定性差的缺点,而且具有良好的性能和聚类效果。 展开更多
关键词 人工蜂群算法 聚类分析 K-means 反向学习 非线性选择
下载PDF
一种用于文本聚类的改进k-means算法 被引量:34
16
作者 索红光 王玉伟 《山东大学学报(理学版)》 CAS CSCD 北大核心 2008年第1期60-64,共5页
k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展... k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展其搜索范围。理论分析和实验结果表明修改后的算法能有效地提高聚类的质量,且计算复杂度仍与数据集文本总数呈线性变化。 展开更多
关键词 文本聚类 K-means 向量空间模型 局部迭代
下载PDF
不同距离测度的K-Means文本聚类研究 被引量:40
17
作者 陈磊磊 《软件》 2015年第1期56-61,共6页
近年来,互联网和电子商务企业堆积了海量文本文档类型的数据,如何通过有效的手段对这些数据进行整理,并进行真正有质量的数据挖掘已经成为计算机科学关注的焦点。本文对文本数据之间的相似性进行了研究,并采用VSM技术和TF-IDF加权策略... 近年来,互联网和电子商务企业堆积了海量文本文档类型的数据,如何通过有效的手段对这些数据进行整理,并进行真正有质量的数据挖掘已经成为计算机科学关注的焦点。本文对文本数据之间的相似性进行了研究,并采用VSM技术和TF-IDF加权策略对文本文档进行了预处理。然后,采用不同测度距离作为相似性度量对数据进行了K-Means聚类实验,并对实验结果进行分析和总结。最后基于之前的结论,在改善文本聚类质量方面,做出了一定的探索。 展开更多
关键词 文本聚类 K-means 测度距离 聚类质量
下载PDF
四种聚类方法之比较 被引量:37
18
作者 冯晓蒲 张铁峰 《微型机与应用》 2010年第16期1-3,共3页
介绍了较为常见的k-means、层次聚类、SOM、FCM等四种聚类算法,阐述了各自的原理和使用步骤,利用国际通用测试数据集IRIS对这些算法进行了验证和比较。结果显示对该测试类型数据,FCM和k-means都具有较高的准确度,层次聚类准确度最差,而... 介绍了较为常见的k-means、层次聚类、SOM、FCM等四种聚类算法,阐述了各自的原理和使用步骤,利用国际通用测试数据集IRIS对这些算法进行了验证和比较。结果显示对该测试类型数据,FCM和k-means都具有较高的准确度,层次聚类准确度最差,而SOM则耗时最长。 展开更多
关键词 聚类算法 K-means 层次聚类 SOM FCM
下载PDF
基于K-means聚类算法的分析及应用 被引量:22
19
作者 石云平 辛大欣 《西安工业学院学报》 2006年第1期45-48,共4页
聚类分析能作为一个独立的工具来获得数据分布的情况,观察每一个簇的特点,集中对特定的某些簇作进一步的分析;本文主要介绍了传统聚类算法及其局限性,然后对直接K-means算法进行分析改进,着重分析了该算法的思想体系以及它的优缺点,针... 聚类分析能作为一个独立的工具来获得数据分布的情况,观察每一个簇的特点,集中对特定的某些簇作进一步的分析;本文主要介绍了传统聚类算法及其局限性,然后对直接K-means算法进行分析改进,着重分析了该算法的思想体系以及它的优缺点,针对它的缺点之一提出了一种基于距离的改进策略,并将该改进策略应用到对学生成绩的分析中,实验目的是应用该算法将学生划分为合理的簇(或类)以及对聚类结果进行分析,总之实验表明了该算法的灵活性以及在此应用中的适用性. 展开更多
关键词 数据挖掘 划分方法 聚类 K—means
下载PDF
一个基于K-means的聚类算法的实现 被引量:19
20
作者 谭勇 荣秋生 《湖北民族学院学报(自然科学版)》 CAS 2004年第1期69-71,共3页
聚类算法作为数据挖掘中的一种分析方法,它能找到样本比较密集的部分,并且概括出样本相对比较集中的区域.分析了传统的聚类算法及局限性,讨论了一个基于K-means算法的实现过程,使得算法可处理存在孤立点的大文档集,得到最佳的聚类结果.
关键词 数据挖掘 聚类 K-means
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部