-
题名数据挖掘中的聚类算法综述
被引量:225
- 1
-
-
作者
贺玲
吴玲达
蔡益朝
-
机构
国防科学技术大学信息系统与管理学院
-
出处
《计算机应用研究》
CSCD
北大核心
2007年第1期10-13,共4页
-
基金
国家自然科学基金资助项目(60473117)
-
文摘
聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术。全面总结了数据挖掘中聚类算法的研究现状,分析比较了它们的性能差异和各自存在的优点及问题,并结合多媒体领域的应用需求指出了其今后的发展趋势。
-
关键词
数据挖掘
聚类
聚类算法
-
Keywords
Data Mining
Clustering
Clustering Algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名K-Means聚类算法研究综述
被引量:277
- 2
-
-
作者
杨俊闯
赵超
-
机构
河北工程大学信息与电气工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2019年第23期7-14,63,共9页
-
基金
河北省高等学校科学技术研究项目(No.QN2018109)
-
文摘
K-均值(K-Means)算法是聚类分析中一种基于划分的算法,同时也是无监督学习算法。其具有思想简单、效果好和容易实现的优点,广泛应用于机器学习等领域。但是K-Means算法也有一定的局限性,比如:算法中聚类数目K值难以确定,初始聚类中心如何选取,离群点的检测与去除,距离和相似性度量等。从多个方面对K-Means算法的改进措施进行概括,并和传统K-Means算法进行比较,分析了改进算法的优缺点,指出了其中存在的问题。对K-Means算法的发展方向和趋势进行了展望。
-
关键词
K-MEANS
聚类算法
聚类中心
离群点
-
Keywords
K-Means
clustering algorithm
cluster center
outliers
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名K-means算法研究综述
被引量:162
- 3
-
-
作者
吴夙慧
成颖
郑彦宁
潘云涛
-
机构
南京大学信息管理系
中国科学技术信息研究所
-
出处
《现代图书情报技术》
CSSCI
北大核心
2011年第5期28-35,共8页
-
基金
国家社会科学基金项目"中文学术信息检索系统相关性集成研究"(项目编号:10CTQ027)
教育部人文社会科学研究规划基金项目"面向用户的相关性标准及其应用研究"(项目编号:07JA870006)
中国科学技术信息研究所合作研究项目的研究成果之一
-
文摘
对聚类分析中的基本算法K-means算法中的K值确定、初始聚类中心选择以及分类属性数据处理等主要问题进行综述,理清K-means算法的整个发展脉络及算法研究中的热点和难点,提出改进K-means聚类算法的思路。
-
关键词
K—means算法
聚类算法
K值
初始聚类中心
-
Keywords
K - means algorithm Clustering algorithm Number of clusters Initial clustering centers
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
G350
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于关键词共现频率的热点分析方法研究
被引量:163
- 4
-
-
作者
吴晓秋
吕娜
-
机构
北京理工大学图书馆
-
出处
《情报理论与实践》
CSSCI
北大核心
2012年第8期115-119,共5页
-
基金
教育部人文社会科学基金项目"基于科技监测理论的学科知识服务研究"的成果
项目编号:09YJC870005
-
文摘
关键词共现可以有效地反映学科领域的研究热点,为科学研究提供辅助支持。文章系统梳理基于共现频率的共词分析相关度算法、聚类算法、可视化方法等,评价现有聚类算法,并针对k-means聚类算法提出改进构想。
-
关键词
关键词
共现频率
聚类算法
分析方法
-
Keywords
keyword
co-occurrence frequency
clustering algorithm
analysis method
-
分类号
G354
[文化科学—情报学]
-
-
题名数据挖掘中聚类算法研究进展
被引量:145
- 5
-
-
作者
周涛
陆惠玲
-
机构
宁夏医科大学理学院
-
出处
《计算机工程与应用》
CSCD
2012年第12期100-111,共12页
-
基金
国家自然科学基金(No.81160183)
宁夏自然科学基金(No.NZ11105)
+4 种基金
陕西省教育厅项目(No.2010JK466)
宁夏卫生厅重点科研项目(No.2011033)
宁夏高等学校科学研究重点项目(宁教高[2011]263号)
宁夏医科大学特殊人才项目(No.XT2011004)
宁夏医科大学青年基金项目(No.XQ2011011)
-
文摘
聚类分析是数据挖掘中重要的研究内容之一,对聚类准则进行了总结,对五类传统的聚类算法的研究现状和进展进行了较为全面的总结,就一些新的聚类算法进行了梳理,根据样本归属关系、样本数据预处理、样本的相似性度量、样本的更新策略、样本的高维性和与其他学科的融合等六个方面对聚类中近20多个新算法,如粒度聚类、不确定聚类、量子聚类、核聚类、谱聚类、聚类集成、概念聚类、球壳聚类、仿射聚类、数据流聚类等,分别进行了详细的概括。这对聚类是一个很好的总结,对聚类的发展具有积极意义。
-
关键词
数据挖掘
聚类算法
聚类准则
-
Keywords
data mining
clustering algorithm
clustering criterion
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名从多角度分析现有聚类算法(英文)
被引量:86
- 6
-
-
作者
钱卫宁
周傲英
-
机构
复旦大学计算机科学系
复旦大学智能信息处理开放实验室
-
出处
《软件学报》
EI
CSCD
北大核心
2002年第8期1382-1394,共13页
-
基金
~~国家重点基础研究发展规划973项目
~~国家教育部博士点基金
-
文摘
聚类是数据挖掘中研究的重要问题之一.聚类分析就是把数据集分成簇,以使得簇内数据尽量相似,簇间数据尽量不同.不同的聚类方法采用不同的相似测度和技术.从以下3个角度分析现有流行聚类算法: (1)聚类尺度; (2)算法框架; (3)簇的表示.在此基础上,分析了一些综合或概括了一些其他方法的算法.由于分析从3个角度进行,所提出的方法能够涵盖,并区分绝大多数现有聚类算法.所做的工作是自调节聚类方法以及聚类基准测试研究的基础.
-
关键词
多角度分析
聚类算法
数据挖掘
数据库
数据集
-
Keywords
data mining
clustering
algorithm
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于聚类分析的K-means算法研究及应用
被引量:123
- 7
-
-
作者
张建萍
刘希玉
-
机构
山东师范大学信息科学与工程学院
山东师范大学管理学院
-
出处
《计算机应用研究》
CSCD
北大核心
2007年第5期166-168,共3页
-
基金
国家自然科学基金资助项目(6037405)
"泰山学者"建设工程专项经费资助项目
+1 种基金
山东省自然科学基金重大项目(Z2004G02)
山东省中青年科学家奖励基金资助项目(03BS003)
-
文摘
通过对聚类分析及其算法的论述,从多个方面对这些算法性能进行比较,同时以儿童生长发育时期的数据为例通过聚类分析的软件和改进的K-means算法来进一步阐述聚类分析在数据挖掘中的实践应用。
-
关键词
数据挖掘
聚类分析
数据库
聚类算法
-
Keywords
data mining
cluster analysis
database
cluster algorithm
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于用户聚类的异构社交网络推荐算法
被引量:125
- 8
-
-
作者
陈克寒
韩盼盼
吴健
-
机构
浙江大学计算机学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2013年第2期349-359,共11页
-
基金
国家科技支撑计划项目基金(2011BAH16B04)
国家自然科学基金(61173176)
+1 种基金
浙江省科技项目(2008C03007)
国家"八六三"高技术研究发展计划项目基金(2011AA010501)资助
-
文摘
相比传统的社交网络,基于弱关系的微博类社交网络具有显著的异构特征.根据特征可以将节点分为用户(消息订阅者)和主题(消息发布者)两类,面向用户推荐其感兴趣的主题成为了该类社交网络中推荐系统的主要目标之一,同时该类社交网络中普遍存在的数据稀疏性和冷启动现象成为了推荐系统面临的主要问题.文中提出一种基于两阶段聚类的推荐算法GCCR,将图摘要方法和基于内容相似度的算法结合,实现基于用户兴趣的主题推荐.与以往方法相比,该方法在稀疏数据和冷启动的情况下具有更好的推荐效果,此外,通过对数据集进行大量的离线处理,使得其较以往推荐方法具有更好的在线推荐效率.最后通过真实社交网络的数据对本方法进行了验证,同时分析了各参数对推荐效果的影响.
-
关键词
社交网络
推荐系统
聚类算法
图摘要
数据挖掘
-
Keywords
social network
recommendation system
clustering
graph summarization
data mining
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名数据挖掘中聚类分析的技术方法
被引量:87
- 9
-
-
作者
汤效琴
戴汝源
-
机构
宁夏银川市宁夏大学北校区计算中心
宁夏银川市宁夏大学物理电气信息学院
-
出处
《微计算机信息》
2003年第1期3-4,共2页
-
文摘
数据挖掘是信息产业界近年来非常热门的研究方向,聚类分析是数据挖掘中的核心技术。本文对数据挖掘领域的聚类分析方法及代表算法进行分析,并从多个方面对这些算法性能进行比较,同时还对聚类分析在数据挖掘中的几个应用进行了阐述。
-
关键词
数据挖掘
聚类分析
数据库
聚类算法
数据集合
-
Keywords
Data Mining
Cluster analysis
Cluster algorithm
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名RBF神经网络的函数逼近能力及其算法
被引量:103
- 10
-
-
作者
柴杰
江青茵
曹志凯
-
机构
厦门大学化工系
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2002年第3期310-316,共7页
-
文摘
BP网络是广为应用的一种前馈网络,但是由于其自身缺陷,其它网络越来越受到关注.目前RBF网络是前馈网络研究中的一个热点,有关其逼近理论以及算法的研究出现在许多文献之中.本文综述了RBF网络理论,对其结构、函数逼近性质、学习算法做了较为详细的介绍,并指出了RBF网络各种学习算法的优点和存在的问题.
-
关键词
RBF神经网络
函数逼近
聚类算法
最小二乘法
径向基函数神经网络
-
Keywords
RBF Neural Network, Function Approximation, Clustering Algorithms, Least Square Algorithm
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名文档聚类综述
被引量:65
- 11
-
-
作者
刘远超
王晓龙
徐志明
关毅
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2006年第3期55-62,共8页
-
基金
国家自然科学基金重点资助项目(60435020)
-
文摘
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘等领域获得了广泛的应用。本文首先讨论了文档聚类的应用背景和体系结构,然后对文档聚类算法、聚类空间的构造和降维方法、文档聚类中的语义问题进行了综述。最后还介绍了聚类质量评测问题。
-
关键词
计算机应用
中文信息处理
综述
文档聚类
降维
概念相关
聚类算法
-
Keywords
computer application
Chinese information processing
overview
document clustering
dimension reduction
concept relevance
clustering algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于聚类算法的风电场动态等值
被引量:94
- 12
-
-
作者
陈树勇
王聪
申洪
高宁超
朱琳
兰华
-
机构
中国电力科学研究院
东北电力大学
华北电力大学
-
出处
《中国电机工程学报》
EI
CSCD
北大核心
2012年第4期11-19,24,共9页
-
文摘
风电机组在实际运行时,受尾流效应等因素影响,运行状态并不相同。为提高风电场实际运行模型的精度,提出了一种适用于双馈式风力发电机的动态等值建模方法。它将风电机组的状态变量矩阵作为分群指标,利用聚类算法将矩阵中的数据进行分群,将同群的风电机组等值成为一台风力发电机,实现了风电场的动态等值。利用PSD/BPA平台,对系统侧故障与风速变化2种情况仿真,并与传统等值方法及风电场详细模型对比。仿真结果表明,采用仿真过程中的状态变量作为分群指标是合理的,该模型与详细模型的动态特性基本一致,可以用来描述风电场的实际运行状态。
-
关键词
双馈式风力发电机
聚类算法
状态变量
动态等值
电力系统分析
-
Keywords
doubly-fed wind generators(DFWGs)
clustering algorithm
state variables
dynamic equivalence
power system analysis
-
分类号
TM74
[电气工程—电力系统及自动化]
-
-
题名基于k-means聚类算法的研究
被引量:87
- 13
-
-
作者
黄韬
刘胜辉
谭艳娜
-
机构
哈尔滨理工大学计算机科学与技术学院
-
出处
《计算机技术与发展》
2011年第7期54-57,62,共5页
-
基金
哈尔滨市后备带头人基金项目(2004AFXXJ039)
-
文摘
分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机选取初始聚类中心的影响较大的缺点,提出一种改进算法。通过将对数据集的多次采样,选取最终较优的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响度大大降低;同时,在选取初始聚类中心后,对初值进行数据标准化处理,使聚类效果进一步提高。通过UCI数据集上的数据对新算法Hk-means进行检测,结果显示Hk-means算法比原始的k-means算法在聚类效果上有显著的提高,并对相关领域有借鉴意义。
-
关键词
数据挖掘
聚类算法
K-MEANS算法
-
Keywords
data mining
clustering algorithm
k-means algorithm
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名聚类算法在网络入侵检测中的应用
被引量:41
- 14
-
-
作者
向继
高能
荆继武
-
机构
中国科学院研究生院信息安全国家重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第16期48-49,185,共3页
-
基金
国家高技术研究发展计划("863"计划):信息安全新技术研究--坚固网关技术(2001AA144050)
-
文摘
分析了目前的入侵检测技术,提出了使用聚类算法进行网络入侵检测的方法,并通过试验说明了该方法的应用效果。
-
关键词
聚类算法
网络入侵检测
数据挖掘
K-MEANS算法
-
Keywords
Cluster algorithm
Network intrusion detection
Data mining
K-means algorithm
-
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
-
-
题名核密度估计及其在聚类算法构造中的应用
被引量:63
- 15
-
-
作者
李存华
孙志挥
陈耿
胡云
-
机构
东南大学计算机科学与工程系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2004年第10期1712-1719,共8页
-
基金
国家自然科学基金项目 ( 70 3 710 15 )
国家科技部中小型企业创新基金项目 ( 0 2C2 62 13 2 10 0 70 )
江苏省教育厅自然科学基金项目( 0 2KJB5 2 0 0 12 )
-
文摘
经典数理统计学中的核密度估计理论是构造基于数据集密度函数聚类算法的理论基础 ,采用分箱近似的快速核密度函数估计方法同样为构造高效的聚类算法提供了依据 通过对核密度估计理论及其快速分箱核近似方法的讨论 ,给出分箱近似密度估计相对于核密度估计的均方误差界 ,提出基于网格数据重心的分箱核近似方法 在不改变计算复杂度的条件下 ,基于网格数据重心的分箱核近似密度函数计算可以有效地降低近似误差 ,这一思想方法对于构造高效大规模数据聚类分析算法具有指导意义
-
关键词
核密度估计
分箱规则
聚类算法
-
Keywords
kernel density estimation
binning rule
clustering algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向海量用户用电特性感知的分布式聚类算法
被引量:67
- 16
-
-
作者
朱文俊
王毅
罗敏
林国营
程将南
康重庆
-
机构
中国南方电网广东电网有限责任公司
清华大学电机工程与应用电子技术系
中国南方电网广东电网有限责任公司电力科学研究院
-
出处
《电力系统自动化》
EI
CSCD
北大核心
2016年第12期21-27,共7页
-
基金
国家杰出青年基金资助项目(51325702)
中国南方电网有限责任公司科技项目(GD-KJXM-20150902)~~
-
文摘
智能电表的普及促进了配用电大数据的发展。通过对用户用电数据的挖掘和用电特性的感知,能够有效识别用户用电模式、评估需求响应潜力、指导电价制定等。然而,用户用电数据一方面随时间不断更新,增长迅速,呈海量态势;另一方面,数据采集点分布在用户侧,具有极强的分散性。针对海量、分散的用电数据带来的挑战,文中提出一种新的分布式聚类算法。首先利用自适应k-means聚类算法对分布在各区域的用电数据进行局部聚类分析,提取各局部数据的典型负荷曲线,构建局部模型;然后利用传统聚类算法对获取的局部模型进行二次聚类分析,获取全局的典型负荷曲线,构建全局模型;最后向局部数据中心反馈全局聚类结果,实现全局聚类分析。通过爱尔兰实际量测用电数据证明了所提出算法的有效性。
-
关键词
分布式聚类
自适应k-means
聚类算法
大数据
负荷曲线
态势感知
-
Keywords
distributed clustering
adaptive k-means
clustering algorithm
big data
load profiling
situation awareness
-
分类号
TM73
[电气工程—电力系统及自动化]
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名数据挖掘中聚类算法比较研究
被引量:35
- 17
-
-
作者
张红云
刘向东
段晓东
苗夺谦
马垣
-
机构
同济大学电子与信息工程学院
大连民族学院计算机系
鞍山科技大学计算机科学与工程学院
-
出处
《计算机应用与软件》
CSCD
北大核心
2003年第2期5-6,77,共3页
-
基金
国家博士后科研基金
辽宁省博士启动基金(2000014512)
-
文摘
聚类算法是数据挖掘的核心技术,本文综合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中常用聚类算法作了比较分析,以便于人们更容易、更快捷地找到一种适用于特定问题的聚类算法。
-
关键词
数据挖掘
聚类算法
平衡迭代削减聚类算法
代表点聚类算法
数据库
-
Keywords
Data Mining BIRCH DBSCAN CURE
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于数据挖掘的拒绝服务攻击检测技术
被引量:44
- 18
-
-
作者
高能
冯登国
向继
-
机构
中国科学院研究生院信息安全国家重点实验室
-
出处
《计算机学报》
EI
CSCD
北大核心
2006年第6期944-951,共8页
-
基金
国家"八六三"高技术研究发展计划项目(2001AA144050
2003AA144050)资助
-
文摘
提出了一种新的、基于数据挖掘的DoS攻击检测技术———DMDoSD,它首先利用Apriori关联算法从原始网络数据中提取流量特征,然后利用K-means聚类算法自适应地产生检测模型,这两种算法的结合能够实时地、自动地、有效地检测DoS攻击.DMDoSD除了向现有的IDS发出攻击报警外,还进一步利用关联算法分析异常网络数据包,确定攻击特征,为DoS攻击的防御提供支持.
-
关键词
拒绝服务攻击
聚类算法
关联算法
实时检测
-
Keywords
DoS(Denial of Service) attack
cluster algorithm
association algorithm
real-time detection
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名改进模糊划分的FCM聚类算法的一般化研究
被引量:55
- 19
-
-
作者
朱林
王士同
邓赵红
-
机构
江南大学信息工程学院
上海交通大学图像处理与模式识别研究所
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2009年第5期814-822,共9页
-
基金
国家“八六三”高技术研究发展计划基金项目(2006AA10Z313)
国家自然科学基金项目(60773206,60704047)
国防应用基础研究基金项目(A1420461266)~~
-
文摘
聚类分析是无监督模式识别中的一种重要方法,已广泛应用于数据挖掘、图像处理、计算机视觉、生物信息和文本分析中.在聚类算法中,模糊指数m对聚类结果有十分重要的影响.针对IFP-FCM算法模糊指数m被限定为2的问题,提出了一般化的改进模糊划分的FCM聚类算法GIFP-FCM.通过引入新的隶属度约束,解决了IFP-FCM算法模糊指数m的一般化问题;同时GIFP-FCM算法从Voronoi距离和竞争学习的角度对其鲁棒性和快速收敛性进行了合理解释;其次,通过引入模糊程度系数α,使得FCM算法和IFP-FCM算法分别表示为GIFP-FCM算法在α等于0和α趋于1时的特例.实验结果表明,GIFP-FCM算法较之于IFP-FCM和FCM算法具有更好的鲁棒性和参数适应性;在纹理图像分割中,GIFP-FCM也明显优于IFP-FCM和FCM算法.
-
关键词
聚类算法
竞争学习
模糊划分
Voronoi距离
纹理图像分割
-
Keywords
clustering algorithm
competitive learning
fuzzy partition
Voronoi distance
image texture segmentation
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名改进的k-平均聚类算法研究
被引量:50
- 20
-
-
作者
孙士保
秦克云
-
机构
西南交通大学智能控制开发中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第13期200-201,209,共3页
-
基金
国家自然科学基金资助项目(60474022)
-
文摘
聚类算法的好坏直接影响聚类的效果。该文讨论了经典的k-平均聚类算法,说明了它存在不能很好地处理符号数据和对噪声与孤立点数据敏感等不足,提出了一种基于加权改进的k-平均聚类算法,克服了k-平均聚类算法的缺点,并从理论上分析了该算法的复杂度。实验证明,用该方法实现的数据聚类与传统的基于平均值的方法相比较,能有效提高数据聚类效果。
-
关键词
聚类算法
k-平均
权
聚类数据挖掘
-
Keywords
cluster algorithm
k-means
weights
cluster data mining
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-