期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
一种新聚类评价指标 被引量:13
1
作者 谢娟英 周颖 《陕西师范大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第6期1-8,共8页
用于发现数据集类簇数k的常用内部评价指标DB(Davies Bouldin)和BWP(Between-within Proportion)等需要先确定一个搜索范围kmax,使数据集的类簇数满足k≤kmax,但如何确定kmax尚无理论指导。针对这一问题,提出一个新F统计量Fr,将Fr作为... 用于发现数据集类簇数k的常用内部评价指标DB(Davies Bouldin)和BWP(Between-within Proportion)等需要先确定一个搜索范围kmax,使数据集的类簇数满足k≤kmax,但如何确定kmax尚无理论指导。针对这一问题,提出一个新F统计量Fr,将Fr作为新聚类有效性准则,以判断聚类算法收敛与否,自适应地确定数据集类簇数;将Fr应用于快速K-medoids算法的收敛性判断,并以基于最小生成树的测地距离,即样本对在最小生成树上的路径长度,代替其间的直接欧氏距离度量样本相似性,得到一种自适应的快速K-medoids聚类算法,解决了K-medoids算法需要人为给定类簇数和不能发现任意形状簇的问题。UCI机器学习数据库数据集和人工模拟数据集实验测试表明,本文提出的Fr指标是一种有效的聚类算法评价指标,基于该指标和测地距离的K-medoids算法不仅能发现任意形状的簇,还可以自适应地确定数据集的类簇数,且对噪音数据有很好的鲁棒性。 展开更多
关键词 F统计量 内部评价指标 K-medoids聚算法 最小生成树
下载PDF
改进聚类算法在公交数据挖掘中的应用研究 被引量:3
2
作者 刘凯 龚兰兰 +1 位作者 凌兴宏 周家骎 《计算机技术与发展》 2020年第6期207-210,166,共5页
针对城市交通规划中枢纽站点确定的问题,提出了使用改进的聚类算法对公交数据进行处理来确定枢纽站点,同时在研究聚类算法的应用过程中,提出了使用遗传算法改进组合的聚类算法确定聚类算法中各层类簇数。针对本实验公交枢纽站点确定的问... 针对城市交通规划中枢纽站点确定的问题,提出了使用改进的聚类算法对公交数据进行处理来确定枢纽站点,同时在研究聚类算法的应用过程中,提出了使用遗传算法改进组合的聚类算法确定聚类算法中各层类簇数。针对本实验公交枢纽站点确定的问题,为达到更优的聚类效果,将原始遗传算法与K-means算法及层次聚类算法三者结合。聚类算法参数设置的方法,有别于传统确定类簇数的方法,使用遗传算法确定K-means算法与层次聚类算法结合时的类簇数,以及两个类簇数之间的关系。通过基于真实数据的模拟实验表明,使用聚类算法确定枢纽站点为公交枢纽站点二次规划提供了可靠的数据支持,并且相对于传统的聚类算法,使用遗传算法改进的聚类算法的聚类效果有了较好的提升。 展开更多
关键词 枢纽站确定 遗传算法 K-均值算法 凝聚层次聚
下载PDF
基于最小生成树的层次K-means聚类算法 被引量:18
3
作者 贾瑞玉 李振 《微电子学与计算机》 CSCD 北大核心 2016年第3期86-88,93,共4页
针对K-means算法初始化时需要指定聚类数目,和随机选择初始聚类中心对聚类结果产生不稳定的问题,结合图论中最小生成树和层次算法的分裂、凝聚思想,提出一种基于最小生成树的层次K-means算法.该算法初始时根据数据样本生成一颗最小生成... 针对K-means算法初始化时需要指定聚类数目,和随机选择初始聚类中心对聚类结果产生不稳定的问题,结合图论中最小生成树和层次算法的分裂、凝聚思想,提出一种基于最小生成树的层次K-means算法.该算法初始时根据数据样本生成一颗最小生成树,然后利用层次分裂思想把数据分成多个较小的簇,通过K-means算法迭代操作得到每次操作的评价函数值来判断是否进行簇的合并,进一步确定聚类簇数目.实验结果证明,该算法能够较准确地判断聚类数目,并且聚类结果的稳定性比基本K-means算法要好. 展开更多
关键词 K-MEANS算法 初始聚中心 层次结构 最小生成树 PRIM算法
下载PDF
结合密度参数与中心替换的改进K-means算法及新聚类有效性指标研究 被引量:13
4
作者 张亚迪 孙悦 +1 位作者 刘锋 朱二周 《计算机科学》 CSCD 北大核心 2022年第1期121-132,共12页
聚类是一种经典的数据挖掘技术,它在模式识别、机器学习、人工智能等多个领域得到了广泛的应用。通过聚类分析,目标数据集的深层次结构可以被有效地发掘出来。作为一种常用的划分聚类算法,K-means具有实现简单、能够处理大型数据等优点... 聚类是一种经典的数据挖掘技术,它在模式识别、机器学习、人工智能等多个领域得到了广泛的应用。通过聚类分析,目标数据集的深层次结构可以被有效地发掘出来。作为一种常用的划分聚类算法,K-means具有实现简单、能够处理大型数据等优点。然而,受收敛规则的影响,K-means算法仍然存在着对初始类簇中心的选取非常敏感、不能很好地处理非凸型分布和有离群值的数据集等问题。文中提出了一种基于密度参数和中心替换的改进K-means算法DC-Kmeans。该算法采用数据对象的密度参数来逐步确定初始类簇中心,使用中心替换方法更新偏离实际位置的初始中心,因而比传统聚的类算法更加精确。为了获得最佳聚类效果,文中同时提出了一个能够对聚类结果进行有效评价的新聚类有效性指标SCVI和一个能够快速获得目标数据集最佳类簇数的新算法OCNS。实验结果表明,所提聚类方法对各种类型的数据集都是有效的。 展开更多
关键词 算法 有效性指标 最佳 中心 据挖掘
下载PDF
白龟湖国家湿地公园植物群落数量分类及优势植物生态位分析 被引量:13
5
作者 彭舜磊 陈昌东 +2 位作者 李彦娇 刘丹丹 赵干卿 《湿地科学》 CSCD 北大核心 2016年第5期619-627,共9页
湿地植物群落分类和优势植物生态位分析对湿地公园植物恢复与管理具有重要意义。对河南省白龟湖国家湿地公园48块样地进行Ward聚类分析,采用Mantel相关分析方法,确定最优簇数,划分植物群落类型;运用Levins公式和Pianka公式,计算优势植... 湿地植物群落分类和优势植物生态位分析对湿地公园植物恢复与管理具有重要意义。对河南省白龟湖国家湿地公园48块样地进行Ward聚类分析,采用Mantel相关分析方法,确定最优簇数,划分植物群落类型;运用Levins公式和Pianka公式,计算优势植物的生态位宽度和生态位重叠值。研究结果表明,可以将白龟湖国家湿地公园的植物群落划分为10种类型,群落类型划分结果很好地反映了植物群落从中旱生型、中生型、湿中型、湿生型到水生型的水分梯度变化;长芒稗(Echinochloa caudata)和酸膜叶蓼(Polygonum lapathifolium)的生态位宽度最宽,其生态位宽度分别为0.63和0.62,其次是垂柳(Salix babylonica)幼苗(0.49)、荆三棱(Scirpus yagara)(0.44)、球穗莎草(Pycreus globosus)(0.39)、扁杆藨草(Scirpus planiculmis)(0.35)和芦苇(Phragmites australis)(0.32),这些物种对资源的利用能力很强,分布范围广,而慈姑(Sagittaria trifolia var.sinensis)、止血马唐(Digitaria ischaemum)、一年蓬(Erigeron annuus)、狗牙根(Cynodon dactylon)和小蓬草(Conyza canadensis)等的生态位宽度都小于0.2,这些植物对资源的利用能力弱,分布范围小;生态位重叠值为0~0.2的种对数最多,占28.7%;生态位重叠值为0.6~0.8的种对数最少,仅占4.4%;公园内的优势植物的生态位明显分化,反映了植物群落类型和物种的多样性。 展开更多
关键词 湿地植物 Ward聚 Mantel-最优聚 生态位 白龟湖国家湿地公园
原文传递
一种采用新型聚类方法的最佳类簇数确定算法 被引量:8
6
作者 朱二周 孙悦 +3 位作者 张远翔 高新 马汝辉 李学俊 《软件学报》 EI CSCD 北大核心 2021年第10期3085-3103,共19页
聚类分析是统计学、模式识别和机器学习等领域的研究热点.通过有效的聚类分析,数据集的内在结构与特征可以被很好地发掘出来.然而,无监督学习的特性使得当前已有的聚类方法依旧面临着聚类效果不稳定、无法对多种结构的数据集进行正确聚... 聚类分析是统计学、模式识别和机器学习等领域的研究热点.通过有效的聚类分析,数据集的内在结构与特征可以被很好地发掘出来.然而,无监督学习的特性使得当前已有的聚类方法依旧面临着聚类效果不稳定、无法对多种结构的数据集进行正确聚类等问题.针对这些问题,首先将K-means算法和层次聚类算法的聚类思想相结合,提出了一种混合聚类算法K-means-AHC;其次,采用拐点检测的思想,提出了一个基于平均综合度的新聚类有效性指标DAS(平均综合度之差,difference of average synthesis degree),以此来评估K-means-AHC算法聚类结果的质量;最后,将K-means-AHC算法和DAS指标相结合,设计了一种寻找数据集最佳类簇数和最优划分的有效方法.实验将K-means-AHC算法用于测试多种结构的数据集,结果表明:该算法在不过多增加时间开销的同时,提高了聚类分析的准确性.与此同时,新的DAS指标在聚类结果的评价上要优于当前已有的常用聚类有效性指标. 展开更多
关键词 分析 算法 有效性指标 最佳 据挖掘
下载PDF
基于模糊C均值聚类有效性的协同过滤算法 被引量:8
7
作者 葛林涛 徐桂琼 《计算机技术与发展》 2016年第1期22-26,32,共6页
针对电子商务系统中传统协同过滤算法普遍存在的稀疏性和扩展性问题,文中提出了基于模糊C均值聚类有效性的协同过滤算法。首先依据四种不同的聚类有效性函数确定合理的聚类数区间,并在合理聚类数区间中根据Xie-Beni方法搜寻得到最佳的... 针对电子商务系统中传统协同过滤算法普遍存在的稀疏性和扩展性问题,文中提出了基于模糊C均值聚类有效性的协同过滤算法。首先依据四种不同的聚类有效性函数确定合理的聚类数区间,并在合理聚类数区间中根据Xie-Beni方法搜寻得到最佳的聚类数,然后使用最佳聚类数对项目进行模糊C均值聚类,将用户对单个项目的偏好转化为对相似群组的偏好,将稀疏的用户-项目偏好信息构造成密集的用户-模糊类的偏好信息,最后在项目所属类别中寻找目标用户的最近邻并产生推荐。在数据集Movie Lens上与传统推荐算法相比的实验结果表明,新算法在平均绝对偏差、召回率、准确覆盖率等方面都有了较大改善,提高了推荐质量。 展开更多
关键词 协同过滤 模糊C均值聚算法 有效性函 最佳聚
下载PDF
自适应邻域密度聚类及事故黑点识别应用
8
作者 刘韡 黄俊龙 +1 位作者 鲁娜 刁麓弘 《黑龙江交通科技》 2024年第6期138-143,150,共7页
聚类作为识别交通事故黑点的主要方法之一,其主要问题是交通事故多发区事先无法确定,即无法提前知道聚类簇数。利用样本点之间的连接概率定义了数据点的局部密度,根据局部密度大小来确定聚类中心和簇数,再对数据点进行聚类。结果表明:... 聚类作为识别交通事故黑点的主要方法之一,其主要问题是交通事故多发区事先无法确定,即无法提前知道聚类簇数。利用样本点之间的连接概率定义了数据点的局部密度,根据局部密度大小来确定聚类中心和簇数,再对数据点进行聚类。结果表明:一是算法对参数不敏感,具有较好的通用性;二是算法能自动确定聚类簇数;三是算法聚类过程只依赖局部密度与邻接点,能够识别噪声点,提升结果的准确性。运用算法在一些真实数据集上进行试验,将聚类结果与其他算法结果利用评价指标ARI(Adjusted Rand Index)和NMI(Normalized Mutual Information)进行比较。最后利用算法对美国6个州的交通事故进行聚类,结果表明算法对交通事故有较好的适应性,能将城市及周边道路上事故密集区域准确识别出来。 展开更多
关键词 交通事故黑点 算法 自适应邻域聚 局部密度
下载PDF
融合聚类算法和缺陷预测的测试用例优先排序方法 被引量:6
9
作者 肖蕾 陈荣赏 +1 位作者 缪淮扣 洪煜 《计算机科学》 CSCD 北大核心 2021年第5期99-108,共10页
持续集成环境下,软件快速更新加快了回归测试执行的频率,但缺陷快速反馈的需求对回归测试又提出了更高要求。测试用例优先排序技术研究测试用例的重要性,通常将缺陷探测能力强的测试用例优先执行,使其提早发现软件缺陷,其可解决持续集... 持续集成环境下,软件快速更新加快了回归测试执行的频率,但缺陷快速反馈的需求对回归测试又提出了更高要求。测试用例优先排序技术研究测试用例的重要性,通常将缺陷探测能力强的测试用例优先执行,使其提早发现软件缺陷,其可解决持续集成环境下的快速反馈需求。缺陷预测技术可通过被测系统代码特征和历史缺陷来预估信息预测软件在新版本中发现缺陷的可能性,传统基于聚类的测试用例优先排序方法大多未考虑不同类簇数和特征子集对聚类结果的影响。文中将缺陷预测应用到聚类优先排序方法,构建测试用例和代码关联矩阵,对测试用例进行聚类分析,结合缺陷预测结果和最大最小距离策略指导簇间和簇内排序。通过实验验证发现,类簇数和聚类特征子集选择对排序效果有一定影响,当未能获取最佳类簇数和特征子集时,相比单一的聚类优先排序方法,所提方法可更有效地提高回归测试效率。 展开更多
关键词 回归测试 测试用例优先排序 缺陷预测 分析 最佳 特征子集
下载PDF
基于语义的中文文本聚类最佳簇数研究
10
作者 刘金岭 《计算机工程与设计》 CSCD 北大核心 2010年第9期2034-2036,2100,共4页
分析了聚类数目的确定对大样本数据聚类效果的影响,对目前聚类质量衡量指标的几个主要流行观点进行了剖析。利用文本相似度的概念对文本语义最佳聚类数问题进行了研究,提出了一种基于聚类过程的文本最佳聚类数算法CTBP,其主要思想是在... 分析了聚类数目的确定对大样本数据聚类效果的影响,对目前聚类质量衡量指标的几个主要流行观点进行了剖析。利用文本相似度的概念对文本语义最佳聚类数问题进行了研究,提出了一种基于聚类过程的文本最佳聚类数算法CTBP,其主要思想是在文本向量集的每个文本向量中抽取出一个词汇,按相似度有序排列,用增量逐层划分以得到最优划分所对应的簇类数。这样通过扫描一遍数据就可以获得多个统计信息,最后求出最优解。实验结果表明了该算法的高质量和高效率。 展开更多
关键词 文本聚 增量 划分 CTBP
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部