期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
基于改进K-modes聚类的KNN分类算法 被引量:23
1
作者 王志华 刘绍廷 罗齐 《计算机工程与设计》 北大核心 2019年第8期2228-2234,共7页
为解决K-modes算法初始化k簇时误差率较高和KNN(K最近邻算法)算法面对大样本数据量时分类不准确的现状,分析传统的K-modes算法从k簇的初始化到簇中心不再变化的全过程和KNN(K最近邻算法)算法在面对大样本数据时执行效率低下的问题,提出... 为解决K-modes算法初始化k簇时误差率较高和KNN(K最近邻算法)算法面对大样本数据量时分类不准确的现状,分析传统的K-modes算法从k簇的初始化到簇中心不再变化的全过程和KNN(K最近邻算法)算法在面对大样本数据时执行效率低下的问题,提出改进的K-modes-KNN算法。使用字符串核函数初始化k簇,字符串核函数迭代计算样本到簇中心的距离来动态改变簇中心,利用改进的K-modes算法将数据集进行分簇处理后,在每个子簇中建立KNN(K最近邻算法)分类模型。通过真实数据验证了所提算法在一定程度上优于同种分类算法。 展开更多
关键词 k-modes算法 kNN算法 分类 簇中心 k-modes-kNN算法 字符串核函数
下载PDF
实现Web页面的智能个性化检索 被引量:9
2
作者 田萱 刘希玉 孟强 《计算机工程与应用》 CSCD 北大核心 2003年第1期195-197,共3页
给出了对Web页面进行智能个性化检索的系统结构和实现原理,采用Agent技术和用户手工调整相结合的方法确定用户检索的个性化模式,通过K-modes算法聚类学习用户反馈信息,产生新的个性化模式。更精确地满足用户的个性化检索需求,降低了检... 给出了对Web页面进行智能个性化检索的系统结构和实现原理,采用Agent技术和用户手工调整相结合的方法确定用户检索的个性化模式,通过K-modes算法聚类学习用户反馈信息,产生新的个性化模式。更精确地满足用户的个性化检索需求,降低了检索结果的重复率,在一定程度上提高了检索的精度和效率。 展开更多
关键词 WEB页面 智能个性化检索 计算机网络 INTERNET WWW 信息滤波 k-modes算法 信息检索
下载PDF
一种适用于混合型分类数据的聚类算法 被引量:5
3
作者 林强 唐加山 《计算机工程与应用》 CSCD 北大核心 2019年第1期168-173,共6页
传统的K-modes算法采用简单的属性匹配方式计算同一属性下不同属性值的距离,并且计算样本距离时令所有属性权重相等。在此基础上,综合考虑有序型分类数据中属性值的顺序关系、无序型分类数据中不同属性值之间的相似性以及各属性之间的... 传统的K-modes算法采用简单的属性匹配方式计算同一属性下不同属性值的距离,并且计算样本距离时令所有属性权重相等。在此基础上,综合考虑有序型分类数据中属性值的顺序关系、无序型分类数据中不同属性值之间的相似性以及各属性之间的关系等,提出一种更加适用于混合型分类数据的改进聚类算法,该算法对无序型分类数据和有序型分类数据采用不同的距离度量,并且用平均熵赋予相应的权重。实验结果表明,改进算法在人工数据集和真实数据集上均有比K-modes算法及其改进算法更好的聚类效果。 展开更多
关键词 聚类算法 混合型分类数据 距离度量 k-modes算法
下载PDF
基于相互依存冗余度量的k-modes算法 被引量:5
4
作者 黄苑华 郝志峰 +1 位作者 蔡瑞初 谢峰 《小型微型计算机系统》 CSCD 北大核心 2016年第8期1790-1793,共4页
距离度量是聚类算法的基础,它对算法的效果有很大的影响.然而分类型数据的聚类是学习算法中重要而棘手的问题.传统的k-modes算法采用0-1匹配方法定义每两个对象属性值之间的距离,忽视了属性间的相互关系对距离的影响.针对这个问题,本文... 距离度量是聚类算法的基础,它对算法的效果有很大的影响.然而分类型数据的聚类是学习算法中重要而棘手的问题.传统的k-modes算法采用0-1匹配方法定义每两个对象属性值之间的距离,忽视了属性间的相互关系对距离的影响.针对这个问题,本文基于相互依存冗余度量定义了一种新的距离,该距离由内部距离和外部距离两个部分决定.这种度量方法不仅表现出某个属性本身的差异性,而且表现出其他属性对该属性的影响程度.本文与基于其他距离度量的k-modes算法进行实验比较,结果表明基于相互依存冗余度量的k-modes算法能有效地提高算法的聚类精度. 展开更多
关键词 k-modes算法 分类型属性 相互依存冗余度量
下载PDF
粗糙K-Modes聚类算法 被引量:5
5
作者 李仁侃 叶东毅 《计算机应用》 CSCD 北大核心 2011年第1期97-100,共4页
Michael K.Ng等人提出了新K-Modes聚类算法,它采用基于相对频率的启发式相异度度量方法,有效地提高了聚类精度,但不足的是在计算各类的属性分类值频率时假定类中样本对聚类的贡献相同。为了考虑类中样本对类中心的不同影响,提出一种粗糙... Michael K.Ng等人提出了新K-Modes聚类算法,它采用基于相对频率的启发式相异度度量方法,有效地提高了聚类精度,但不足的是在计算各类的属性分类值频率时假定类中样本对聚类的贡献相同。为了考虑类中样本对类中心的不同影响,提出一种粗糙K-Modes算法,通过粗糙集的上、下近似度量数据样本在类内的重要性程度,不仅可以获得比新K-Modes算法更好的聚类效果,而且可以在保证聚类效果的基础上降低白亮等人提出的基于粗糙集改进的K-Modes算法的计算复杂度。对几个UCI的数据集的测试实验结果显示出新算法的优良性能。 展开更多
关键词 聚类 kmodes算法 粗糙集 类中心 聚类精度
下载PDF
改进的k-modes聚类算法在协同过滤就业推荐算法中的应用
6
作者 刘逗逗 王文发 许淳 《延安大学学报(自然科学版)》 2024年第2期96-100,共5页
为了给高校毕业生提供精准的个性化就业推荐服务,将基于动态权重相互依存距离的改进k-modes聚类算法应用于协同过滤推荐算法中。定义不同样本点属性之间的距离等于属性值内部距离和属性间外部距离的加权和,选择初始簇质心时,动态调整样... 为了给高校毕业生提供精准的个性化就业推荐服务,将基于动态权重相互依存距离的改进k-modes聚类算法应用于协同过滤推荐算法中。定义不同样本点属性之间的距离等于属性值内部距离和属性间外部距离的加权和,选择初始簇质心时,动态调整样本点与簇质心的距离以及簇密度的组合权重,动态设置簇密度计算公式的半径,根据样本点的概率值选出初始簇质心;迭代计算和优化得到满足精度的学生簇和职位簇;构建学生-职位矩阵,计算应届生和往届生的相似度、往届生和入职岗位的相似度,选择二者的相似度超过阈值的应届生簇和职位簇组合为匹配对进行匹配,并将匹配信息降序排列形成匹配列表,依据匹配列表进行双向推荐和信息推送,为高校的就业推荐和指导提供信息导向和技术支持。 展开更多
关键词 双边匹配算法 协同过滤算法 聚类分析 k-modes算法 相似性度量
下载PDF
数据挖掘中的聚类算法分析 被引量:2
7
作者 段琪 《信息与电脑》 2019年第15期39-40,共2页
随着计算机网络的飞速发展,各行各业每天都产生大量数据。为了大量数据中提取有效信息,衍生了数据挖掘技术。聚类分析是数据挖掘领域的一项重要工具,广泛应用于不同领域,比如模式识别、医药、统计学等。现实生活中的数据有数值型数据、... 随着计算机网络的飞速发展,各行各业每天都产生大量数据。为了大量数据中提取有效信息,衍生了数据挖掘技术。聚类分析是数据挖掘领域的一项重要工具,广泛应用于不同领域,比如模式识别、医药、统计学等。现实生活中的数据有数值型数据、分类型数据和混合型数据。基于此,针对这三种数据分别介绍k-means、k-modes和k-prototype算法,以提高聚类分析效率。 展开更多
关键词 聚类分析 k-MEANS算法 k-modes算法 k-prototype算法
下载PDF
一种基于粗糙熵的改进K-modes聚类算法
8
作者 刘财辉 曾雄 谢德华 《南京理工大学学报》 CAS CSCD 北大核心 2024年第3期335-341,共7页
K-modes聚类算法被广泛应用于人工智能、数据挖掘等领域。传统的K-modes聚类算法有不错的聚类效果,但是存在迭代次数多、计算量大、容易受到冗余属性的干扰等问题,且仅采用简单的0-1匹配的方法来定义2个样本属性值之间的距离,没有充分... K-modes聚类算法被广泛应用于人工智能、数据挖掘等领域。传统的K-modes聚类算法有不错的聚类效果,但是存在迭代次数多、计算量大、容易受到冗余属性的干扰等问题,且仅采用简单的0-1匹配的方法来定义2个样本属性值之间的距离,没有充分考虑每个属性对聚类结果的影响。针对上述问题,该文将粗糙熵引入K-modes算法。首先利用粗糙集属性约简算法消除冗余属性,确定各属性的重要程度;然后利用粗糙熵确定每个属性的权重,从而定义新的类内距离。将该文所提算法与传统的K-modes聚类算法分别在4组公开数据集上进行对比试验。试验结果表明,该文所提算法聚类准确率比传统的K-modes聚类算法更高。 展开更多
关键词 聚类 k-modes算法 粗糙集 粗糙熵 属性约简 权重
下载PDF
针对混合型分类数据改进的K-modes算法距离公式 被引量:3
9
作者 袁方 杨有龙 《计算机工程与应用》 CSCD 北大核心 2020年第6期186-193,共8页
传统K-modes算法在分类属性聚类中有着广泛的应用,但是传统算法并不区分有序分类属性与无序分类属性。在区分这两种属性的基础上,提出了一种新的距离公式,并优化了算法流程。基于无序分类属性的距离数值,确定了有序分类属性相邻属性值... 传统K-modes算法在分类属性聚类中有着广泛的应用,但是传统算法并不区分有序分类属性与无序分类属性。在区分这两种属性的基础上,提出了一种新的距离公式,并优化了算法流程。基于无序分类属性的距离数值,确定了有序分类属性相邻属性值之间距离数值的合理范围。借助有序分类属性蕴含的顺序关系,构建了有序分类属性的距离公式。计算样本点与质心距离之时,引入了簇内各属性值的比例作为总体距离公式的重要参数。综上,新的距离公式良好地刻画了有序分类属性的距离,并且平衡了两种不同分类属性距离公式之间的差异性。实验结果表明,提出的改进算法和距离公式在UCI真实数据集上比原始K-modes算法及其改进算法均有显著的效果。 展开更多
关键词 k-modes算法 有序分类属性 混合型数据 混合型数据距离公式
下载PDF
动态的模糊K-Modes初始化算法 被引量:1
10
作者 张伟 周霆 +1 位作者 陈芸 邹汉斌 《计算机工程与设计》 CSCD 北大核心 2006年第4期682-683,707,共3页
模糊K-Modes聚类算法针对分类属性的数据进行聚类,使用爬山法来寻找最优解,因此该算法对初始值较为敏感。为了克服该缺点,提出一种动态的模糊K-Modes初始化算法,该方法能够自动确定聚类数目,以及对应的聚类中心;而且能够应用于数值属性... 模糊K-Modes聚类算法针对分类属性的数据进行聚类,使用爬山法来寻找最优解,因此该算法对初始值较为敏感。为了克服该缺点,提出一种动态的模糊K-Modes初始化算法,该方法能够自动确定聚类数目,以及对应的聚类中心;而且能够应用于数值属性和分类属性相混合的数据集。该初始化算法可以有效地克服模糊K-Modes算法对初值的敏感性。实验的结果表明了该初始化算法的可行性和有效性。 展开更多
关键词 模糊 kmodes算法 动态初始化算法 聚类中心 分类属性
下载PDF
基于聚类分析的综合杆设计应用 被引量:1
11
作者 蒋宏 《黑龙江交通科技》 2023年第11期78-81,共4页
道路杆件具有数值和分类两种数据类型,应用聚类算法开展道路杆件数据的探索性分析。针对杆件坐标的数值型变量,采用基于欧式距离的K-means算法进行空间聚类,而对杆件类型、杆件设施类型及高度等分类型变量采用基于汉明距离的K-modes算... 道路杆件具有数值和分类两种数据类型,应用聚类算法开展道路杆件数据的探索性分析。针对杆件坐标的数值型变量,采用基于欧式距离的K-means算法进行空间聚类,而对杆件类型、杆件设施类型及高度等分类型变量采用基于汉明距离的K-modes算法进行属性聚类。实例应用表明:K-means算法可将现状杆件样本沿道路划分为相应的簇,簇数可作为综合杆工程量的参照,而K-modes算法得出的分类属性聚类结果可作为综合杆件选型的依据。 展开更多
关键词 综合杆 数据类型 聚类分析 k-modes算法
下载PDF
基于结构相似性的k-modes算法 被引量:2
12
作者 黄苑华 谢峰 +1 位作者 郝志峰 蔡瑞初 《计算机工程与应用》 CSCD 北大核心 2017年第23期102-107,共6页
聚类是数据挖掘中重要的技术之一,它是按照相似原则将数据进行分类。然而分类型数据的聚类是学习算法中重要而又棘手的问题。传统的k-modes算法采用简单的0-1匹配方法定义两个属性值之间的相异度,没有将整个数据集的分布考虑进来,导致... 聚类是数据挖掘中重要的技术之一,它是按照相似原则将数据进行分类。然而分类型数据的聚类是学习算法中重要而又棘手的问题。传统的k-modes算法采用简单的0-1匹配方法定义两个属性值之间的相异度,没有将整个数据集的分布考虑进来,导致差异性度量不够准确。针对这个问题,提出基于结构相似性的k-modes算法。该算法不仅考虑属性值它们本身的异同,而且考虑了它们在其他属性下所处的结构。从集群识别和准确率两个方面进行仿真实验,表明基于结构相似性的k-modes算法在伸缩性和准确率方面更有效。 展开更多
关键词 聚类分析 分类型数据 相异度度量 结构相似性 k-modes算法
下载PDF
一种基于信任值的分类属性聚类算法
13
作者 李梓 蒋庆丰 +1 位作者 程晓旭 贾美娟 《微型机与应用》 2012年第22期57-59,63,共4页
针对K-Modes算法的不足,提出了一种基于信任值的分类属性聚类算法TrustCCluster,该算法不需预先给定聚类个数,聚类结果稳定且不依赖于初始值的选取。在真实数据上验证了TrustC-Cluster聚类算法,并与K-Modes和P-Modes算法进行了对比,实... 针对K-Modes算法的不足,提出了一种基于信任值的分类属性聚类算法TrustCCluster,该算法不需预先给定聚类个数,聚类结果稳定且不依赖于初始值的选取。在真实数据上验证了TrustC-Cluster聚类算法,并与K-Modes和P-Modes算法进行了对比,实验结果表明TrustCCluster算法是有效、可行的。 展开更多
关键词 信任值 聚类 kmodes算法 P—modes算法
下载PDF
基于知识图谱的k-modes文本聚类研究 被引量:1
14
作者 高静 王钢 《南京理工大学学报》 CAS CSCD 北大核心 2022年第1期76-82,共7页
为了提高文本聚类的性能,采用k-modes算法进行文本聚类,并采用知识图谱进行样本预分析,以提高k-modes的文本聚类适用度。采用知识图谱进行样本预处理,对待聚类的文本进行知识图谱三元分析,并生成对应概念、实体和关系的样本集合;接着建... 为了提高文本聚类的性能,采用k-modes算法进行文本聚类,并采用知识图谱进行样本预分析,以提高k-modes的文本聚类适用度。采用知识图谱进行样本预处理,对待聚类的文本进行知识图谱三元分析,并生成对应概念、实体和关系的样本集合;接着建立k-modes文本聚类模型,设定簇内节点至簇中心的距离值之和为目标函数,通过轮流固定隶属矩阵和聚类簇矩阵,不断求解目标函数的最小值直至目标函数值稳定,获得簇中心,最后根据簇中心及各节点到簇中心距离来确定聚类结果。实验表明,经过知识图谱分析之后,k-modes算法能够获得更优的纯度、标准互信息和F值性能,且聚类纯度的均方根误差(Root mean squared error,RMSE)值更低;和常用文本聚类算法相比,对于UCI集和新闻集,该文算法均表现出了更高的聚类准确率。 展开更多
关键词 文本聚类 k-modes算法 知识图谱 知识元 聚类纯度
下载PDF
基于Spark与改进K- modes的增量聚类研究 被引量:1
15
作者 郑忠斌 孙繁荣 《信息技术》 2020年第6期50-55,共6页
为改善传统K-modes在无序分类数据聚类中忽略多属性和属性间差异的问题,以及解决算法在高维和动态增量数据聚类的应用,提出基于Spark与改进K-modes增量聚类方法。提出多属性值modes的新相异度度量方法,在保留多属性的同时,引入基于信息... 为改善传统K-modes在无序分类数据聚类中忽略多属性和属性间差异的问题,以及解决算法在高维和动态增量数据聚类的应用,提出基于Spark与改进K-modes增量聚类方法。提出多属性值modes的新相异度度量方法,在保留多属性的同时,引入基于信息熵的属性权重计算方法,以综合考虑不同维度下属性差异;提出基于多原则的迭代方法对聚类中心K进行优选,提高聚类准确率;基于Spark平台,引入增量聚类思想运行改进算法;最后搭建Spark实验环境对提出方法进行验证,结果表明改进K-modes聚类的准确率明显优于传统K-modes算法,且并行化算法在对增量数据执行效率和准确率上也具有明显优势。 展开更多
关键词 Spark计算平台 k-modes算法 相异度度量 信息熵
下载PDF
非独立同分布下的K-Modes算法
16
作者 周慧鑫 姜合 王艳梅 《计算机工程与设计》 北大核心 2023年第1期182-187,共6页
传统的K-Modes算法中,初始聚类中心是随机选取的,聚类结果过分依赖初始聚类中心的选择,影响聚类效果。在很多K-Modes算法的研究中假设数据是独立同分布的,在现实的数据中,数据对象和属性之间是根据某些耦合关系彼此关联的,是非独立同分... 传统的K-Modes算法中,初始聚类中心是随机选取的,聚类结果过分依赖初始聚类中心的选择,影响聚类效果。在很多K-Modes算法的研究中假设数据是独立同分布的,在现实的数据中,数据对象和属性之间是根据某些耦合关系彼此关联的,是非独立同分布的。针对这两方面问题,通过基于层次聚类进行预聚类的方法改进选取初始中心的方法,引入非独立同分布思想计算相异度量,进行实验验证。实验结果表明,通过改进初始中心的选取方法和相异度量的计算方法很好改进了K-Modes算法,提高了算法的聚类精度。 展开更多
关键词 k-modes算法 初始中心 独立同分布 非独立同分布 耦合关系 层次聚类 相异度度量
下载PDF
An Improved K-means Algorithm for Clustering Categorical Data 被引量:1
17
作者 Ming Lei Pilian He Zhichao Li 《通讯和计算机(中英文版)》 2006年第8期20-24,共5页
下载PDF
基于簇内簇间相异度的k-modes算法 被引量:1
18
作者 贾子琪 宋玲 《计算机工程与设计》 北大核心 2021年第9期2492-2500,共9页
为提高k-modes算法的精度并解决初始簇中心选择问题,提出一种基于簇内簇间相异度的k-modes算法(IKMCA)。基于簇内簇间相似性对相异度系数进行改进,给出初始簇中心自主选择的具体方法。提出的簇内簇间相异度系数考虑特征值本身的相异性... 为提高k-modes算法的精度并解决初始簇中心选择问题,提出一种基于簇内簇间相异度的k-modes算法(IKMCA)。基于簇内簇间相似性对相异度系数进行改进,给出初始簇中心自主选择的具体方法。提出的簇内簇间相异度系数考虑特征值本身的相异性与其它相关特征对它们的区分性。提出的初始簇中心自主选择方法可以自动确定聚类个数和初始簇中心位置。实验结果表明,提出算法在聚类精度、纯度、召回率上均优于经典k-modes算法及其变体算法。 展开更多
关键词 k模式算法 簇内簇间相似性 分类型数据 频率 相异度系数
下载PDF
基于聚类算法的零售业CRM数据挖掘的应用
19
作者 张秋霞 《现代计算机》 2004年第9期81-83,共3页
把数据挖掘中K-中心点聚类算法应用于基于客户价值矩阵的客户价值细分中,建立一种零售业客户细分方法,为零售超市客户保持和营销提供决策依据,并用样本进行实验,得出结论。
关键词 零售业 CRM 客户细分 客户价值 营销 超市 客户保持 聚类算法 数据挖掘 中心点
下载PDF
基于分类型矩阵对象数据的MD fuzzy k-modes聚类算法 被引量:10
20
作者 李顺勇 张苗苗 曹付元 《计算机研究与发展》 EI CSCD 北大核心 2019年第6期1325-1337,共13页
传统的聚类算法一般是对单值属性数据进行聚类.但在许多实际应用中,每个对象通常被多个特征向量所描述.例如,顾客在购物时可能同时购买多个产品.由多个特征向量描述的对象称为矩阵对象,由矩阵对象构成的数据集称为矩阵对象数据集.目前,... 传统的聚类算法一般是对单值属性数据进行聚类.但在许多实际应用中,每个对象通常被多个特征向量所描述.例如,顾客在购物时可能同时购买多个产品.由多个特征向量描述的对象称为矩阵对象,由矩阵对象构成的数据集称为矩阵对象数据集.目前,针对矩阵对象数据聚类算法的研究相对较少,还有很多问题有待解决.利用fuzzy k-modes算法的聚类过程,提出一种基于矩阵对象数据的matrix-object data fuzzy k-modes(MD fuzzy k-modes)聚类算法.该算法结合模糊集的概念引入模糊因子β,重新定义了矩阵对象间的相异性度量,并给出类中心的启发式更新算法.最后,在5个真实数据集上验证了MD fuzzy k-modes算法的有效性,并分析了模糊因子β与隶属度w之间的关系.大数据时代,利用MD fuzzy k-modes算法对多条记录进行聚类,能更易发现顾客的消费偏好,从而做出更有针对性的推荐. 展开更多
关键词 矩阵对象数据 MD FUZZY k-modes算法 相异性度量 类中心 聚类
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部