期刊文献+
共找到47篇文章
< 1 2 3 >
每页显示 20 50 100
改进的混合属性数据聚类算法 被引量:7
1
作者 赵立江 黄永青 刘玉龙 《计算机工程与设计》 CSCD 北大核心 2007年第20期4850-4852,共3页
k-prototypes是目前处理数值属性和分类属性混合数据主要的聚类算法,但其聚类结果对初值有明显的依赖性。对k-prototypes初值选取方法进行了分析和研究,提出一种新的改进方法。该方法有更高的稳定性和较强的伸缩性,可减少一定程度的上... k-prototypes是目前处理数值属性和分类属性混合数据主要的聚类算法,但其聚类结果对初值有明显的依赖性。对k-prototypes初值选取方法进行了分析和研究,提出一种新的改进方法。该方法有更高的稳定性和较强的伸缩性,可减少一定程度的上随机性。实际数据集仿真结果表明,改进算法是正确和有效的。 展开更多
关键词 数据挖掘 聚类 k-原型算法 混合型数据 相异度
下载PDF
基于在线梯度下降的Mini Batch K-Prototypes算法
2
作者 贾子琪 万世昌 +2 位作者 张腾飞 吉康毅 常雪瑞 《南阳理工学院学报》 2023年第4期45-49,共5页
K-Prototypes算法每次迭代都需要花费大量时间来计算所有样本与每个簇中心的相异度以将其划分到各个聚类簇中,这导致K-Prototypes算法在处理大型数据集时运行时间急剧增加。根据在线梯度下降算法对K-Prototypes算法的迭代过程进行优化,... K-Prototypes算法每次迭代都需要花费大量时间来计算所有样本与每个簇中心的相异度以将其划分到各个聚类簇中,这导致K-Prototypes算法在处理大型数据集时运行时间急剧增加。根据在线梯度下降算法对K-Prototypes算法的迭代过程进行优化,减少算法每次迭代所需的计算量从而降低算法的时间复杂度,提升算法运行效率。实验结果表明,提出的基于在线梯度下降的K-Prototypes聚类算法,可以在不影响算法收敛性和有效性的前提下降低算法的时间复杂度,提升算法运行效率。 展开更多
关键词 k-prototypes Mini Batch k-prototypes 在线梯度下降
下载PDF
一种面向混合型数据聚类的k-prototypes聚类算法 被引量:6
3
作者 贾子琪 宋玲 《小型微型计算机系统》 CSCD 北大核心 2020年第9期1845-1852,共8页
同时包含数值型和分类型数据的混合型数据集在实际应用中普遍存在.经典的k-prototypes算法通过人为设置参数γ来调节分类型数据和数值型数据之间的占比,γ对聚类结果影响很大.为了避免不同类型数据之间的特征转换和参数调整以及处理高... 同时包含数值型和分类型数据的混合型数据集在实际应用中普遍存在.经典的k-prototypes算法通过人为设置参数γ来调节分类型数据和数值型数据之间的占比,γ对聚类结果影响很大.为了避免不同类型数据之间的特征转换和参数调整以及处理高维混合型数据聚类中的特征加权问题,提出了基于熵权的分类型相异度系数,量化的数值型相异度系数和适用于混合型数据聚类的混合型相异度系数.提出的相异度系数充分考虑了分类型特征值的重要性和数值型特征值的平均值,并具统一的准则,可以更客观的计算数据对象与簇之间的相异度.此外,将加权的混合型相异度系数应用到经典的k-prototypes算法中,提出了一种面向混合型数据聚类的k-prototypes聚类算法(KPMD).使用UCI真实数据集进行实验,结果验证了KPMD算法的有效性和鲁棒性. 展开更多
关键词 k-prototypes 混合型相异度系数 分类型数据 数值型数据 混合型数据
下载PDF
基于熵权法的混合属性聚类算法 被引量:5
4
作者 孙浩军 高玉龙 +1 位作者 闪光辉 袁婷 《汕头大学学报(自然科学版)》 2013年第4期58-65,共8页
K-prototypes算法是处理混合数据的主要聚类算法,大部分针对混合型数据的聚类算法都是选择数据集中的一部分数据作为聚类对象,而忽略了这类数据的特殊性与整体性,为了改进了数据的距离衡量,文中提出了一种新的聚类方法,该方法采用信息... K-prototypes算法是处理混合数据的主要聚类算法,大部分针对混合型数据的聚类算法都是选择数据集中的一部分数据作为聚类对象,而忽略了这类数据的特殊性与整体性,为了改进了数据的距离衡量,文中提出了一种新的聚类方法,该方法采用信息熵作为属性的权值,进行高精度和更加稳定的聚类,最后通过Matlab编程实现,采用uci数据集中credit等数据集进行仿真实验,证明改进算法是正确和有效的. 展开更多
关键词 k-prototypes 特殊性 混合数据 信息熵 有效的
下载PDF
面向本地差分隐私的K-Prototypes聚类方法 被引量:3
5
作者 张国鹏 陈学斌 +2 位作者 王豪石 翟冉 马征 《计算机应用》 CSCD 北大核心 2022年第12期3813-3821,共9页
为了在聚类分析中保护数据隐私的同时确保数据的可用性,提出一种基于本地化差分隐私(LDP)技术的隐私保护聚类方案——LDPK-Prototypes。首先,用户对混合型数据集进行编码;其次,采用随机响应机制对敏感数据进行扰动,而第三方在收集到用... 为了在聚类分析中保护数据隐私的同时确保数据的可用性,提出一种基于本地化差分隐私(LDP)技术的隐私保护聚类方案——LDPK-Prototypes。首先,用户对混合型数据集进行编码;其次,采用随机响应机制对敏感数据进行扰动,而第三方在收集到用户的扰动数据后以最大限度恢复原始数据集;然后,执行K-Prototypes聚类算法,在聚类过程中,使用相异性度量方法确定初始聚类中心,并利用熵权法重新定义新的距离计算公式。理论分析和实验结果表明,所提方案与基于中心化差分隐私(CDP)技术的ODPC算法相比,在Adult和Heart数据集上的平均准确率分别提高了2.95%和12.41%,有效提高了聚类的可用性。同时,LDPK-Prototypes扩大了数据之间的差异性,有效避免了局部最优,提高了聚类算法的稳定性。 展开更多
关键词 本地化差分隐私 k-prototypes 随机响应机制 熵权法 隐私保护
下载PDF
基于遗传算法的混合属性聚类初始点选择研究 被引量:2
6
作者 赵立江 《广西师范大学学报(自然科学版)》 CAS 北大核心 2008年第3期194-197,共4页
k-prototypes是处理包含数值属性和分类属性混合数据主要的聚类算法,但由于对初始点的随机选择极易使聚类结果陷入局部最优,导致聚类结果的偏差。为改善聚类结果对初始点的依赖,采用遗传算法对初始点进行全局最优搜索。改进后的方法有... k-prototypes是处理包含数值属性和分类属性混合数据主要的聚类算法,但由于对初始点的随机选择极易使聚类结果陷入局部最优,导致聚类结果的偏差。为改善聚类结果对初始点的依赖,采用遗传算法对初始点进行全局最优搜索。改进后的方法有更高的稳定性和对大数据集更快的收敛速度。数据集仿真结果表明改进算法正确、有效。 展开更多
关键词 遗传算法 聚类 k-MEANS k-prototypes 分类型数据 相异度
下载PDF
一种增强的K-prototypes混合数据聚类算法 被引量:4
7
作者 李顺勇 顾嘉成 《陕西科技大学学报》 北大核心 2021年第2期183-188,共6页
针对K-prototypes算法处理混合数据时精度不高等问题,提出了一种增强的K-prototypes混合数据聚类算法(An Enhanced K-prototypes Mixed Data Clustering Algorithm,EKPCA).首先定义了一种新的距离计算公式,扩大了数据之间的差异性,有利... 针对K-prototypes算法处理混合数据时精度不高等问题,提出了一种增强的K-prototypes混合数据聚类算法(An Enhanced K-prototypes Mixed Data Clustering Algorithm,EKPCA).首先定义了一种新的距离计算公式,扩大了数据之间的差异性,有利于对簇边缘数据进行合理划分;其次选取较多初始原型来覆盖数据的整体信息;最后迭代消去多余原型,得到数据集的真实分类.在8个UCI数据集上对算法进行评测,实验结果表明EKPCA算法有较高聚类精度. 展开更多
关键词 k-prototypes 混合数据 距离计算 初始原型 迭代消去
下载PDF
混合属性数据聚类初始点选择的改进 被引量:3
8
作者 赵立江 黄永青 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第4期220-223,共4页
k-prototypes和模糊k-prototypes是处理数值属性和分类属性混合数据主要的聚类算法。但这两种聚类算法不足之处是对初值有明显的依赖。对初值选取方法进行了分析和研究,提出一种新的改进方法,可在一定程度上减少随机性。实际数据集仿真... k-prototypes和模糊k-prototypes是处理数值属性和分类属性混合数据主要的聚类算法。但这两种聚类算法不足之处是对初值有明显的依赖。对初值选取方法进行了分析和研究,提出一种新的改进方法,可在一定程度上减少随机性。实际数据集仿真结果表明改进算法有更高的稳定性和较强的伸缩性。 展开更多
关键词 聚类 k—modes kprototypes 分类型数据 相异度
下载PDF
A Novel Cluster Analysis-Based Crop Dataset Recommendation Method in Precision Farming
9
作者 K.R.Naveen Kumar Husam Lahza +4 位作者 B.R.Sreenivasa Tawfeeq Shawly Ahmed A.Alsheikhy H.Arunkumar C.R.Nirmala 《Computer Systems Science & Engineering》 SCIE EI 2023年第9期3239-3260,共22页
Data mining and analytics involve inspecting and modeling large pre-existing datasets to discover decision-making information.Precision agriculture uses datamining to advance agricultural developments.Many farmers are... Data mining and analytics involve inspecting and modeling large pre-existing datasets to discover decision-making information.Precision agriculture uses datamining to advance agricultural developments.Many farmers aren’t getting the most out of their land because they don’t use precision agriculture.They harvest crops without a well-planned recommendation system.Future crop production is calculated by combining environmental conditions and management behavior,yielding numerical and categorical data.Most existing research still needs to address data preprocessing and crop categorization/classification.Furthermore,statistical analysis receives less attention,despite producing more accurate and valid results.The study was conducted on a dataset about Karnataka state,India,with crops of eight parameters taken into account,namely the minimum amount of fertilizers required,such as nitrogen,phosphorus,potassium,and pH values.The research considers rainfall,season,soil type,and temperature parameters to provide precise cultivation recommendations for high productivity.The presented algorithm converts discrete numerals to factors first,then reduces levels.Second,the algorithm generates six datasets,two fromCase-1(dataset withmany numeric variables),two from Case-2(dataset with many categorical variables),and one from Case-3(dataset with reduced factor variables).Finally,the algorithm outputs a class membership allocation based on an extended version of the K-means partitioning method with lambda estimation.The presented work produces mixed-type datasets with precisely categorized crops by organizing data based on environmental conditions,soil nutrients,and geo-location.Finally,the prepared dataset solves the classification problem,leading to a model evaluation that selects the best dataset for precise crop prediction. 展开更多
关键词 Data mining crop prediction k-prototypes k-MEANS CLUSTER machine learning
下载PDF
信息安全评估日志数据的一种混合聚类算法 被引量:2
10
作者 陈庆枝 陈国龙 +1 位作者 郭文忠 陈仕涛 《重庆工学院学报(自然科学版)》 2009年第10期77-82,118,共7页
首先引入能够处理混合型数据的K-prototypes聚类算法,在此基础上构造了一种基于粒子群优化算法和K-prototypes方法的混合聚类算法.利用粒子群优化算法良好的全局搜索能力,克服K-prototypes容易陷入局部最优值的不足.实验结果表明,该算... 首先引入能够处理混合型数据的K-prototypes聚类算法,在此基础上构造了一种基于粒子群优化算法和K-prototypes方法的混合聚类算法.利用粒子群优化算法良好的全局搜索能力,克服K-prototypes容易陷入局部最优值的不足.实验结果表明,该算法能够避免陷入局部最优值,具有较好的全局收敛性,并且提高了聚类的正确率和算法的稳定性. 展开更多
关键词 聚类 信息安全 安全评估 粒子群优化 kprototypes
下载PDF
基于K-prototypes算法的高速公路货物适运性研究 被引量:1
11
作者 朱朋朋 蔡玉贺 +2 位作者 楼国良 米良 宋媛媛 《公路》 北大核心 2021年第9期260-265,共6页
为了减少运输过程中碳排放,对高速公路与铁路适运货物进行研究。基于高速公路联网收费调查数据和主动调查数据,采用灰色关联度评价法与改进的K-prototypes聚类算法(DAC KP算法)相结合的方式,对收集到的高速公路大数据进行数据挖掘,得到... 为了减少运输过程中碳排放,对高速公路与铁路适运货物进行研究。基于高速公路联网收费调查数据和主动调查数据,采用灰色关联度评价法与改进的K-prototypes聚类算法(DAC KP算法)相结合的方式,对收集到的高速公路大数据进行数据挖掘,得到相应的基于指标权重的聚类模型,得出聚类结果分为3种Cluster。对于部分货物由高速公路改为铁路运输更加适合,减少碳排放29.871%,为下一步运输结构调整提供数据支撑和理论依据。 展开更多
关键词 高速公路 货物运输 灰色关联度评价法 k-prototypes
原文传递
Analyzing Differences between Online Learner Groups during the COVID-19 Pandemic through K-Prototype Clustering
12
作者 Guanggong Ge Quanlong Guan +2 位作者 Lusheng Wu Weiqi Luo Xingyu Zhu 《Journal of Data Analysis and Information Processing》 2022年第1期22-42,共21页
Online learning is a very important means of study, and has been adopted in many countries worldwide. However, only recently are researchers able to collect and analyze massive online learning datasets due to the COVI... Online learning is a very important means of study, and has been adopted in many countries worldwide. However, only recently are researchers able to collect and analyze massive online learning datasets due to the COVID-19 epidemic. In this article, we analyze the difference between online learner groups by using an unsupervised machine learning technique, i.e., k-prototypes clustering. Specifically, we use questionnaires designed by domain experts to collect various online learning data, and investigate students’ online learning behavior and learning outcomes through analyzing the collected questionnaire data. Our analysis results suggest that students with better learning media generally have better online learning behavior and learning result than those with poor online learning media. In addition, both in economically developed or undeveloped regions, the number of students with better learning media is less than the number of students with poor learning media. Finally, the results presented here show that whether in an economically developed or an economically undeveloped region, the number of students who are enriched with learning media available is an important factor that affects online learning behavior and learning outcomes. 展开更多
关键词 Online Learning k-prototypes Clustering Economically Developed Region Data Analysis Different Groups Learning Behavior Learning Media
下载PDF
聚类分析在高校教务系统中的应用研究 被引量:2
13
作者 曹露燕 叶书建 《福建电脑》 2010年第3期7-8,10,共3页
随着高校教务管理从职能型向学习型、研究型的转变,对教务系统中数据挖掘的研究已经成为大部分高校的人才培养研究部门、职能部门所共同关注的问题。本文选取大学英语四级相关数据作为研究对象,以聚类分析为挖掘向导的实现技术,对聚类... 随着高校教务管理从职能型向学习型、研究型的转变,对教务系统中数据挖掘的研究已经成为大部分高校的人才培养研究部门、职能部门所共同关注的问题。本文选取大学英语四级相关数据作为研究对象,以聚类分析为挖掘向导的实现技术,对聚类分析算法中k-prototypes算法进行了详细的介绍,并提出了基于该算法的改进算法。 展开更多
关键词 教务系统 数据挖掘 聚类分析 k-prototypes
下载PDF
基于Spark框架的大数据K-prototypes聚类算法
14
作者 龚静 《西南师范大学学报(自然科学版)》 CAS 北大核心 2019年第7期63-68,共6页
大数据具有数据量大及混合类型的属性,基于MapReduce的K-prototypes并行大规模混合数据方案的缺点是时间和内存的限制,导致这些方案不适合处理大数据.为了解决这个问题,该文提出一种新的基于Spark的k-prototypes聚类方法,该方法使用了... 大数据具有数据量大及混合类型的属性,基于MapReduce的K-prototypes并行大规模混合数据方案的缺点是时间和内存的限制,导致这些方案不适合处理大数据.为了解决这个问题,该文提出一种新的基于Spark的k-prototypes聚类方法,该方法使用了重新聚集技术,利用Spark框架的内存操作来构建大规模混合数据分组.在模拟和实际数据集上的实验表明,该文方法可行,且提高了现有K-prototypes方法的效率. 展开更多
关键词 大数据 混合数据 k-prototypes Spark框架
下载PDF
一种改进的混合属性数据聚类算法
15
作者 陈丹 王振华 《电脑知识与技术(过刊)》 2010年第13期2713-2716,共4页
K-prototypes算法是处理混合属性数据的主要聚类算法,但是存在对初值敏感、参数依赖和易受"噪声"干扰等问题。为了克服以上缺点,该文对K-prototypes算法的初始中心点选择进行了研究与分析,提出了一种基于近邻法的初始中心点... K-prototypes算法是处理混合属性数据的主要聚类算法,但是存在对初值敏感、参数依赖和易受"噪声"干扰等问题。为了克服以上缺点,该文对K-prototypes算法的初始中心点选择进行了研究与分析,提出了一种基于近邻法的初始中心点选择策略对算法进行改进,算法先利用近邻法获得初始中心点集和k值,然后进行K-prototypes运算,最后加入识别异常数据点的规则。改进后的算法成功解决了传统K-prototypes算法的缺陷,而且具有更好的分类精度和稳定性。经实验证明,改进算法是正确和有效的,明显优于传统的K-prototypes算法。 展开更多
关键词 聚类分析 初始中心点 k-原型算法 聚类算法 混合属性数据
全文增补中
数值型和分类型混合数据的模糊K-Prototypes聚类算法(英文) 被引量:45
16
作者 陈宁 陈安 周龙骧 《软件学报》 EI CSCD 北大核心 2001年第8期1107-1119,共13页
由于数据库经常同时包含数值型和分类型的属性 ,因此研究能够处理混合型数据的聚类算法无疑是很重要的 .讨论了混合型数据的聚类问题 ,提出了一种模糊 K- prototypes算法 .该算法融合了 K- means和 K- modes对数值型和分类型数据的处理... 由于数据库经常同时包含数值型和分类型的属性 ,因此研究能够处理混合型数据的聚类算法无疑是很重要的 .讨论了混合型数据的聚类问题 ,提出了一种模糊 K- prototypes算法 .该算法融合了 K- means和 K- modes对数值型和分类型数据的处理方法 ,能够处理混合类型的数据 .模糊技术体现聚类的边界特征 ,更适合处理含有噪声和缺失数据的数据库 .实验结果显示 。 展开更多
关键词 数据库 数值型混合数据 分类型混合数据 模糊k-prototypes聚类算法
下载PDF
基于K-prototypes的混合属性数据聚类算法 被引量:15
17
作者 陈韡 王雷 蒋子云 《计算机应用》 CSCD 北大核心 2010年第8期2003-2005,2110,共4页
通过对基于K-prototypes算法对混合属性数据处理的聚类问题进行研究,改进了K-prototypes算法中分类属性相异度计算公式,使之能更加精确反映样本间的差异;在此基础上提出了一种用于处理混合属性数据的聚类算法,并将改进后的算法应用于英... 通过对基于K-prototypes算法对混合属性数据处理的聚类问题进行研究,改进了K-prototypes算法中分类属性相异度计算公式,使之能更加精确反映样本间的差异;在此基础上提出了一种用于处理混合属性数据的聚类算法,并将改进后的算法应用于英语借词数据的聚类分析中。实验结果表明,与K-prototypes算法相比,改进后的算法具有更好的稳定性和更高的精度。 展开更多
关键词 聚类 k-prototypes算法 混合属性数据 相异度
下载PDF
模糊k-prototypes聚类算法的一种改进算法 被引量:11
18
作者 王宇 杨莉 《大连理工大学学报》 EI CAS CSCD 北大核心 2003年第6期849-852,共4页
模糊k-prototypes算法是当前聚类分析中最有效算法之一.简述了模糊k-prototypes算法的发展进程和主要性质;并在此基础上,指出它在处理数值型和分类型混合数据时的不足,进而提出一种改进算法;最后,将算法应用到英语借词之中,给出计算结果... 模糊k-prototypes算法是当前聚类分析中最有效算法之一.简述了模糊k-prototypes算法的发展进程和主要性质;并在此基础上,指出它在处理数值型和分类型混合数据时的不足,进而提出一种改进算法;最后,将算法应用到英语借词之中,给出计算结果.结果表明,改进算法具有较好的稳定性和较高的精确度. 展开更多
关键词 模糊k-prototypes聚类算法 数值型属性 分类型属性 英语借词 数据挖掘
下载PDF
基于改进RBF神经网络的银行个人信用评级 被引量:11
19
作者 蓝润荣 程希骏 《中国科学院研究生院学报》 CAS CSCD 北大核心 2013年第3期298-303,共6页
研究RBF神经网络在个人信用评级中的应用.针对传统的RBF神经网络无法处理非数值型数据和对初始中心的选取及异常值十分敏感等问题,提出一种基于模糊K-Prototypes算法的RBF神经网络,提高了处理分类型数据及混合型数据的能力,并且改进的模... 研究RBF神经网络在个人信用评级中的应用.针对传统的RBF神经网络无法处理非数值型数据和对初始中心的选取及异常值十分敏感等问题,提出一种基于模糊K-Prototypes算法的RBF神经网络,提高了处理分类型数据及混合型数据的能力,并且改进的模糊K-Prototypes算法有助于降低模型对初始中心选取和异常值的敏感性.将改进前后的模型分别应用于商业银行的个人信贷评级中,结果表明,改进后的模型预测精度和稳健性都优于传统的RBF模型. 展开更多
关键词 RBF神经网络 模糊k-prototypes算法 分类型数据 信用评级
下载PDF
基于k-原型聚类和粗糙集的属性约简方法 被引量:8
20
作者 李艳 范斌 +2 位作者 郭劼 林梓源 赵曌 《计算机科学》 CSCD 北大核心 2021年第S01期342-348,共7页
基于k-原型聚类和等价关系下的粗糙集理论,对含有连续值和符号值的目标信息系统提出了一种新的适用于混合数据的属性约简方法。首先,k-原型聚类可以通过定义混合数据的距离而得到信息系统的类簇,形成对论域的划分。将所得到的类簇代替... 基于k-原型聚类和等价关系下的粗糙集理论,对含有连续值和符号值的目标信息系统提出了一种新的适用于混合数据的属性约简方法。首先,k-原型聚类可以通过定义混合数据的距离而得到信息系统的类簇,形成对论域的划分。将所得到的类簇代替粗糙集理论中的等价类,提出基于聚类的近似集、正域以及正域约简的概念,并根据信息熵定义属性重要性度量,建立了变精度正域约简方法。这种属性约简可以同时处理数值型和符号型数据,去除其中的冗余属性,提高分类性能,降低存储和算法运行时间耗费,并通过调节聚类参数k得到对论域不同粒度的划分,对所得到的约简进行优化。最后在UCI数据集上进行了大量的实验,针对分类问题采用了常见的4种分类算法,比较了约简前后的分类精度,详细分析了参数对结果的影响,验证了约简方法的有效性。 展开更多
关键词 属性约简 k-原型聚类 粗糙集 混合数据 多粒度
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部