期刊文献+
共找到265篇文章
< 1 2 14 >
每页显示 20 50 100
一种基于信息熵的混合数据属性加权聚类算法 被引量:42
1
作者 赵兴旺 梁吉业 《计算机研究与发展》 EI CSCD 北大核心 2016年第5期1018-1028,共11页
同时兼具数值型和分类型属性的混合数据在实际应用中普通存在,混合数据的聚类分析越来越受到广泛的关注.为解决高维混合数据聚类中属性加权问题,提出了一种基于信息熵的混合数据属性加权聚类算法,以提升模式发现的效果.工作主要包括:首... 同时兼具数值型和分类型属性的混合数据在实际应用中普通存在,混合数据的聚类分析越来越受到广泛的关注.为解决高维混合数据聚类中属性加权问题,提出了一种基于信息熵的混合数据属性加权聚类算法,以提升模式发现的效果.工作主要包括:首先为了更加准确客观地度量对象与类之间的差异性,设计了针对混合数据的扩展欧氏距离;然后,在信息熵框架下利用类内信息熵和类间信息熵给出了聚类结果中类内抱团性及一个类与其余类分离度的统一度量机制,并基于此给出了一种属性重要性度量方法,进而设计了一种基于信息熵的属性加权混合数据聚类算法.在10个UCI数据集上的实验结果表明,提出的算法在4种聚类评价指标下优于传统的属性未加权聚类算法和已有的属性加权聚类算法,并通过统计显著性检验表明本文提出算法的聚类结果与已有算法聚类结果具有显著差异性. 展开更多
关键词 聚类分析 混合数据 属性加权 信息熵 相异性度量
下载PDF
交通运输与区域经济增长差异——以中国铁路为例的实证分析 被引量:24
2
作者 王会宗 《山西财经大学学报》 CSSCI 北大核心 2011年第2期61-68,共8页
为验证区域铁路建设与经济增长之间的关系,文章分别运用全国及三大区域1995~2006年的相关混合数据对预先设定的计量模型进行回归,研究发现:铁路建设在短期和长期都会对全国的经济增长起到促进作用,但其长期促进作用更加明显一些;铁路... 为验证区域铁路建设与经济增长之间的关系,文章分别运用全国及三大区域1995~2006年的相关混合数据对预先设定的计量模型进行回归,研究发现:铁路建设在短期和长期都会对全国的经济增长起到促进作用,但其长期促进作用更加明显一些;铁路建设在短期内就能促进东部地区的经济增长,但其对中、西部地区经济增长的促进作用只能在较长时期内才能体现出来;各区域铁路路网建设的差异是东、中、西部地区经济增长差距不断拉大的重要原因。有鉴于此,打破铁路建设投资的行政垄断体制,实现投资主体的多元化,重点加大对西部地区铁路建设的投资力度,是解决区域经济增长差距过大的一条重要途径。 展开更多
关键词 交通运输 铁路建设 区域经济增长差距 混合数据
原文传递
一种不完备混合数据集成聚类算法 被引量:20
3
作者 史倩玉 梁吉业 赵兴旺 《计算机研究与发展》 EI CSCD 北大核心 2016年第9期1979-1989,共11页
集成聚类技术由于具有较好的泛化能力,目前引起了研究者的高度关注.已有研究主要关注数值型完备数据的集成聚类问题.然而,实际应用中面临的数据往往是兼具数值属性和分类属性共同描述的混合型数据,而且通常带有缺失值.为此,针对不完备... 集成聚类技术由于具有较好的泛化能力,目前引起了研究者的高度关注.已有研究主要关注数值型完备数据的集成聚类问题.然而,实际应用中面临的数据往往是兼具数值属性和分类属性共同描述的混合型数据,而且通常带有缺失值.为此,针对不完备混合数据提出了一种集成聚类算法,首先利用3种缺失值填充方法对不完备混合数据进行完备化处理;其次在3种填充后的不同完备数据集上分别多次执行K-Prototypes算法产生基聚类结果;最后对基聚类结果进行集成.在UCI真实数据集上与传统聚类算法通过实验进行了比较分析,实验结果表明提出的算法是有效的. 展开更多
关键词 集成聚类 不完备数据 混合数据 缺失值填充 K原型聚类算法
下载PDF
基于邻域组合测度的属性约简方法 被引量:20
4
作者 何松华 康婵娟 +1 位作者 鲁敏 滕书华 《控制与决策》 EI CSCD 北大核心 2016年第7期1225-1230,共6页
属性约简是机器学习和知识发现的研究热点,而属性重要性度量则是构建属性约简算法的关键环节.针对不完备的混合型信息系统,在邻域关系下定义了一种新的属性集成重要性度量—–邻域组合测度,并据此提出一种基于邻域组合测度的属性约简(NC... 属性约简是机器学习和知识发现的研究热点,而属性重要性度量则是构建属性约简算法的关键环节.针对不完备的混合型信息系统,在邻域关系下定义了一种新的属性集成重要性度量—–邻域组合测度,并据此提出一种基于邻域组合测度的属性约简(NCMAR)算法.通过多个UCI数据集上的实验表明,NCMAR算法不仅能够直接处理符号和数值属性共存的混合信息系统,而且适用于不完备信息系统,在获得较小约简结果的同时,能够保证较高的分类精度. 展开更多
关键词 粗糙集 属性约简 不确定性度量 不完备信息系统 混合数据
原文传递
一种带权的混合数据聚类个数确定算法 被引量:19
5
作者 李顺勇 张苗苗 《计算机应用与软件》 北大核心 2019年第1期284-290,共7页
混合数据的聚类过程中通常面临一个不可回避的问题:聚类个数的确定。基于Liang k-prototype算法引入属性权重,重新定义混合数据缺失某类的类间熵和(SBAE_M)、有效性指标(CUM)及相异性度量。提出一种带权的混合数据聚类个数确定算法。该... 混合数据的聚类过程中通常面临一个不可回避的问题:聚类个数的确定。基于Liang k-prototype算法引入属性权重,重新定义混合数据缺失某类的类间熵和(SBAE_M)、有效性指标(CUM)及相异性度量。提出一种带权的混合数据聚类个数确定算法。该算法的基本思想是:用newk-prototype算法将混合数据进行聚类,计算其聚类结果的CUM及SBAE_M,将最坏的类剔除,并将该类中的对象用新的相异性度量进行重新分配,CUM最大时包含的类别数即为聚类个数。在5个UCI数据集上验证了该算法的有效性。 展开更多
关键词 聚类个数 混合数据 属性权重 有效性指标
下载PDF
基于数据融合的农作物生产风险评估新方法 被引量:17
6
作者 王克 张峭 《中国农业科学》 CAS CSCD 北大核心 2013年第5期1054-1060,共7页
【目的】解决农作物生产风险传统评估方法中存在的问题,更准确客观地评估农作物生产风险。【方法】利用TRIZ创新理论"九屏幕法"对传统评估方法缺陷进行分析,提出综合利用作物单产和作物灾情信息的农作物生产风险评估新方法,... 【目的】解决农作物生产风险传统评估方法中存在的问题,更准确客观地评估农作物生产风险。【方法】利用TRIZ创新理论"九屏幕法"对传统评估方法缺陷进行分析,提出综合利用作物单产和作物灾情信息的农作物生产风险评估新方法,并以东北三省玉米、小麦、花生、稻谷和大豆5种主要作物的生产风险评估为例,对该方法的效果进行了实证检验。【结果】基于单产数据作物风险评估的传统方法低估了作物真实风险水平,低估程度受地理位置、作物种植生产区域布局及作物品种的影响。基于数据融合的生产风险评估方法既可以准确评估出作物生产风险水平、又可以对具体灾害引致的作物生产风险进行评估。【结论】基于数据融合的生产风险评估新方法切实可行,且较传统方法具有明显的优势。 展开更多
关键词 生产风险 风险评估 农业灾情 数据融合 方法
下载PDF
基于残差分析的混合属性数据聚类算法 被引量:13
7
作者 邱保志 张瑞霖 李向丽 《自动化学报》 EI CSCD 北大核心 2020年第7期1420-1432,共13页
针对混合属性数据聚类结果精度不高、聚类结果对参数敏感等问题,提出了基于残差分析的混合属性数据聚类算法(Clustering algorithm for mixed data based on residual analysis)RA-Clust.算法以改进的熵权重混合属性相似性度量对象间的... 针对混合属性数据聚类结果精度不高、聚类结果对参数敏感等问题,提出了基于残差分析的混合属性数据聚类算法(Clustering algorithm for mixed data based on residual analysis)RA-Clust.算法以改进的熵权重混合属性相似性度量对象间的相似性,以提出的基于KNN和Parzen窗的局部密度计算方法计算每个对象的密度,通过线性回归和残差分析进行聚类中心预选取,然后以提出的聚类中心目标优化模型确定真正的聚类中心,最后将其他数据对象按照距离高密度对象的最小距离划分到相应的簇中,形成最终聚类.在合成数据集和UCI数据集上的实验结果验证了算法的有效性.与同类算法相比,RA-Clust具有较高的聚类精度. 展开更多
关键词 聚类 残差分析 线性回归 混合属性数据集 聚类中心
下载PDF
基于混合多属性决策的网络广告投放媒体的评价与应用 被引量:9
8
作者 林宏伟 邵培基 《管理评论》 CSSCI 北大核心 2012年第12期53-63,共11页
随着网络广告的日益普及,网络媒体已经成为决定广告投放成功的关键。然而,目前并没有针对广告投放的网络媒体指标评价体系和方法,因此迫切需要从投放网络广告的视角来指导网络广告投放的理论、方法和模型以有效指导网络广告投放的运作... 随着网络广告的日益普及,网络媒体已经成为决定广告投放成功的关键。然而,目前并没有针对广告投放的网络媒体指标评价体系和方法,因此迫切需要从投放网络广告的视角来指导网络广告投放的理论、方法和模型以有效指导网络广告投放的运作管理。本文尝试构建基于网络广告投放视角的网络媒体评价指标体系:一级指标由精确型数据和区间型数据构成,二级指标由成本指标和效益指标构成,三级指标由其它的具体指标构成。对区间数相离度和可能度偏差最大化多属性决策的方法进行了改进,将精确型数据和区间型数据统一起来,建立了混合数据指标的评价模型,解决了网络广告的混合多属性指标决策问题,给出了决策方法的具体步骤和一个广告投放的实际算例。该方法评价结果客观可靠,易于在计算机上编程实现。 展开更多
关键词 评价指标体系 混合多属性决策 混合数值 评价与应用
原文传递
混合数据的邻域区分度增量式属性约简算法 被引量:9
9
作者 盛魁 王伟 +2 位作者 卞显福 董辉 马健 《电子学报》 EI CAS CSCD 北大核心 2020年第4期682-696,共15页
增量式属性约简是一种针对动态环境下的数据挖掘方法.目前已经提出的增量式属性约简算法仅适用于符号型的信息系统,而很少有对混合信息系统进行相关的研究,这促使在混合信息系统下构建相关的增量式属性约简算法.区分度是用于设计属性约... 增量式属性约简是一种针对动态环境下的数据挖掘方法.目前已经提出的增量式属性约简算法仅适用于符号型的信息系统,而很少有对混合信息系统进行相关的研究,这促使在混合信息系统下构建相关的增量式属性约简算法.区分度是用于设计属性约简的一种重要方法,本文将传统的区分度在混合信息系统下进行推广,提出邻域区分度的概念,然后分别研究了邻域区分度在混合信息系统下对象增加和对象减少时的增量式学习,最后根据这种增量式学习分别提出了对应的增量式属性约简算法.UCI数据集上的相关实验结果表明,所提出的增量式属性约简比非增量式属性约简能够更快速的更新约简结果. 展开更多
关键词 粗糙集 混合数据 区分度 邻域关系 增量式学习 属性约简
下载PDF
一种面向混合型数据聚类的k-prototypes聚类算法 被引量:6
10
作者 贾子琪 宋玲 《小型微型计算机系统》 CSCD 北大核心 2020年第9期1845-1852,共8页
同时包含数值型和分类型数据的混合型数据集在实际应用中普遍存在.经典的k-prototypes算法通过人为设置参数γ来调节分类型数据和数值型数据之间的占比,γ对聚类结果影响很大.为了避免不同类型数据之间的特征转换和参数调整以及处理高... 同时包含数值型和分类型数据的混合型数据集在实际应用中普遍存在.经典的k-prototypes算法通过人为设置参数γ来调节分类型数据和数值型数据之间的占比,γ对聚类结果影响很大.为了避免不同类型数据之间的特征转换和参数调整以及处理高维混合型数据聚类中的特征加权问题,提出了基于熵权的分类型相异度系数,量化的数值型相异度系数和适用于混合型数据聚类的混合型相异度系数.提出的相异度系数充分考虑了分类型特征值的重要性和数值型特征值的平均值,并具统一的准则,可以更客观的计算数据对象与簇之间的相异度.此外,将加权的混合型相异度系数应用到经典的k-prototypes算法中,提出了一种面向混合型数据聚类的k-prototypes聚类算法(KPMD).使用UCI真实数据集进行实验,结果验证了KPMD算法的有效性和鲁棒性. 展开更多
关键词 k-prototypes 混合型相异度系数 分类型数据 数值型数据 混合型数据
下载PDF
基于大数据混合数据驱动模型的多用户反窃电甄别研究 被引量:7
11
作者 薛峪峰 马占海 罗红郊 《自动化与仪器仪表》 2020年第12期215-218,共4页
为了提高多用户反窃电甄别能力,提出基于大数据混合数据驱动模型的多用户反窃电甄别方法。构建多用户反窃电甄别的约束参量模型,以驱动电源、有功功率、直流电压以及电流相位差等参数为约束变量,在有功功率基本维持不变的情况下,通过大... 为了提高多用户反窃电甄别能力,提出基于大数据混合数据驱动模型的多用户反窃电甄别方法。构建多用户反窃电甄别的约束参量模型,以驱动电源、有功功率、直流电压以及电流相位差等参数为约束变量,在有功功率基本维持不变的情况下,通过大数据混合调度的方法进行多用户反窃电甄别和输出反馈控制,结合稳态增益调度的方法进行多用户反窃电甄别过程中的信息融合,在负荷突变的情况下实现多用户反窃电甄别自适应控制,建立用户用电信息的大数据混合调度模型,结合数据混合驱动和输电特征提取方法,进行多用户反窃电的动态响应控制和大数据混合驱动。仿真结果表明,采用该方法进行多用户反窃电甄别的准确性较高,对多用户反窃电甄别信息进行参数识别的精度较高。 展开更多
关键词 大数据 混合数据 驱动模型 多用户 反窃电 甄别 信息融合
原文传递
加权模糊C均值聚类算法实现BDS三频组合观测值优选 被引量:7
12
作者 孟凡军 李树军 +2 位作者 潘宗鹏 孙亦成 李忠盼 《国防科技大学学报》 EI CAS CSCD 北大核心 2019年第3期92-98,共7页
在对BDS三频载波相位组合观测值进行误差分析的基础上,确定了优选载波相位线性组合系数的筛选标准。针对传统聚类算法在高维多频混合数据集分类中存在的不足,采用一种基于加权的模糊C均值聚类算法,通过对同一维度在不同簇上赋予不同的... 在对BDS三频载波相位组合观测值进行误差分析的基础上,确定了优选载波相位线性组合系数的筛选标准。针对传统聚类算法在高维多频混合数据集分类中存在的不足,采用一种基于加权的模糊C均值聚类算法,通过对同一维度在不同簇上赋予不同的权重值,对传统遍历搜索法所获得的部分BDS三频载波相位组合观测值进行了优化分类选取,有效解决了传统全球导航卫星系统载波相位观测值选取方法效率低的问题,同时为多系统多频数据组合观测值系数的优化选取提供了一种新的思路。对分类结果进行分析,确定了各类组合观测量的适用范围,并结合实测数据,利用无几何层叠模糊度解算方法对优选组合进行了整周模糊度的解算,结果验证了该方法的可行性。 展开更多
关键词 三频载波相位 混合数据 组合观测值优化 加权模糊C均值聚类算法 无几何CIR算法 整周模糊度
下载PDF
基于密度峰值的混合型数据聚类算法设计 被引量:6
13
作者 李晔 陈奕延 张淑芬 《计算机应用》 CSCD 北大核心 2018年第2期483-490,496,共9页
针对k-prototypes算法无法自动识别簇数以及无法发现任意形状的簇的问题,提出一种针对混合型数据的新方法:寻找密度峰值的聚类算法。首先,把CFSFDP(Clustering by Fast Search and Find of Density Peaks)聚类算法扩展到混合型数据集,... 针对k-prototypes算法无法自动识别簇数以及无法发现任意形状的簇的问题,提出一种针对混合型数据的新方法:寻找密度峰值的聚类算法。首先,把CFSFDP(Clustering by Fast Search and Find of Density Peaks)聚类算法扩展到混合型数据集,定义混合型数据对象之间的距离后利用CFSFDP算法确定出簇中心,这样也就自动确定了簇的个数,然后其余的点按照密度从大到小的顺序进行分配。其次,研究了该算法中阈值(截断距离)及权值的选取问题:对于密度公式中的阈值,通过计算数据场中的势熵来自动提取;对于距离公式中的权值,利用度量数值型数据集和分类型数据集聚类趋势的统计量来定义。最后通过在三个实际混合型数据集上的测试发现:与传统k-prototypes算法相比,寻找密度峰值的聚类算法能有效提高聚类的精度。 展开更多
关键词 聚类分析 混合型数据 数据场 聚类趋势 密度峰值
下载PDF
基于模糊质心的混合属性数据模糊加权聚类算法 被引量:6
14
作者 冀进朝 赵晓威 +3 位作者 何飞 胡英慧 白天 李在荣 《计算机科学》 CSCD 北大核心 2018年第2期109-113,共5页
在模糊聚类算法中,模糊系数被用来控制簇可能重叠的程度,其负面影响是所有的数据对象会影响所有的簇。为解决该问题,Klawonn和H9ppner使用模糊函数替换模糊系数(KH算法),但该方法是针对数值属性数据而设计的。然而,在许多真实的应用中,... 在模糊聚类算法中,模糊系数被用来控制簇可能重叠的程度,其负面影响是所有的数据对象会影响所有的簇。为解决该问题,Klawonn和H9ppner使用模糊函数替换模糊系数(KH算法),但该方法是针对数值属性数据而设计的。然而,在许多真实的应用中,数据对象通常同时由数值属性和分类属性描述。面向混合属性数据,文中提出了一种新的基于模糊质心的模糊加权聚类算法。首先结合模糊质心和均值来表示混合属性条件下的簇中心,然后使用能够评估不同属性在聚类过程中作用的度量来评估数据对象和簇中心之间的相异度,最后给出算法框架。在3个混合属性数据集上对新算法进行了一系列的测试,实验结果表明新算法的性能优于传统算法。 展开更多
关键词 模糊聚类 数据挖掘 混合数据 相异性度量
下载PDF
基于改进决策树的电力混合大数据实时采集方法 被引量:2
15
作者 李晓彬 《自动化与仪器仪表》 2023年第6期93-96,共4页
在电力混合大数据采集过程中,由于数据处理模式的影响,导致数据采集的量化误差较高。因此,提出基于改进决策树的电力混合大数据实时采集方法。利用智能映射技术,构建统一的混合数据采集模型。通过Sqoop脚本、Kafka,以及ftp三种方法的有... 在电力混合大数据采集过程中,由于数据处理模式的影响,导致数据采集的量化误差较高。因此,提出基于改进决策树的电力混合大数据实时采集方法。利用智能映射技术,构建统一的混合数据采集模型。通过Sqoop脚本、Kafka,以及ftp三种方法的有机结合,完成电力采集混合数据实时交换。针对多级电力冗余数据,基于改进决策树算法,建立符合采集需求的数据处理模式。依托于采集的电力数据值设计自适应采集策略,实现电力混合大数据实时采集。实验结果表明:基于改进决策树算法的数据采集方法,对比两种方法,将量化误差降低了16%与22%,有效提升了数据采集质量。 展开更多
关键词 改进决策树 电力 混合数据 实时采集 冗余数据 自适应
原文传递
高维协变量混合型数据的异质性分析
16
作者 徐少东 李扬 边策 《系统科学与数学》 CSCD 北大核心 2024年第8期2429-2457,共29页
大数据时代下,具有混合类型协变量的高维调查数据给异质性分析及其变量选择带来了挑战.文章提出了一种改进的稀疏聚类方法,并以中国教育追踪调查和“千人百村”社会调查为例展开应用讨论.文章提出了调整后DBI准则用以衡量协变量重要程度... 大数据时代下,具有混合类型协变量的高维调查数据给异质性分析及其变量选择带来了挑战.文章提出了一种改进的稀疏聚类方法,并以中国教育追踪调查和“千人百村”社会调查为例展开应用讨论.文章提出了调整后DBI准则用以衡量协变量重要程度,使用不同惩罚参数分别控制不同类型协变量的权重,得出最优的聚类划分结果以及重要的类别区分协变量.理论层面,文章证明了所提出方法的变量筛选一致性.数值实验层面,文章设计了一系列模拟实验验证了所提出方法在聚类和变量选择方面的良好性能.实证数据的结果也表明,文章提出的稀疏聚类方法所划分出的样本集群具有较高的区分度,便于研究者对每个群体进行特征的刻画;同时,其选择出的类别区分变量具有重要现实意义,在不损失重要信息的条件下降低了数据的维度,增加了模型的可解释性.文章提出的稀疏聚类分析实现了对高维调查数据中的混合类型协变量的联合分析,极大化地提升了信息的使用率和数据的利用率. 展开更多
关键词 异质性分析 混合数据 高维数据 变量选择
原文传递
一种基于聚类集成技术的混合型数据聚类算法 被引量:6
17
作者 罗会兰 危辉 《计算机科学》 CSCD 北大核心 2010年第11期234-238,274,共6页
提出了一种基于集成技术和谱聚类技术的混合数据聚类算法CBEST。它利用聚类集成技术产生混合数据间的相似性,这种相似性度量没有对数据特征值分布模型做任何的假设。基于此相似性度量得到的待聚类数据的相似性矩阵,应用谱聚类算法得到... 提出了一种基于集成技术和谱聚类技术的混合数据聚类算法CBEST。它利用聚类集成技术产生混合数据间的相似性,这种相似性度量没有对数据特征值分布模型做任何的假设。基于此相似性度量得到的待聚类数据的相似性矩阵,应用谱聚类算法得到混合数据聚类结果。大量真实和人工数据上的实验结果验证了CBEST的有效性和它对噪声的鲁棒性。与其它混合数据聚类算法的比较研究也证明了CBEST的优越性能。CBEST还能有效融合先验知识,通过参数的调节来设置不同属性在聚类中的权重。 展开更多
关键词 聚类集成 混合型数据 相似性度量
下载PDF
基于多核模糊条件熵的多类型混合数据属性约简算法
18
作者 李俊霞 田勇 汤安 《电子器件》 CAS 2024年第2期483-489,共7页
对数据进行有效属性约简是数据挖掘中一个具有挑战性的任务。当前,粗糙集理论是构造属性约简的一种常用方法。然而,现有的属性约简方法都侧重于单类型的数据,对现实环境下多类型混合的数据并不适用。为了解决这一问题,提出一种多核模糊... 对数据进行有效属性约简是数据挖掘中一个具有挑战性的任务。当前,粗糙集理论是构造属性约简的一种常用方法。然而,现有的属性约简方法都侧重于单类型的数据,对现实环境下多类型混合的数据并不适用。为了解决这一问题,提出一种多核模糊条件熵的多类型混合数据属性约简算法。首先,针对标记型、数值型、区间型和集值型混合的多类型数据,提出了一种多核模糊相似关系。然后,基于这种多核模糊相似关系,定义了一种多核模糊条件熵模型,并讨论了它的单调性和有界性。最后,利用多核模糊条件熵的单调性提出了一种多类型混合数据的属性约简算法。通过UCI数据集的实验分析验证了该算法的有效性。 展开更多
关键词 粗糙集 属性约简 混合型数据 模糊关系 多核模糊条件熵
下载PDF
一种高维混合属性数据聚类算法 被引量:6
19
作者 孙浩军 闪光辉 +1 位作者 高玉龙 袁婷 《计算机工程与应用》 CSCD 北大核心 2015年第8期128-133,共6页
在许多应用中,很多数据集都具有数值型和分类型数据的混合特征,k-prototype是针对这类数据聚类的经典方法之一,该方法是一种基于k-means和k-mode的聚类方法。在研究了现有的混合属性数据聚类方法之后,引入了一种新算法用于混合型数据聚... 在许多应用中,很多数据集都具有数值型和分类型数据的混合特征,k-prototype是针对这类数据聚类的经典方法之一,该方法是一种基于k-means和k-mode的聚类方法。在研究了现有的混合属性数据聚类方法之后,引入了一种新算法用于混合型数据聚类,不仅改进了prototype的选取方法,而且提出了一种新的针对混合型数据的相似度度量方式,基于此又提出了一种不同于k-prototype的数据到prototype的分配方式,采用类似层次聚类中凝聚聚类的思想进行聚类,通过在四个真实的混合型数据集上测试发现:与传统算法相比,算法提高了聚类的精度和稳定性。 展开更多
关键词 聚类 混合型数据 相似度计算 层次聚类
下载PDF
一种融合α度量的混合数据K-prototypes算法 被引量:1
20
作者 陈佳佳 张旺 +1 位作者 刘东海 张晓琴 《统计与决策》 北大核心 2023年第10期16-22,共7页
在大数据背景下,分类型数据与混合型数据开始大量出现,如何更好地计算这类数据的相异性度量成为研究焦点。相比特定属性代表特定类的表达形式,模糊类中心表达形式因为含有更多信息、可计算欧氏距离、能更完善地展示不同样本之间的差异... 在大数据背景下,分类型数据与混合型数据开始大量出现,如何更好地计算这类数据的相异性度量成为研究焦点。相比特定属性代表特定类的表达形式,模糊类中心表达形式因为含有更多信息、可计算欧氏距离、能更完善地展示不同样本之间的差异性等优点而得到推广使用。模糊类中心是定和为1的频率向量,这同时也符合成分数据的定义,因此,文章引入成分数据处理方式,提出一种融合α度量的改进K-prototypes算法(α-K-prototypes)。针对α度量的特殊性设定了权重调整系数,让分类型数据距离更具有解释性。在实验对比后发现,α-K-prototypes算法在UCI的7个数据集上均优于K-prototypes、K-centers、Improved-K-prototypes算法。为了更好地在实际中应用,文章给出了一种较优α计算准则,并证明其在统计意义上是显著的。 展开更多
关键词 聚类分析 成分数据 混合数据 模糊类中心
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部