期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于K-prototype聚类的学生教育画像分析 被引量:10
1
作者 翟鸣宇 程建 +1 位作者 王苏桐 王延章 《大连理工大学学报(社会科学版)》 CSSCI 北大核心 2021年第6期22-31,共10页
针对包含类别数据与数值数据的高校教育大数据,采用基于汉明距离与欧式距离混合度量的K-prototype进行聚类,并通过轮廓系数对聚类效果进行评价,与常用的k-means、DBSCAN进行对比,实验结果表明:基于K-prototype的聚类在教育大数据的处理... 针对包含类别数据与数值数据的高校教育大数据,采用基于汉明距离与欧式距离混合度量的K-prototype进行聚类,并通过轮廓系数对聚类效果进行评价,与常用的k-means、DBSCAN进行对比,实验结果表明:基于K-prototype的聚类在教育大数据的处理上更具优势。基于聚类结果,采用词云图构建了4类学生教育画像。画像从基本属性、生活消费、生活规律等维度将学生群体划分为“思想积极型学生”“夜猫子游戏型学生”“规律作息型学生”“节俭好学型学生”4类,为学生教育管理人员提供相应的决策支持。 展开更多
关键词 学生教育画像 k-prototype聚类 词云图
下载PDF
基于k-prototype聚类的差分隐私混合数据发布算法 被引量:8
2
作者 屈晶晶 蔡英 +1 位作者 范艳芳 夏红科 《计算机科学与探索》 CSCD 北大核心 2021年第1期109-118,共10页
差分隐私是一种提供强大隐私保护的模型。在非交互式框架下,数据管理者可发布采用差分隐私保护技术处理的数据集供研究人员进行挖掘分析。但是在数据发布过程中需要加入大量噪声,会破坏数据可用性。因此,提出了一种基于k-prototype聚类... 差分隐私是一种提供强大隐私保护的模型。在非交互式框架下,数据管理者可发布采用差分隐私保护技术处理的数据集供研究人员进行挖掘分析。但是在数据发布过程中需要加入大量噪声,会破坏数据可用性。因此,提出了一种基于k-prototype聚类的差分隐私混合数据发布算法。首先改进k-prototype聚类算法,按数据类型的不同,对数值型属性和分类型属性分别选用不同的属性差异度计算方法,将混合数据集中更可能相关的记录分组,从而降低差分隐私敏感度;结合聚类中心值,采用差分隐私保护技术对数据记录进行处理保护,针对数值型属性使用Laplace机制,分类型属性使用指数机制;从差分隐私的概念及组合性质两方面对该算法进行隐私分析证明。实验结果表明:该算法能够有效提高数据可用性。 展开更多
关键词 差分隐私 混合数据集 k-prototype 聚类 数据发布
下载PDF
DCKPDP:改进k-prototype聚类的差分隐私混合属性数据发布方法 被引量:7
3
作者 张星 张兴 《计算机应用研究》 CSCD 北大核心 2022年第1期249-253,共5页
当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算... 当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算法没有考虑不同数值型属性对聚类结果有较大影响的问题,利用信息熵为每个数值型属性添加属性权重;为解决聚类初始中心点人为规定或者由随机算法随机确定,导致聚类结果精确度不高的问题,结合数据对象的局部密度和高密度对聚类过程中初始中心点进行自适应选择;为解决数据信息泄露风险较高的问题,对聚类中心值进行差分隐私保护。实验结果表明,DCKPDP算法满足差分隐私保护所需的噪声量更小,数据的可用性更好。 展开更多
关键词 差分隐私 混合属性数据 k-prototype聚类 密度优化 信息熵
下载PDF
DP-IMKP:满足个性化差分隐私的数据发布保护方法 被引量:1
4
作者 张星 张兴 王晴阳 《计算机工程与应用》 CSCD 北大核心 2023年第10期288-298,共11页
差分隐私因能提供强大的隐私保证,广泛应用于解决数据发布中的隐私保护问题。但是经差分隐私保护后的数据注入大量噪音,降低了数据可用性,且已有方法中,针对混合属性数据集发布的隐私保护研究成果较少和存在隐私预算分配不合理的问题。... 差分隐私因能提供强大的隐私保证,广泛应用于解决数据发布中的隐私保护问题。但是经差分隐私保护后的数据注入大量噪音,降低了数据可用性,且已有方法中,针对混合属性数据集发布的隐私保护研究成果较少和存在隐私预算分配不合理的问题。因此,提出一种基于个性化隐私预算分配的差分隐私混合属性数据发布方法(DP-IMKP)。利用互信息与属性之间关联关系,提出一种敏感属性分级策略,使用户各属性重要程度得以量化,为不同级别的属性匹配对应的隐私保护程度;结合最优匹配理论,构造隐私预算与敏感属性之间的二部图,为各级敏感属性分配合理的隐私预算;结合信息熵和密度优化思想,对经典k-prototype算法中初始中心的选择和相异度度量方法进行改进,并对原始数据集进行聚类,利用各敏感属性分配的隐私预算,对聚类中心值进行差分隐私保护,防止隐私数据信息泄露。通过实验验证,DP-IMKP方法与同类方法相比,在提高数据可用性和降低数据泄露风险方面有明显优势。 展开更多
关键词 差分隐私 k-prototype聚类 属性分级 隐私预算分配 互信息 混合数据
下载PDF
一种基于k-prototype的多层次聚类改进算法 被引量:1
5
作者 李士进 朱跃龙 刘净 《河海大学学报(自然科学版)》 CAS CSCD 北大核心 2007年第3期342-347,共6页
针对k-prototype算法在处理复杂的数据集时,常出现一些纯度不高的簇,影响了聚类质量的问题,提出一种基于k-prototype的多层次聚类改进算法,利用属性自动选择的方法将一些纯度不高的簇进行再聚类,以提高聚类质量.以UCI标准测试数据集进... 针对k-prototype算法在处理复杂的数据集时,常出现一些纯度不高的簇,影响了聚类质量的问题,提出一种基于k-prototype的多层次聚类改进算法,利用属性自动选择的方法将一些纯度不高的簇进行再聚类,以提高聚类质量.以UCI标准测试数据集进行实验,实验结果表明,该改进算法能够明显提高混合型数据集的聚类质量,并且在数据约简方面有良好表现. 展开更多
关键词 聚类 混合数据 多层次聚类 k-prototype聚类
下载PDF
基于混合聚类的海运通道非传统安全风险空间划分
6
作者 吕靖 张晨 班豪 《上海海事大学学报》 北大核心 2023年第1期81-87,103,共8页
为保障海上运输安全,实现有效的海上风险预警,对影响国际海运通道安全最主要的非传统安全风险的时空分布模式进行探索。海上运输非传统安全风险主要包括海盗、海上恐怖主义和海上偷渡,对这3类风险发生的影响因素进行分析并结合风险特征... 为保障海上运输安全,实现有效的海上风险预警,对影响国际海运通道安全最主要的非传统安全风险的时空分布模式进行探索。海上运输非传统安全风险主要包括海盗、海上恐怖主义和海上偷渡,对这3类风险发生的影响因素进行分析并结合风险特征构建特征指标体系。基于国际海事组织全球航运信息集成系统(Global Integrated Shipping Information System,GISIS),应用K原型聚类模型,并以轮廓系数法进行模型校正,对2015—2020年全球海运通道非传统安全风险进行空间划分。试验结果表明:东马来西亚沿岸、苏禄海、苏拉威西海是马六甲海峡周边海域海上袭击的高风险区;非洲沿岸港口始终是偷渡的高风险区,拉丁美洲海上偷渡发生地逐渐南移,地中海沿岸港口海上偷渡频率显著上升。研究成果表明该方法可实现对区域内不同海上非传统安全风险的细致划分。 展开更多
关键词 海上运输 非传统安全风险 空间划分 k原型聚类 混合聚类
下载PDF
数据挖掘中的聚类算法分析 被引量:2
7
作者 段琪 《信息与电脑》 2019年第15期39-40,共2页
随着计算机网络的飞速发展,各行各业每天都产生大量数据。为了大量数据中提取有效信息,衍生了数据挖掘技术。聚类分析是数据挖掘领域的一项重要工具,广泛应用于不同领域,比如模式识别、医药、统计学等。现实生活中的数据有数值型数据、... 随着计算机网络的飞速发展,各行各业每天都产生大量数据。为了大量数据中提取有效信息,衍生了数据挖掘技术。聚类分析是数据挖掘领域的一项重要工具,广泛应用于不同领域,比如模式识别、医药、统计学等。现实生活中的数据有数值型数据、分类型数据和混合型数据。基于此,针对这三种数据分别介绍k-means、k-modes和k-prototype算法,以提高聚类分析效率。 展开更多
关键词 聚类分析 k-MEANS算法 k-modes算法 k-prototype算法
下载PDF
基于K-prototype与SVM的短期电力负荷预测 被引量:2
8
作者 孙聪 李川 李英娜 《信息技术》 2019年第4期27-32,38,共7页
电力负荷受多种不确定因素的影响,所以通过使用一种聚类方式选取相似日来进行短期电力负荷预测,以提高预测精度和速度。K-prototype聚类算法继承了k均值算法所以具有k均值优点。通过建立映射数据库将气温、湿度、天气、星期类型、季节... 电力负荷受多种不确定因素的影响,所以通过使用一种聚类方式选取相似日来进行短期电力负荷预测,以提高预测精度和速度。K-prototype聚类算法继承了k均值算法所以具有k均值优点。通过建立映射数据库将气温、湿度、天气、星期类型、季节等不同量纲的值通过无量纲化处理,使得不同的量纲在数值上具有可比性。然后运用聚类方法选取预测日的相似日,借助SVM模型对相似日样本进行预测,实现更加精准预测的目的。利用某地区真实数据进行验证,结果表明该方法可以有效地提高短期电力负荷的预测精度。 展开更多
关键词 短期电力负荷预测 k-prototype 聚类 支持向量机
下载PDF
混合类型数据的聚类算法综述
9
作者 陈绪 严金戈 《信息与电脑》 2018年第7期136-138,共3页
在所有数据挖掘的算法中,聚类算法尤为重要。在实际应用中,数据大多是混合型的数据,既包含数值型,又包含分类型数据。因此,对混合数据进行聚类分析越来越重要。笔者首先介绍了聚类的定义,然后详细阐述了K-prototype聚类算法的基本原理,... 在所有数据挖掘的算法中,聚类算法尤为重要。在实际应用中,数据大多是混合型的数据,既包含数值型,又包含分类型数据。因此,对混合数据进行聚类分析越来越重要。笔者首先介绍了聚类的定义,然后详细阐述了K-prototype聚类算法的基本原理,最后详细介绍了近年来各学者对混合类型数据的聚类算法的研究现状和其具体应用。 展开更多
关键词 混合数据类型 聚类 数据挖掘 k-prototype聚类算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部