Spark框架下支持差分隐私保护的K-means++聚类方法

K-means++Clustering Method Supporting Differential Privacy Protection in Spark Framework

下载PDF

导出

摘要针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初始化中心点及迭代更新中心点的过程中,通过综合利用指数机制和拉普拉斯机制,以解决初始聚类中心敏感及隐私泄露问题,同时减少计算过程中对数据实施的扰动.根据差分隐私的特性,从理论角度对整个算法进行证明,以满足ε-差分隐私保护.实验结果证明了该方法在确保聚类结果可用性的前提下,具备出色的隐私保护能力和高效的运行效率. To address the trade-off between privacy and utility in differentially private clustering algorithms when handling with massive data,a distributed differentially private K-means++clustering algorithm is proposed.This algorithm leverages the memory-based computing engine Spark to create resilient distributed datasets(RDD)and performscomputationsusing transformation and action operators.During the selection of initial centroids and iterative updates,a combination of the exponential mechanism and the Laplace mechanism is employed to mitigate the issues of sensitive initial centroids and privacy leakage,while reducing perturbation applied to the data during the computation.According to the characteristics of differential privacy,this paper provides a theoretical proof for the entire algorithm to satisfy e-differential privacy protection.Experimental results demonstrate that this method possesses excellent privacy protection capabilities and efficient operational efficiency while ensuring the usability of clustering results.

作者石江南彭长根谭伟杰 Shi Jiangnan;Peng Changgen;Tan Weijie(State Key Laboratory of Public Big Data(Guizhou University),Guiyang 550025;Key Laboratory of Advanced Manufacturing Technology(Guizhou University),Ministry of Education,Guiyang 550025)

机构地区公共大数据国家重点实验室(贵州大学) 现代制造技术教育部重点实验室(贵州大学)

出处《信息安全研究》 CSCD 北大核心 2024年第8期712-718,共7页 Journal of Information Security Research

基金国家自然科学基金项目(62272124,62361010) 国家重点研发计划项目(2022YFB2701401) 贵州大学培育项目(贵大培育[2019]56号) 贵州大学人才引进科研项目(贵大人基合字(2020)61号) 现代制造技术教育部重点实验室2021年度开放基金项目(GZUAMT2021KF[01])。

关键词数据挖掘聚类算法差分隐私 Spark框架指数机制 data mining clustering algorithm differential privacy Spark exponential mechanism

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1傅彦铭,李振铎.基于拉普拉斯机制的差分隐私保护k-means++聚类算法研究[J].信息网络安全,2019(2):43-52. 被引量：19
2毛伊敏,甘德瑾,廖列法,陈志刚.基于Spark框架和ASPSO的并行划分聚类算法[J].通信学报,2022,43(3):148-163. 被引量：8
3李洪成,吴晓平,陈燕.MapReduce框架下支持差分隐私保护的k-means聚类方法[J].通信学报,2016,37(2):124-130. 被引量：24
4何清,庄福振,曾立,赵卫中,谭庆.PDMiner:基于云计算的并行分布式数据挖掘工具平台[J].中国科学：信息科学,2014,44(7):871-885. 被引量：28
5张恩,李会敏,常键.可验证的隐私保护k-means聚类方案[J].计算机应用,2021,41(2):413-421. 被引量：4
6安鹏,李宏飞,高铭,王世彪,喻波.运营商数据安全合规检查技术研究与实践[J].信息安全研究,2023,9(7):643-647. 被引量：2

二级参考文献49

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2宋晓云,苏宏升.一种并行决策树学习方法研究[J].现代电子技术,2007,30(2):141-144. 被引量：4
3Han J W, Kamber M, Pei J. Data Mining: Concepts and Techniques. 3rd ed. San Francisco: Morgan Kaufmann, 2011. 被引量：1
4Luo P, Lu K, Huang R, et al. A heterogeneous computing system for data mining workflows in multi-agent environ- ments. Expert Syst, 2006, 23:258-272. 被引量：1
5Zhuang F Z, He Q, Shi Z Z. Multi-agent based on automatic evaluation system for classification algorithm. In: Proceedings of International Conference on Information Automation, Zhangjiajie, 2008. 264-269. 被引量：1
6Hameenanttila T, Guan X L, Carothers J D, et al. The flexible hypercube: a new fault-tolerant architecture for parallel computing. J Parallel Distr Com, 1996, 37:213-220. 被引量：1
7Goudreau M W, Lang K, Rao S B, et al. Portable and efficient parallel computing using the BSP model. IEEE Trans Comput, 1999, 48:670-689. 被引量：1
8Chu C T, Kim S K, Lin Y A, et al. Map-reduce for machine learning on multicore. In: Proceedings of Advances in Neural Information Processing Systems 19, Vancouver, 2006. 281-288. 被引量：1
9Borthakur D. The hadoop distributed file system: architecture and design. Hadoop Project Website, 2007, 11:21. 被引量：1
10Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters. Commun ACM, 2008, 51:107-113. 被引量：1

共引文献77

1唐迪,顾健,俞优,杨元原.基于等级保护的个人信息安全分级方法研究[J].信息网络安全,2020(S02):13-16. 被引量：2
2刘丹青,高瑜,吴振强.基于距离贡献率的隐私保护框架下k-medoids算法研究[J].青海师范大学学报（自然科学版）,2022,38(1):4-13.
3李学龙,龚海刚.大数据系统综述[J].中国科学：信息科学,2015,45(1):1-44. 被引量：459
4王永.基于云计算的数据挖掘平台架构及其关键技术探讨[J].中国新通信,2015,17(10):69-69. 被引量：7
5丁伟,万定生,樊龙.并行数据挖掘方法在水利普查成果分析中的应用[J].计算机与现代化,2015(10):107-111.
6何清,敖翔,庄福振,罗平.一种基于Hadoop的大数据挖掘云服务及应用[J].信息通信技术,2015,9(6):42-49. 被引量：13
7李洪成,吴晓平,陈燕.MapReduce框架下支持差分隐私保护的k-means聚类方法[J].通信学报,2016,37(2):124-130. 被引量：24
8陈丽珊.数据挖掘中敏感信息安全问题的探讨[J].福建广播电视大学学报,2016(5):19-22.
9林媛.非结构化网络中有价值信息数据挖掘研究[J].计算机仿真,2017,34(2):414-417. 被引量：22
10陈小莉.基于大数据的计算机数据挖掘技术在档案管理系统中的研究应用[J].激光杂志,2017,38(2):142-145. 被引量：49

1曲英伟,刘锐.基于YOLOv5-MobileNetV3算法的目标检测[J].计算机系统应用,2024,33(7):213-221. 被引量：1
2张顺绍.基于改进的YOLOv4骑行人员佩戴头盔目标检测研究[J].计算机应用文摘,2024,40(14):134-136.
3吴恺,李黎,王嘉芃,张登荣,赵安邦,李俊青,夏青.基于改进YOLO v5的野外实景视频水鸟检测方法[J].杭州师范大学学报（自然科学版）,2024,23(4):351-358.
4高佳楠,台明浪,崔思雨,李明涛.蔬菜类商品动态定价与补货决策研究[J].数学建模及其应用,2024,13(2):47-56.
5任伟建,陈明文,康朝海,霍凤财,任璐,张永丰.基于YOLOv3的金属表面缺陷检测研究[J].控制工程,2024,31(7):1219-1228.
6程子豪,朱浩.一种基于Gramian约束与高斯-牛顿法的地震与重力联合反演模型[J].中国科技信息,2024(14):116-120.
7李忠锐,代洪娜,赵欢欢,范宏贤,焦雯雯.基于多源数据的城市高速公路通勤通道识别研究[J].交通技术,2024,13(4):244-252.
8袁联生.基于Spark的叠加能量寻优反射波剩余静校正算法的工程化实现[J].石油物探,2024,63(4):807-816.
9蒋锴,陶智刚,裴晔晔,倪得晶.面向作战系统集成的数据转换方法[J].指挥信息系统与技术,2024,15(3):40-45.
10齐亚聪,陈毅飞,杨会民,喻晨,王学农.基于PLC的变量喷雾系统的设计与试验[J].农机化研究,2024,46(11):162-168. 被引量：1

信息安全研究

2024年第8期

浏览历史

内容加载中请稍等...

Spark框架下支持差分隐私保护的K-means++聚类方法

参考文献6

二级参考文献49

共引文献77

相关作者

相关机构

相关主题

浏览历史