Spark平台下的分布式函数依赖发现算法被引量：6

Distributed Function Dependency Discovery Algorithm in Apache Spark

下载PDF

导出

摘要函数依赖发现被广泛应用于分布式大数据分析,是数据清洗、质量评估和语义分析的重要手段.已有函数依赖发现算法主要针对集中式数据,不适用于分布在不同节点上的云计算数据.将分布式数据汇集到集中节点非常耗时,而使用传统集中式方法分别处理分布式节点上的数据会导致错误的结果.已经存在的分布式算法存在内存消耗过大的缺点.因此,本文提出一种基于云计算数据处理平台Spark的快速低内存分布式函数依赖发现算法.该算法提出了多个分布式任务分配策略和基于标识符集一致性的最大等价类元素去重策略,在保障正确性前提下,减少了集合交集运算的次数,加快了处理速度.实验结果表明,与传统集中式算法相比,本文提出的分布式算法在本实验环境下使平均执行时间降低了50%左右,去重策略进一步降低了30%左右执行时间.和已有分布式函数依赖发现算法相比,在有些实例上可以节省大约75%的内存. Functional dependency discovery is widely used in distributed big data analysis and is an important means of data cleaning,quality assessment and semantic analysis.Existing function dependency discovery algorithms are mainly for centralized data and are not suitable for cloud computing data distributed on different nodes.It is time consuming to gather the original distributed data to the centralized node,and processing the data on the distributed node separately using the traditional single machine method may lead to inaccurate results.Existing distributed algorithms have the disadvantage of excessive memory consumption.Therefore,this paper proposes a fast low-memory distributed function dependency discovery algorithm based on cloud computing data processing platform Spark.The algorithm proposes multiple distributed task allocation strategies and maximum equivalence class element deduplication strategies based on identifier set consistency.Under the premise of ensuring correctness,the number of set intersection operations is reduced and the processing speed is accelerated.The experimental results show that compared with the traditional centralized algorithm,the distributed algorithm proposed in this paper reduces the average execution time by about 50%in this experimental environment,and the deduplication strategy further reduces the execution time by about 30%.Compared with the existing distributed function dependency discovery algorithm,this algorithm can save about 75%of memory in some instances.

作者朱星宇蔡志成刘段徐建李小平 ZHU Xing-yu;CAI Zhi-cheng;LIU Duan;XU Jian;LI Xiao-ping(School of Computer,Nanjing University of Science and Technology,Nanjing 210094,China;School of Computer,Southeast University,Nanjing 211102,China)

机构地区南京理工大学计算机科学与工程学院东南大学计算机科学与工程学院

出处《小型微型计算机系统》 CSCD 北大核心 2020年第8期1569-1575,共7页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61602243,61972202,61872186)资助江苏省自然科学基金项目(BK20160846)资助中央高校基本科研业务费项目(30919011235,30920120180101)资助。

关键词数据挖掘函数依赖发现 Dep_Miner 分布式计算 SPARK data mining functional dependency discovery Dep_Miner distributed computing Spark

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1李卫榜,李战怀,陈群,姜涛,刘海龙,潘巍.分布式大数据函数依赖发现[J].计算机研究与发展,2015,52(2):282-294. 被引量：9
2张方舟,高晓松.基于条件函数依赖的挖掘算法研究[J].计算机技术与发展,2015,25(5):56-59. 被引量：6
3安秋生,孔祥玉.函数依赖与属性蕴含的关系研究[J].小型微型计算机系统,2017,38(9):2000-2005. 被引量：6
4孙仕亮,陈俊宇.大数据分析的硬件与系统支持综述[J].小型微型计算机系统,2017,38(1):1-9. 被引量：6

二级参考文献22

1吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：227
2王圣男,郁梅,蒋刚毅.智能交通系统中基于视频图像处理的车辆检测与跟踪方法综述[J].计算机应用研究,2005,22(9):9-14. 被引量：80
3Han Jiawei,Kamber M.数据挖掘概念与技术[M].北京:机械工业出版社,2010. 被引量：3
4Bohannon P, Fan W, Geerts F, et al. Conditional functional de- pendencies for data cleaning[ C ]//Proc of 23rd international conference on data engineering. Istanbul : IEEE, 2007 : 746 - 755. 被引量：1
5Mange A E. Matching algorithms within a duplicate detection system [ J ]. IEEE Data Engineering Bulletin, 2000,23 ( 4 ) : 14- 20. 被引量：1
6Rahm E, Do H H. Data cleaning:problems and current approa- ches [ J ]. IEEE Data Engineering Bulletin, 2000,23 ( 4 ) : 3 - 13. 被引量：1
7Fan W, Geerts F, Jia X, et al. Conditional functional dependen- cies for capturing data inconsistencies [ J ]. TODS, 2008,33 (2) :1-4. 被引量：1
8韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35(2):1-5. 被引量：102
9胡艳丽,张维明.条件依赖理论及其应用展望[J].计算机科学,2009,36(12):115-118. 被引量：8
10孟志刚,曲开社,康向平.多值背景的属性约简及其上的函数依赖提取[J].山西大学学报（自然科学版）,2010,33(2):190-193. 被引量：2

共引文献22

1刘勇,胡宇鹏,李学庆.一种基于约束格维护概念模型一致性的方法[J].控制与决策,2020,35(2):367-374. 被引量：2
2夏筱筠,林浒.基于自学习SOM和ARMA算法的数控机床滚动轴承健康预警研究[J].小型微型计算机系统,2019,40(1):215-220. 被引量：8
3侯东平.一种代价最优的一致性冲突的修复方法[J].数字技术与应用,2016,0(1):76-76.
4黎章海,潘久辉.基于函数依赖的导出关系候选码计算[J].计算机工程,2016,42(5):60-65. 被引量：2
5安秋生,孔祥玉.函数依赖与属性蕴含的关系研究[J].小型微型计算机系统,2017,38(9):2000-2005. 被引量：6
6王玥.关系数据库中分布式大数据的集成冲突消解算法[J].科学技术与工程,2018,18(3):63-67. 被引量：3
7谭黎龙,万定生,钱振兴.基于条件函数依赖的FastCFD算法研究与应用[J].信息技术,2018,42(7):1-4.
8辛月振,孙贝贝,夏盛瑜.数据挖掘方法在生物实验数据上的应用[J].计算机技术与发展,2018,28(9):143-146. 被引量：1
9毛燠锋,钱振兴,万定生,朱跃龙.基于条件函数依赖的CTANE算法研究与应用[J].计算机工程与应用,2017,53(11):85-89. 被引量：1
10余敏,赵晓南,许志.基于依赖的数据一致性研究进展[J].计算机应用,2018,38(A02):72-76. 被引量：3

同被引文献59

1宋元强,周良将.基于双特征量和NSCT的多波段SAR图像融合算法[J].信号处理,2020,36(1):93-101. 被引量：6
2王蕊,冯登国,杨轶,苏璞睿.基于语义的恶意代码行为特征提取及检测方法[J].软件学报,2012,23(2):378-393. 被引量：74
3李贤慧,季胜鹏,周升,陈军,楼平.基于大数据技术的实时数据中心重构研究[J].浙江电力,2017,36(3):75-80. 被引量：12
4仝青,张铮,张为华,邬江兴.拟态防御Web服务器设计与实现[J].软件学报,2017,28(4):883-897. 被引量：99
5叶益林,吴礼发,颜慧颖.一种基于双层语义的Android原生库安全性检测方法[J].计算机科学,2017,44(6):161-167. 被引量：1
6张航,张欣,张平康,李琪.基于Hadoop的精准扶贫大数据信息系统[J].电子科技,2018,31(7):59-62. 被引量：7
7徐汉斌,肖欣,盛步云.基于多BOM的研发项目工作分解方法研究[J].机械设计与制造,2019(1):257-260. 被引量：3
8张振,冯永亮,赵津曼.一种基于Spark的图像聚类并行化算法[J].电子制作,2019,27(3):67-68. 被引量：3
9刘晓冰,赵国志,周春柳.面向复杂装备的检修BOM构建[J].计算机工程与设计,2019,40(3):894-900. 被引量：3
10徐梓荐,叶盛,张孝.分布式异构数据库数据同步工具[J].软件学报,2019,30(3):684-699. 被引量：17

引证文献6

1李卫兵,曾泽熠,曾强.面向混合数据源的企业数据库私有云设计[J].电力大数据,2021,24(2):27-33. 被引量：2
2赵伟华.基于Spark视域下的分布式大数据算法分析——以计算机维修实验室管理系统为例[J].软件,2021,42(9):131-134. 被引量：1
3唐成华,高庆泽,杜征,强保华.基于敏感路径的精确行为依赖图跟踪检测恶意代码[J].小型微型计算机系统,2023,44(7):1593-1600.
4张威,马永斌,陈磊.基于结构相似度的多波段图像自适应融合算法[J].计算机仿真,2023,40(11):192-196.
5牛庆丽,朱耀琴.基于Spark计算的大数据终端潜在异常识别仿真[J].计算机仿真,2024,41(1):518-521. 被引量：2
6邓乐富,马江林.一种多用户协同的BOM数据一致性校核与检测算法设计[J].电子设计工程,2024,32(6):11-15.

二级引证文献5

1欧振国,张永旺,彭强,刘海斌,邓珊.面向多数据源的计量生产调度管理系统设计[J].自动化应用,2021(9):63-64. 被引量：1
2高唱.大数据的计算机数据分析管理系统设计[J].中国新通信,2022,24(20):41-43. 被引量：1
3丁业豪,温锐,杨玲,李海东,杨月,耿超然.以智慧能源服务平台为载体打造能源服务产业链[J].电力大数据,2023,26(2):86-92. 被引量：1
4魏仕俊,李云,吴开平.基于无监督学习的计算机通信网络异常数据流辨识方法[J].计算机应用文摘,2024,40(12):102-104.
5吴彩旭,张晶.基于Spark计算的大数据终端潜在异常识别仿真[J].软件,2024,45(6):31-33.

1杨美玲,安然,柴建伟.波浪作用下的舰船电子系统谱密度函数分析[J].舰船科学技术,2019,41(10):112-114.
2于恒国,段涵,王奇,马增岭.一类水体富营养化复杂动力系统构建及其动力学分析[J].应用数学进展,2017,6(9):1082-1089. 被引量：1
3曾炜.欧盟《一般数据保护条例》下区块链的数据保护义务[J].科技与法律,2020(4):86-94. 被引量：7
4张旭旺,杨伟军,夏双志.一种用于一体化电磁装备的数据处理平台设计[J].计算机与网络,2020,46(14):66-69. 被引量：1
5潘三明,袁明强.基于边缘计算的视频监控系统及应用[J].电信科学,2020,36(6):64-69. 被引量：10
6张灿阳,刘晓洁.基于改进Simhash的虚拟机镜像去重方法[J].四川大学学报（自然科学版）,2020,57(1):57-65. 被引量：4
7马威.基于Scrapy框架的校园搜索引擎设计[J].科技创新与应用,2020,0(14):84-85. 被引量：1
8熊聪聪,冯阔.嵌入式网络分布式负载任务并行计算系统设计[J].现代电子技术,2020,43(15):143-147. 被引量：3
9蔡源源,江忠良.一种K-means聚类的交集迭代算法[J].电子世界,2020(16):35-36.
10赵玉亮,宋业新,康丽文.基于拥塞博弈的多无人机自主侦察任务规划[J].兵工自动化,2020,39(7):45-51. 被引量：1

小型微型计算机系统

2020年第8期

浏览历史

内容加载中请稍等...

Spark平台下的分布式函数依赖发现算法被引量：6

参考文献4

二级参考文献22

共引文献22

同被引文献59

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

Spark平台下的分布式函数依赖发现算法 被引量：6

参考文献4

二级参考文献22

共引文献22

同被引文献59

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

Spark平台下的分布式函数依赖发现算法被引量：6