针对字典序依赖的分布式数据修复

DISTRIBUTED DATA REPAIRING FOR LEXICOGRAPHICAL ORDER DEPENDENCE

下载PDF

导出

摘要字典序次序依赖用于表达数据上属性列间的次序关系。现实数据往往具有很大的规模而且包含错误。研究针对字典序次序依赖的分布式数据修复技术,目标是将数据修改为满足给定次序依赖定义的形式。基于Spark平台,设计和实现分布式修复算法,同时通过实验验证该方法的有效性和运行效率。 Lexicographical order dependencies can define order specifications on lists of attributes.In practice,data are large and contain errors.This paper investigated the problem of distributed data repairing for lexicographical order dependencies,aiming at repairing data such that order dependencies defined on the data were satisfied.We designed and implemented distributed algorithms based on Spark framework,and conducted extensive experiments to verify the effectiveness and efficiency of our approach.

作者郭乃网覃晟谈子敬曹满亮 Guo Naiwang;Qin Sheng;Tan Zijing;Cao Manliang(State Grid Shanghai Municipal Electric Power Company,Shanghai 200437,China;Fudan University,Shanghai 200433,China)

机构地区国网上海市电力公司电力科学研究院复旦大学

出处《计算机应用与软件》北大核心 2023年第9期37-42,108,共7页 Computer Applications and Software

基金科技部重点研发计划项目(2018YFB1402600) 上海市科委项目(19DZ2252800) 国网上海市科技项目(52094020001A)。

关键词数据修复字典序次序依赖分布式计算 Data repairing Lexicographical order dependency Distributed computing

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献2

1李卫榜,李战怀,陈群,姜涛,刘海龙,潘巍.分布式大数据函数依赖发现[J].计算机研究与发展,2015,52(2):282-294. 被引量：9
2李卫榜,李战怀,陈群,杨婧颖,姜涛.分布式大数据不一致性检测[J].软件学报,2016,27(8):2068-2085. 被引量：7

二级参考文献22

1Armstrong WW. Dependency structures of data base relationships. Processings of IFIP Congress 74, 1974,74:580-583. 被引量：1
2Fan W, Geerts F, Jia X, Kementsietsidis A. Conditional functional dependencies for capturing data inconsistencies. ACM Trans. on Database Systems, 2008,33(2):1-48. [doi: 10.1145/1366102.1366103]. 被引量：1
3Beskales G, Ilyas I, Gotab L. Sampling the repairs of functional dependency violations under hard constraints. Proc. of the VLDB Endowment, 2010,3(1-2):197-207. Idol: 10.14778/1920841.1920870]. 被引量：1
4Fan W, Geerts F, Ma S, Muller H. Detecting inconsistencies in distributed data. In: Proc. of the IEEE ICDE. Long Beach, 2010. Idol: 10.1109/1CDE.2010.5447855]. 被引量：1
5Huyn N. Maintaining global integrity constraints in distributed databases. Constraints, 1997,2(3-4):377-399. [doi: 10.1023/A: 1009 703814570]. 被引量：1
6Garey M, Johnson D. Computers and Intractability: A Guide to the Theory of NP-Completeness. W. H. Freeman and Company, 1979.32-38. 被引量：1
7Kleinberg J, Tardos E. Algorithm Design. New York: Pearson Education, 2006. 600-622. 被引量：1
8http://apps.bts.gov/xml/ontimesummarystatistics/src/index.xml. 被引量：1
9Fan W, Li J, Tang N, Yu W. Incremental detection of inconsistencies in distributed data. In: Proc. of the IEEE ICDE. Washington, 2012. 318-329. [doi: 10.1109/ICDE.2012.82]. 被引量：1
10Gupta A, Widom J. Local verification of global integrity constraints in distributed databases. In: Proc. of the 1993 ACM SIGMOD Int'l Conf. on Management of Data. Washington, 1993. [doi: 10.1145/170035.170048]. 被引量：1

共引文献14

1侯东平.一种代价最优的一致性冲突的修复方法[J].数字技术与应用,2016,0(1):76-76.
2黎章海,潘久辉.基于函数依赖的导出关系候选码计算[J].计算机工程,2016,42(5):60-65. 被引量：2
3徐进,黄勃,冯炯.基于消息通信的分布式系统最终一致性平台[J].计算机应用,2017,37(4):1157-1163. 被引量：12
4安秋生,孔祥玉.函数依赖与属性蕴含的关系研究[J].小型微型计算机系统,2017,38(9):2000-2005. 被引量：6
5王玥.关系数据库中分布式大数据的集成冲突消解算法[J].科学技术与工程,2018,18(3):63-67. 被引量：3
6徐利平,胡兴.控制数据一体化火电厂应用实践[J].电力大数据,2018,21(1):18-25. 被引量：10
7杨明,李铁冰,姜茸,高提雷,王佳.基于AHP的大数据可用性及挖掘方案模型研究[J].计算机技术与发展,2018,28(5):51-54. 被引量：2
8覃昇,谈子敬,肖永松.差别依赖验证的分布式算法[J].计算机应用与软件,2018,35(11):259-265. 被引量：1
9余敏,赵晓南,许志.基于依赖的数据一致性研究进展[J].计算机应用,2018,38(A02):72-76. 被引量：3
10宋泊东,张立臣,江其洲.基于Spark的分布式大数据分析算法研究[J].计算机应用与软件,2019,36(1):39-44. 被引量：21

1谢灵江,吕敏,曾源.基于之字形解码算法优化的高效低存储ZD码[J].计算机系统应用,2023,32(10):175-183.
2张双,杨帆.改进的双阶段生成对抗数字壁画修复算法[J].电子测量技术,2023,46(11):123-129. 被引量：4
3李金龙,李若南,吴攀,于广婧,许伦辉.基于时空残差张量学习的城市路网交通数据修复[J].计算机应用研究,2023,40(10):2972-2977.
4孙剑明,吴金鹏,沈子成,彭俄祯.基于掩码预测和多尺度上下文聚合的人脸图像修复算法[J].无线电工程,2023,53(10):2251-2260.
5许和英.在“统计与概率”教学中培养小学生的数据意识——以“条形统计图”单元教学为例[J].新智慧,2023(19):80-82.
6岳征良,李北伟,刘洪涛.T球面概率犹豫模糊集及在绿色创业企业绩效评估中的应用[J].系统管理学报,2023,32(5):889-900.
7张寿军,江海峰,肖硕,王树豪,商景杰.移动群智感知中基于改进文化基因算法的长时多任务分配[J].南京大学学报（自然科学版）,2023,59(4):561-569.
8孙泽宇,张洁,熊英飞,郝丹,张路.基于同位替换的深度程序生成模型测试及修复方法[J].计算机学报,2023,46(10):2025-2040.
9杨伟光,陈世忠,段星星,周玉,潘展超,刘珉.新疆卡拉麦里构造多源遥感解译与定量分析[J].新疆地质,2023,41(S01):102-102.

计算机应用与软件

2023年第9期

浏览历史

内容加载中请稍等...

针对字典序依赖的分布式数据修复

参考文献2

二级参考文献22

共引文献14

相关作者

相关机构

相关主题

浏览历史