一种优化关系型溯源信息存储的新方法被引量：6

An Approach for Optimizing Relational Provenance Storage

下载PDF

导出

摘要现代数据管理必须处理来源不同、质量各异的数据,因此从系统层面支持数据溯源,让用户了解数据的来源及派生过程成为当前至关重要的一个研究课题.基于标注的方法是支持数据溯源的基本方法之一.这种方法的主要问题是存储空间开销,因为溯源信息可能会超过实际数据的大小.在该文中,作者提出了一个用与查询结构匹配的溯源树来表达和存储溯源信息从而避免数据派生过程中冗余存储的基本框架.基于这个框架,作者提出了一系列针对关系型查询的存储优化方法,选择查询树部分节点来存储溯源信息.这些优化算法对于查询大小是多项式时间,对于溯源信息大小是线性时间,在溯源信息的跟踪和优化方面均不会产生巨大的开销.这一框架是数据溯源研究的一个新思路,有着广泛的应用前景. Modern data management has to deal with data from different sources with different quality,therefore,supporting data provenance in the system level and allowing users to know where data comes from and how it was derived have become a critical research topic.Annotation is one of approaches to track provenance.However,storing fine-grained annotations can be expensive as the complete annotations for the data may outsize the storage space required for the data itself.In this paper,we propose a framework for storing provenance information relating to data derived via relational queries,using provenance trees which match the query structure to avoid redundant storage of information about the derivation process.Within this framework,we come up with a series of storage optimization methods against the relational queries to make good choices of query tree nodes where provenance information should be stored.Our optimization algorithms run in time polynomial in the query size and linear in the size of the provenance,thus enabling provenance tracking and optimization without incurring large overheads.This framework is a new idea for the data tracing study and has a wide range of applications.

作者王黎维鲍芝峰 KOEHLER Henning 周晓方 SADIQ Shazia

机构地区武汉大学国际软件学院新加坡国立大学计算机学院昆士兰大学信息技术与电子工程学院数据工程与知识工程教育部重点实验室(中国人民大学)

出处《计算机学报》 EI CSCD 北大核心 2011年第10期1863-1875,共13页 Chinese Journal of Computers

基金教育部博士点新教师基金(200804861067) 澳洲研究院(ARC)项目基金(LP0882957)资助~~

关键词溯源树溯源表存储优化最优削剪规则I&II削剪 provenance tree provenance table storage optimization optimal reduction rules I＆II reduction

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献30

1周晓方.数据质量-现代数据库与信息系统研究的一个核心问题[J].中国计算机协会通讯,2009,5(2):49-51. 被引量：1
2Bose R, Frew J. Lineage retrieval for scientific data processing: A survey. ACM Computing Surveys, 2005, 37(1): 1 -28. 被引量：1
3王昌桂闫德齐赵应成.酒西盆地油气分布与富集规律[M],中国油盆地油气聚集分布规律[M].北京:石油工业出版社,1991.. 被引量：2
4Stahl W J.Carbon and nitrogen isotopes in hydrocarbon research and exploration [J ].Chemical Geology,1977,20 (2):121-149. 被引量：2
5Schoell M.Multiple origins of methane in the Earth [J].Chemical Geology,1988,71:1-10. 被引量：2
6Buneman P, Khanna S,Tan W C. Why and where: A char acterization of data provenance//Proceedings of the ICDT. London, UK, 2001:316-330. 被引量：1
7Chapman A, Jagadish H V, Ramanan P. Efficienl prove nance storage//Proceedings of the SIGMOD Conference. Vancouver, BC, Canada, 2008:993- 1006. 被引量：1
8Woodruff A, Stonebraker M. Supporling fine grained data lineage in a database visualization environment//Proceedings of thelCDE. Birmingham, UK, 1997:91 -102. 被引量：1
9Cui Y, Widom J. Practical lineage tracing in data warehnu ses//Proceedings of the ICDE. San Diego, CA, USA, 2000: 367 378. 被引量：1
10Bhagwat D, Chiticariu L, Tan W C, Vijayvargiya G. An an notation management system for relational databases,//Proceedings of the VLDB. Toronto, Canada, 2004:900-911. 被引量：1

共引文献1

1高波,程克明,熊英,杨智明.酒西坳陷天然气的地球化学特征及成因[J].新疆石油地质,2004,25(3):259-261. 被引量：1

同被引文献97

1熊本海,傅润亭,林兆辉,罗清尧,杨亮.散养模式下猪只个体标识及溯源体系的建立[J].农业工程学报,2009,25(3):98-102. 被引量：21
2张欣露,王成,吴勇,乔晓军,侯瑞锋,王开义.集成传感器电子标签在农产品溯源体系中的应用[J].农业机械学报,2009,40(S1):129-133. 被引量：27
3刘喜平,万常选.数据起源研究综述[J].科技广场,2005(1):47-52. 被引量：13
4http://www.digitalpreservation.gov. 被引量：1
5Ram S, Liu J. A new perspective on semantics of data provenance [ EB/OL ]. [ 2015 - 03 - O1 ]. http ://citeseerx. ist. psu. edu/view- doc/download? doi = 10,1,1. 154. 8485&rep = repl&type = pdf. 被引量：1
6Plale B, Gannon D, Simmhan Y L. A survey of data provenance techniques [ EB/OL ]. [ 2015 - 03 - 01]. http://citeseerx, ist. psu. edu/viewdoc/summary? doi = 10,1. I. 70. 6294. 被引量：1
7Simmhan Y L, Plale B, Gannon D. A survey of data provenance techniques[ J]. Computer Science Department, 2005,34 (3) : 31 -36. 被引量：1
8祝彝.数字信息长期保存中来源感知技术的研究[D].武汉华中科技大学,2013. 被引量：1
9CCSDS 650.0 - NI - 2, Reference model for an open archival infor- mation system(OAIS) [ S]. Washington : CCSDS ,2012. 被引量：1
10PREMIS data dictionary for preservation metadata, version 2.0 [ EB/OL ]. [ 2015 - 03 - 01 ]. http://www, loc. gov/standards/ premis/v2/premis - 2 - 0. pdf. 被引量：1

引证文献6

1王芳,赵洪.数据溯源研究与实践进展[J].情报学进展,2020(1):313-353. 被引量：9
2李法勇.从知识生长谈知识发展脉络研究[J].情报理论与实践,2012,35(12):19-21. 被引量：2
3虞丽娟,杨劲松,凌培亮,曹守启,成永旭,王春,夏俊.基于物联网智慧服务的中华绒螯蟹蟹种质量动态追溯系统研究[J].水产学报,2013,37(8):1262-1269. 被引量：11
4吴振新,李文燕.起源技术在长期保存中的应用与研究[J].图书情报工作,2015,59(8):118-125. 被引量：5
5王芳,赵洪,马嘉悦,李晓阳,张晓玥.数据科学视角下数据溯源研究与实践进展[J].中国图书馆学报,2019,45(5):79-100. 被引量：41
6王晓庆,孙战伟,吴军红,杜自然,钱城江.基于数据要素流通视角的数据溯源研究进展[J].数据分析与知识发现,2022,6(1):43-54. 被引量：12

二级引证文献75

1王芳,赵洪.数据溯源研究与实践进展[J].情报学进展,2020(1):313-353. 被引量：9
2李法勇,真溱,汤珊红.迭代思维在知识服务产品化中的运用[J].情报理论与实践,2014,37(7):11-13. 被引量：15
3刘潇潇.基于RFID/Ecode物联网的食品供应链单品追溯管理系统研究[J].安徽农业科学,2015,43(2):359-362. 被引量：3
4林洪,李梦哲,米娜莎.我国水产品质量安全监管技术新动向[J].食品安全质量检测学报,2016,7(3):1018-1023.
5吴振新,李文燕,蒋世银.构建以事件为核心的长期保存系统起源管理框架[J].图书情报工作,2016,60(6):91-96. 被引量：6
6林芳芳,赵辉.数据溯源模型与DC元数据的映射研究[J].数字图书馆论坛,2016(3):10-16. 被引量：3
7陈小江.水产物联网应用系统与问题分析[J].农村经济与科技,2016,27(16):57-57.
8掌晓峰,虞丽娟,毛文武,陈成明,夏俊.基于Zigbee网络的中华绒螯蟹养殖中溶氧量智能控制系统研究与应用[J].上海海洋大学学报,2016,25(6):866-872. 被引量：8
9黄新平.基于数据起源技术的政府网站信息长期保存研究[J].新世纪图书馆,2017(3):42-45.
10刘浩然,刘新亮,袁言.刺参制品质量安全追溯系统设计与实现[J].农业现代化研究,2017,38(5):869-876. 被引量：2

1纪佩宇,陈俊,谢新,李千目.大规模传感网数据溯源技术研究[J].苏州科技学院学报（自然科学版）,2013,30(4):55-59. 被引量：1
2邓仲华,容益芳.一种分层次的数据溯源安全模型[J].图书馆学研究,2016(20):36-41. 被引量：9
3朱光,杨嘉韵,丰米宁,陈叶.问责情境下的大数据隐私溯源框架研究[J].图书馆学研究,2016(13):67-73. 被引量：6
4刘兵,徐建良.基于PROV的大洋样品数据溯源[J].微型机与应用,2016,35(16):26-28.
5崔丽华.SD-6000多源数据处理方法[J].广西电力,2006,29(4):47-48.
6靳永超,吴怀谷.基于Neo4j处理大数据中元数据溯源的研究[J].现代计算机（中旬刊）,2015(3):61-64. 被引量：3
7刘胜娃,李卫,王敏,高翔.钻井生产现场移动数据交互系统的设计与实现[J].现代电子技术,2015,38(17):38-40. 被引量：1
8朱光,张薇薇,朱晓东.基于数据溯源和RDF语义的群体协作信任模型研究[J].情报理论与实践,2015,38(10):122-126. 被引量：4
9倪静,孟宪学.PROV数据溯源模型及Web应用[J].图书情报工作,2014,58(3):13-19. 被引量：17
10李斌,王艺霏,裴继升,叶晓俊.基于溯源数据的业务流程合规性检测[J].清华大学学报（自然科学版）,2013,53(12):1768-1776. 被引量：3

计算机学报

2011年第10期

浏览历史

内容加载中请稍等...

一种优化关系型溯源信息存储的新方法被引量：6

参考文献30

共引文献1

同被引文献97

引证文献6

二级引证文献75

相关作者

相关机构

相关主题

浏览历史

一种优化关系型溯源信息存储的新方法 被引量：6

参考文献30

共引文献1

同被引文献97

引证文献6

二级引证文献75

相关作者

相关机构

相关主题

浏览历史

一种优化关系型溯源信息存储的新方法被引量：6