期刊文献+

面向数据质量的ETL过程建模与实现 被引量:23

ETL Processes Modeling and Realization towards Data Quality
下载PDF
导出
摘要 为了给数据仓库提供高质量的数据,在数据装载到数据仓库之前必须经过数据的抽取-转换-装载(Extraction-Transformation-loading,ETL)这一系列的预处理工作。复杂性和可用性是制约ETL系统的两大基本问题。为解决这些问题,给出了ETL过程统一的体系结构设计,包括ETL元数据对象建模、ETL转换函数设计、ETL任务建模以及ETL任务模型的描述语言(XTDL)。基于该体系结构和设计思想开发出一个ETL系统—MSETL,目的是为多策略数据挖掘平台(MSMiner)提供高质量的数据。它提供友好界面并对ETL过程进行统一的元数据管理,包括:ETL转换函数的注册和删除;任务模型的生成、执行和删除等功能。 To help data warehouse getting high-quality data, data preprocess is needed. Extraction-Transformation-Loading(ETL)tools can finish this work. Complexity and usability are the primary problems concerning the ETL tools. To deal with these problems we provide a uniform architecture design for ETL processes which covers the aspects of metadata pertinent to ETL modeling, ETL transformation function design, modeling of ETL tasks, and the description language of ETL task model (XTDL). According to this idea of design, we developed an ETL tool named MSETL, aiming to provide the high-quality data for our multi-strategy data mining platform (MSMiner), which provides the friendly interface to manage the metadata of ETL processes, including login and deleting of ETL transformation functions, constructing and deleting the tasks, and browsing the result of execution of task.
出处 《系统仿真学报》 CAS CSCD 2004年第5期907-911,914,共6页 Journal of System Simulation
基金 国家自然科学基金(60173017 90104021) 北京自然科学基金(4011003)
关键词 数据仓库 数据质量 抽取-转换-装载(ETL) 数据挖掘 数据清洗 data warehouse data quality extraction-transformation-loading (ETL) data mining data cleaning
  • 相关文献

参考文献12

  • 1Panos Vassiliadis, Zografoula Vagena, Spiros Skiadopoulos, Nikos Karayannidis, Timos Sellis. ARKTOS: towards the modeling, design, control and execution of ETL processes[J]. Infornation Systems, 2001, 26(8):537-561. 被引量:2
  • 2R.Y. Wang, V.c. Storey, C.P. Firth, A framework for analysis of data quality research[J]. IEEE Transactions on Knowledge and Data Engineering, 1995, 7(4): 623-640. 被引量:2
  • 3H. Galhardas, D. Florescu, D. Shasha, E. Simon. AJAX: an extensible data cleaning tool[A] in Proceeding of the ACM SIGMOD International Conference on the Management of Data[C]. Dallas: TX, 2000. 被引量:1
  • 4V. Borkar, K. Deshmuck, S. Sarawagi, Automatically extracting structure from free text addresses [J]. Bull. Techn. Committee Data Engineering, 2000, 23 (4): 27-32. 被引量:1
  • 5V. Raman, J. Hellerstein, Potters wheel: an interactive framework for data cleaning and transformation[R], Technical Report, University of California at Berkeley, Computer Science Division, 2000. 被引量:1
  • 6J. M. Hellerstein, M. Stonebraker, R. Caccia. Independent, open enterprise data integration [J]. Bull. Techn. Committee Data Engineering, 1999, 22 (1): 31-36. 被引量:1
  • 7M. Jarke, M.A. Jeusfeld, C. Quix, P. Vassiliadis. Architecture and quality in data warehouses: an extended repository approach[J]. Information Systems, 1999, 24 (3) : 229-253. 被引量:1
  • 8P. Vassiliadis, M. Bouzeghoub, C. Quix. Towards quality-oriented data warehouse usage and evolution[J], Information Systems, 2000, 25 (2) : 89-115. 被引量:1
  • 9P. Vassiliadis, C. Quix, Y. Vassiliou, A model for data warehouse operational processes[C], Proceedings of the 12th Conference on Advanced Information Systems Engineering (CaiSE'00), Stockholm, Sweden, 2000. 被引量:1
  • 10史忠植著..知识发现[M].北京:清华大学出版社,2002:402.

二级参考文献14

  • 1史忠植.高级人工智能[M].北京:科学出版社,1997.60-100. 被引量:31
  • 2王军.数据库知识发现的研究:博士论文[M].北京:中国科学院软件研究所,1997.. 被引量:1
  • 3谭宁.面向对象知识处理系统:硕士论文[M].合肥:中国科学技术大学,1999.. 被引量:1
  • 4(英)Harjinder S Gill 王仲谋(译).数据仓库-客户/服务器计算指南[M].北京:清华大学出版社,1997.. 被引量:1
  • 5张颖.数据采掘的研究与应用:博士论文[M].北京:中国科学院计算技术研究所,1999.. 被引量:1
  • 6史忠植,高级人工智能,1997年 被引量:1
  • 7王仲谋(译),数据仓库—客户/服务器计算指南,1997年 被引量:1
  • 8Han J,SIGMOD'96 Workshop on Research Issues Data Mining Knowledge Discovery(DMKD'96),1996年,27页 被引量:1
  • 9张颖,博士论文,1999年 被引量:1
  • 10谭宁,硕士论文,1999年 被引量:1

共引文献8

同被引文献160

引证文献23

二级引证文献109

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部