期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于统计方法的Hive数据仓库查询优化实现 被引量:16
1
作者 王有为 王伟平 孟丹 《计算机研究与发展》 EI CSCD 北大核心 2015年第6期1452-1462,共11页
Map/Reduce是海量离线数据分析中广泛应用的并行编程模型。Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题。均衡计算模型(computation balanced model,CBM),其核心... Map/Reduce是海量离线数据分析中广泛应用的并行编程模型。Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题。均衡计算模型(computation balanced model,CBM),其核心思想是通过数据分布特征指导查询计划优化。相应研究贡献包括2部分,首先针对应用极广的GroupBy查询和Join查询建立了运行估价模型,确定了不同场景下查询计划的优化选择分支;其次基于Hive ETL机制设计了一种统计信息收集方法,解决了统计海量数据分布特征的问题。实验数据表明,通过CBM优化的GroupBy查询耗时节省了8%~45%,Join查询耗时节省了12%~46%;集群CPU负载均衡指标优化了60%~80%,I/O负载均衡指标优化了60%~90%。实验结果证实了基于CBM模型优化的查询计划生成器能显著均衡化Hive查询运行时的集群负载,并优化了查询处理效率。 展开更多
关键词 海量数据离线处理 分布式数据仓库 负载均衡 统计信息收集 查询优化
下载PDF
基于分布式系统概念的分布式数据仓库 被引量:4
2
作者 洪龙 周宁宁 朱梧槚 《计算机应用研究》 CSCD 北大核心 2004年第4期183-185,共3页
以分布式系统的概念,描述了以主题分布为特点的分布式数据仓库,建立了节点主题处理原则,论述了此种分布式数据仓库的特点,并与Inmon先生描述的分布式数据仓库进行了特征比较。此外,还简要地分析了节点仓库与数据集市的异同,构建分布式... 以分布式系统的概念,描述了以主题分布为特点的分布式数据仓库,建立了节点主题处理原则,论述了此种分布式数据仓库的特点,并与Inmon先生描述的分布式数据仓库进行了特征比较。此外,还简要地分析了节点仓库与数据集市的异同,构建分布式数据仓库的方法与费用,从而指出分布式数据仓库应用的乐观前景。 展开更多
关键词 分布式数据仓库 节点仓库 分布式系统 数据集市 节点主题处理原则
下载PDF
基于分布式数据仓库的分类分析研究 被引量:10
3
作者 李伟卫 李梅 +1 位作者 张阳 申爱丽 《计算机应用研究》 CSCD 北大核心 2013年第10期2936-2939,2943,共5页
针对GAC-RDB分类算法只能应用于单机版数据仓库的局限性,为了能够更方便、快捷地在云计算平台上开展数据挖掘工作,基于分布式数据仓库HBase,结合GAC-RDB分类算法的实现机理,制定适合分布式平台的运行策略,使用原生HiveQL语言提出了一种... 针对GAC-RDB分类算法只能应用于单机版数据仓库的局限性,为了能够更方便、快捷地在云计算平台上开展数据挖掘工作,基于分布式数据仓库HBase,结合GAC-RDB分类算法的实现机理,制定适合分布式平台的运行策略,使用原生HiveQL语言提出了一种分布式GAC-RDB分类算法。实验显示,随着集群中节点的不断增加,算法的运行时间稳步下降。结果表明,在保证算法准确率的前提下,分布式数据仓库能够有效提高GACRDB分类算法的扩展性和运行效率,相对于MapReduce框架,HiveQL语言降低了对数据挖掘从业人员的技术要求,更大程度地减少了算法的开发时间,为挖掘海量数据提供了新的解决方案。 展开更多
关键词 数据挖掘 分布式数据仓库 分类分析 GAC—RDB HADOOP HBASE Hive
下载PDF
基于分布式数据仓库技术的ETL系统的研究与应用 被引量:7
4
作者 花海洋 李一凡 赵怀慈 《微计算机信息》 北大核心 2006年第10X期144-146,209,共4页
ETL系统是构建和维护数据仓库的基本构件,由于要处理海量数据和访问各种异构数据源,如何同时具有高效的数据处理能力和通用的数据源访问能力是值得研究的问题。本文针对某银行数据仓库项目的实际需求,提出了基于分布式数据仓库的ETL系统... ETL系统是构建和维护数据仓库的基本构件,由于要处理海量数据和访问各种异构数据源,如何同时具有高效的数据处理能力和通用的数据源访问能力是值得研究的问题。本文针对某银行数据仓库项目的实际需求,提出了基于分布式数据仓库的ETL系统,并使用了XML技术实现异构数据源的通用接口访问方式。系统运行表明该解决方案具有好的使用效果。 展开更多
关键词 ETL 分布式数据仓库 数据挖掘
下载PDF
基于Web的分布式数据仓库体系结构的研究 被引量:3
5
作者 关文革 武强 +1 位作者 安海忠 硕良勋 《计算机应用研究》 CSCD 北大核心 2004年第6期64-66,共3页
随着数据仓库技术的发展 ,人们对数据仓库体系结构研究的兴趣越来越浓厚 ,数据仓库体系结构选取是否合理 ,将直接关系到整个数据仓库的成败。在分析客户机、服务器数据仓库体系结构的基础上 ,将XML、智能Agent技术引入到数据仓库中 。
关键词 WEB 分布式数据仓库 体系结构 XML 智能AGENT
下载PDF
基于数据仓库的军事后勤决策支持系统研究 被引量:4
6
作者 郭和伟 孙德宝 +1 位作者 秦元庆 冀亚林 《系统工程与电子技术》 EI CSCD 北大核心 2003年第6期763-766,共4页
针对以往军事后勤决策支持系统 (decisionsupportsystem ,DSS)在管理上的不足 ,提出了基于数据仓库的军事后勤决策支持系统 (DSS)。给出了数据仓库的概念以及在线事务处理 (onlinetransactionprocessing,OLTP)与在线分析处理 (onlineana... 针对以往军事后勤决策支持系统 (decisionsupportsystem ,DSS)在管理上的不足 ,提出了基于数据仓库的军事后勤决策支持系统 (DSS)。给出了数据仓库的概念以及在线事务处理 (onlinetransactionprocessing,OLTP)与在线分析处理 (onlineanalysisprocessing ,OLAP)的区别与联系。构建了军事后勤DSS的应用体系结构 ,对各部分的功能作了介绍 ,设计了军事后勤数据仓库和数据集市的初步框架以及用分布式数据库和分布式数据仓库实现整个后勤数据仓库的构想 。 展开更多
关键词 军事后勤 决策支持系统 数据集市 分布式数据仓库
下载PDF
基于分布式数据仓库的海洋动力环境立体监测信息服务研究 被引量:5
7
作者 樊明辉 杨殿生 +1 位作者 陈崇成 池天河 《仪器仪表学报》 EI CAS CSCD 北大核心 2007年第9期1706-1711,共6页
本文以海洋动力环境立体监测数据仓库及服务系统(MDSS)为例论述了一个贯穿数据层、信息层和服务层的多层次信息流平台,在数据层,设计了一个集成与应用众多监测平台的分布式数据仓库系统,在信息层,给出了信息共享的网络发布方案,在服务层... 本文以海洋动力环境立体监测数据仓库及服务系统(MDSS)为例论述了一个贯穿数据层、信息层和服务层的多层次信息流平台,在数据层,设计了一个集成与应用众多监测平台的分布式数据仓库系统,在信息层,给出了信息共享的网络发布方案,在服务层,为了满足不同层次的需要设计实现了数据级和分析级两个级别的信息服务并对其进行了详尽的分析,最后给出了系统实现的典型界面和一个地波雷达数据分析的实例。 展开更多
关键词 集成 分布式数据仓库 信息共享 信息服务
下载PDF
省级森林资源动态监测分布式数据仓库的初步研究 被引量:5
8
作者 杨卫民 谭骏珊 《林业科技》 北大核心 2007年第2期12-14,共3页
针对省级数字林业信息化建设中涉及到的森林资源管理和决策支持等问题,提出了建立全省范围的森林资源分布式数据仓库的方案,给出了它的体系结构并探讨了该方案中的关键技术,包括元数据的分布、数据抽取和联机分析处理等。
关键词 分布式数据仓库 决策支持 信息管理 联机分析处理
下载PDF
基于大数据的高校教务域数仓应用研究
9
作者 何海涛 杨敏 《中国科技论文》 CAS 2024年第7期812-819,共8页
针对当前业界大数据方法论的实践对高校场景化业务支撑有限、大数据视角的教育数据价值未能得到有效挖掘利用的问题,探索高校数据仓库建设方法路径。以构建可持续迭代的智慧校园数字基础设施为目标,以大数据维度建模方法论为基础,结合... 针对当前业界大数据方法论的实践对高校场景化业务支撑有限、大数据视角的教育数据价值未能得到有效挖掘利用的问题,探索高校数据仓库建设方法路径。以构建可持续迭代的智慧校园数字基础设施为目标,以大数据维度建模方法论为基础,结合高校数据自身的特点,以教务域数仓的建设为例,通过深入了解源业务系统、丰富数仓建模知识,总结出了一套对高校来说切实可行的建模思路和方法论,其创新性主要体现在数据整合、标准化数据管理、建模方法和建设方式等方面。该方法为发掘数据价值、促进校级能力整合、推动高校实现数字化转型提供了基本保障。 展开更多
关键词 智慧校园 数字化转型 分布式数据仓库 维度建模 教务域
下载PDF
分布式ETL负载均衡策略研究 被引量:1
10
作者 张亮 夏秀峰 《计算机与现代化》 2011年第9期201-204,共4页
在分析分布式ETL中负载均衡重要性的基础上,针对传统ETL应用于分布式数据仓库中效率低的缺陷,提出一种根据ETL节点所抽取的数据类型不同对分布式ETL节点抽取的数据进行分割的策略,以及一种新的负载均衡模型—链网模型和Routers相结合的R... 在分析分布式ETL中负载均衡重要性的基础上,针对传统ETL应用于分布式数据仓库中效率低的缺陷,提出一种根据ETL节点所抽取的数据类型不同对分布式ETL节点抽取的数据进行分割的策略,以及一种新的负载均衡模型—链网模型和Routers相结合的R-CN模型。在此基础上提出一种基于ETL数据分片和R-CN模型相结合的分布式ETL节点负载调度和均衡策略。此策略使ETL节点的数据处理能力有了很大的提高,有效地提高了分布式ETL的效率。 展开更多
关键词 分布式数据仓库 ETL 数据分割 负载均衡
下载PDF
集团企业分布式数据仓库构建 被引量:1
11
作者 陈建辉 聂荣 《现代情报》 北大核心 2008年第7期200-202,共3页
面对集团企业需要分布式数据管理和多层次决策支持的问题,文中给出一种满足集团企业需要的分布式数据仓库构建方案。文章首先介绍了分布式数据仓库的概念,然后说明了分布式数据仓库在集团企业中应用的优势,最后给出了面向集团企业的分... 面对集团企业需要分布式数据管理和多层次决策支持的问题,文中给出一种满足集团企业需要的分布式数据仓库构建方案。文章首先介绍了分布式数据仓库的概念,然后说明了分布式数据仓库在集团企业中应用的优势,最后给出了面向集团企业的分布式数据仓库系统的总体框架和系统结构。 展开更多
关键词 分布式数据仓库 集团企业 决策支持系统
下载PDF
一种基于分布式数据仓库的文件集快速更新算法 被引量:1
12
作者 于宝琴 王太勇 +2 位作者 何改云 李国琴 王双利 《制造业自动化》 北大核心 2005年第10期13-16,共4页
异构数据源整合是企业数据共享的前提,而高效的数据更新不仅节约系统开销还能提供实时数据。在分布式数据仓库的数据预处理区快速更新变动的数据是一个非常重要的热点问题,利用增量文件集的快速更新算法进行ETL设计可以加快数据更新的速... 异构数据源整合是企业数据共享的前提,而高效的数据更新不仅节约系统开销还能提供实时数据。在分布式数据仓库的数据预处理区快速更新变动的数据是一个非常重要的热点问题,利用增量文件集的快速更新算法进行ETL设计可以加快数据更新的速度,消除异构数据模式的不一致和语义冲突问题,成套电器集团公司的成功应用证明了该算法的有效性。 展开更多
关键词 分布式数据仓库 cliff-matoh算法 增量更新 文件集 ETL
下载PDF
“大数据”背景下的分布式数据仓库探讨 被引量:1
13
作者 吴鹏 杨丽 《互联网天地》 2013年第6期53-56,共4页
随着大数据时代的到来,基于海量用户的行为数据提供特定用户群落的、移动轨迹分布的数据可视化操作、创新的数据服务可以应用于各个领域,运营商抓住机遇将成为跨行业的创新信息服务提供商。分布式数据仓库的优势是对海量数据进行分析和... 随着大数据时代的到来,基于海量用户的行为数据提供特定用户群落的、移动轨迹分布的数据可视化操作、创新的数据服务可以应用于各个领域,运营商抓住机遇将成为跨行业的创新信息服务提供商。分布式数据仓库的优势是对海量数据进行分析和处理,对分布式数据仓库原理、架构及关键技术的简要分析并提出应用建议。 展开更多
关键词 分布式数据仓库 对称多处理 大规模并行处理 结构化
原文传递
基于分布式数据仓库动态增量视图维护的研究 被引量:1
14
作者 刘鲲 夏秀峰 张亮 《沈阳航空工业学院学报》 2009年第1期56-59,共4页
分布式数据仓库分为局部/全局数据仓库、技术分布式数据仓库和独立演进的分布式数据仓库三种类型。分析了视图脱机维护和联机维护存在的不足,根据三种类型分布式数据仓库给出了动态增量视图维护的模型及方法。
关键词 分布式数据仓库 实视图 增量视图维护
下载PDF
分布式数据仓库的一种聚集运算算法
15
作者 李强 王秀坤 +2 位作者 赫然 孟凡辉 唐一源 《计算机工程》 CAS CSCD 北大核心 2006年第4期91-93,共3页
考虑了分布式数据仓库的星型模式及数据分段的特点,在各站点对分组关键字进行编码压缩,并采用分布式聚集运算的方法,最后在请求站点生成完整的分组聚集结果,以降低站点内的排序费用,减少站点间传输的元组大小和数目,从而降低了站点内的... 考虑了分布式数据仓库的星型模式及数据分段的特点,在各站点对分组关键字进行编码压缩,并采用分布式聚集运算的方法,最后在请求站点生成完整的分组聚集结果,以降低站点内的排序费用,减少站点间传输的元组大小和数目,从而降低了站点内的处理代价和站点间的数据传输费用,提高了分布式数据仓库分组聚集运算的效率。 展开更多
关键词 分布式数据仓库 聚集运算 星型模式
下载PDF
一种改进的分布式ETL体系结构 被引量:5
16
作者 夏秀峰 张亮 +1 位作者 石祥滨 徐蕾 《计算机应用与软件》 CSCD 2010年第4期174-176,共3页
在分析了分布式数据仓库数据一致性维护的重要性,以及目前分布式ETL(Extract,transform and load)中存在问题的基础上,针对传统ETL体系结构对分布式数据仓库一致性维护的不足,提出一种新的分布式ETL的体系结构ETLM,并详细描述了数据一... 在分析了分布式数据仓库数据一致性维护的重要性,以及目前分布式ETL(Extract,transform and load)中存在问题的基础上,针对传统ETL体系结构对分布式数据仓库一致性维护的不足,提出一种新的分布式ETL的体系结构ETLM,并详细描述了数据一致性维护模块(M模块)的设计与实现。ETLM的体系结构免去了分布式数据仓库需要专门进行一致性维护的额外负担,可以更加正确、快捷、高效地支持OLAP。 展开更多
关键词 分布式ETL 体系结构 分布式数据仓库
下载PDF
大型商业银行基于Hadoop分布式数据仓库建设初探 被引量:3
17
作者 杨頲 韩路 +1 位作者 许勤 孙元浩 《计算机应用与软件》 2017年第8期72-75,113,共5页
商业银行的数据规模随着传统业务扩展和互联网发展水平的不断提高而与日俱增,使得银行对数据的存储、管理和应用要求越来越高。通过搭建基于Hadoop技术的大数据平台,利用分布式文件系统HDFS、SQL分析引擎Inceptor、Nosql数据库工具Hyper... 商业银行的数据规模随着传统业务扩展和互联网发展水平的不断提高而与日俱增,使得银行对数据的存储、管理和应用要求越来越高。通过搭建基于Hadoop技术的大数据平台,利用分布式文件系统HDFS、SQL分析引擎Inceptor、Nosql数据库工具Hyperbase、流处理工具Stream等架构,探索了大型商业银行Hadoop分布式数据仓库的构建过程,最终实现了由基于集中式存储架构的传统关系型数据仓库向分布式数据仓库的迁移工作。该分布式数据仓库实现了结构化数据和非结构化数据的存储、ETL调度管理、历史数据检索、交互式分析以及流数据处理。应用表明,相比基于集中式存储架构的传统关系型数据仓库,分布式数据仓库可大幅提高数据存储和数据服务的效率。 展开更多
关键词 分布式数据仓库 HADOOP 数据批处理 历史数据查询 交互式分析
下载PDF
基于分布式数据仓库的协同钻井信息共享平台的研究
18
作者 孙全红 燕敏 《计算机测量与控制》 北大核心 2013年第5期1317-1319,共3页
针对钻井信息管理和共享中出现的问题,结合数据仓库和Agent技术的优点,介绍采用数据仓库、Agent和计算机网络技术相结合实现信息共享的方法,并在此基础上提出了信息共享平台模型;此模型中,底层数据层采用分布式数据仓库来组织信息;以钻... 针对钻井信息管理和共享中出现的问题,结合数据仓库和Agent技术的优点,介绍采用数据仓库、Agent和计算机网络技术相结合实现信息共享的方法,并在此基础上提出了信息共享平台模型;此模型中,底层数据层采用分布式数据仓库来组织信息;以钻井液为主题,通过维度建模法创建了数据仓库模型,并提出协同查询流程,并通过多个Agent相互协作实现分布在不同地点、不同类型和不同结构信息的管理,同时借助于网络技术来实现对各种钻井信息的共享;结果表明,协同钻井信息共享平台模型的建立,能最大限度的发挥钻井中各种复杂信息的价值,对提高信息的共享度起到重要作用。 展开更多
关键词 协同钻井 分布式数据仓库 信息共享平台 协同查询
下载PDF
分布式空间数据仓库的构建与OLAP服务实现 被引量:1
19
作者 唐萍 《计算机与现代化》 2010年第5期44-46,共3页
介绍基于分布式数据库技术、网络通信技术、地理信息系统技术的空间数据仓库的设计方法。以福建省沿海地区遗迹保护区为例,搭建了一个分布式的空间数据仓库。在此基础上实现以地区行政级别、类型划分及保护区一般信息为维度的多粒度数... 介绍基于分布式数据库技术、网络通信技术、地理信息系统技术的空间数据仓库的设计方法。以福建省沿海地区遗迹保护区为例,搭建了一个分布式的空间数据仓库。在此基础上实现以地区行政级别、类型划分及保护区一般信息为维度的多粒度数据部署。并以本数据仓库为例,根据不同的空间联机分析(OLAP)服务请求,动态创建数据立方体,完成OLAP服务并返回空间OLAP结果。 展开更多
关键词 分布式空间数据仓库 数据立方体 OLAP
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部