-
题名基于分布式数据仓库的分类分析研究
被引量:10
- 1
-
-
作者
李伟卫
李梅
张阳
申爱丽
-
机构
西北农林科技大学信息工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2013年第10期2936-2939,2943,共5页
-
基金
国家自然科学基金资助项目(60873196)
中央高校基本科研业务费专项资金资助项目(QN2009092)
-
文摘
针对GAC-RDB分类算法只能应用于单机版数据仓库的局限性,为了能够更方便、快捷地在云计算平台上开展数据挖掘工作,基于分布式数据仓库HBase,结合GAC-RDB分类算法的实现机理,制定适合分布式平台的运行策略,使用原生HiveQL语言提出了一种分布式GAC-RDB分类算法。实验显示,随着集群中节点的不断增加,算法的运行时间稳步下降。结果表明,在保证算法准确率的前提下,分布式数据仓库能够有效提高GACRDB分类算法的扩展性和运行效率,相对于MapReduce框架,HiveQL语言降低了对数据挖掘从业人员的技术要求,更大程度地减少了算法的开发时间,为挖掘海量数据提供了新的解决方案。
-
关键词
数据挖掘
分布式数据仓库
分类分析
gac—rdb
HADOOP
HBASE
Hive
-
Keywords
data mining
distributed data warehouse
classification analysis
gac-rdb
Hadoop
HBase
Hive
-
分类号
TP316.4
[自动化与计算机技术—计算机软件与理论]
-