摘要
Hadoop集群作为流行的分布式大数据处理系统框架,得到了广泛应用。但若不能较好地解决其负载均衡问题,将无法充分发挥其高可靠性、高效性和高扩展性等特点。鉴于此,本文针对Hadoop体系的两大核心HDFS和MapReduce以及常用的组件Hive与HBase,从产生数据倾斜的原理进行分析,提出了有效的解决方案,以保障集群的负载均衡和保证集群的高效性。
Hadoop cluster is a popular distributed big data processing system framework.In the case of load balancing,it has high reliability,high efficiency and high scalability.For HDFS and MapReduce in Hadoop system,as well as hive and HBase,this paper analyzes the principle of data skew,and puts forward an effective solution.
作者
黄河清
林峰
HUANG Heqing;LIN Feng(Department of Information Technology Engineering,Fuzhou Polytechnic,Fuzhou,China,350108)
出处
《福建电脑》
2021年第7期36-39,共4页
Journal of Fujian Computer
基金
福州职业技术学院校级科研项目(No.FZYKJJJB201901)资助。