-
题名基于Hadoop处理小文件的优化策略
被引量:6
- 1
-
-
作者
左大鹏
徐薇
-
机构
北京交通大学计算机与信息技术学院
-
出处
《软件》
2015年第2期107-111,共5页
-
文摘
HDFS(Hadoop Distributed File System)作为开源系统广泛地适用于各类存储服务中,具有高容错,易扩展,廉价存储等特点。然而,HDFS基于单一的服务器Name Node来处理元数据信息管理,当处理海量小文件时会造成Name Node内存过分消耗以及存储和读取性能并不理想,使Name Node成为系统瓶颈。本文提出一种基于HAR(Hadoop Archive)的优化机制来提高Name Node存储元数据信息的内存利用效率和提高读取小文件的访问效率。另外,该策略也扩展了HAR文件追加的优化和为提高访问效率采用索引预取机制。实验结果表明该优化策略能够提高现有HAR处理小文件的能力和访问海量小文件的效率。
-
关键词
HDFS
小文件
HAR
索引策略
索引预取
-
Keywords
HDFS
Small files
HAR
index strategy
index preload
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Hadoop的海量统计小文件存取优化方案
被引量:2
- 2
-
-
作者
付红阁
姜华
张怀锋
-
机构
聊城大学计算机学院
山东省统计局数据管理中心
-
出处
《聊城大学学报(自然科学版)》
2016年第1期102-106,共5页
-
基金
山东省统计科研重点课题(KT15076)
山东省高校智能信息处理与网络安全重点实验室(聊城大学)
聊城大学科研基金项目资助
-
文摘
Hadoop作为一个开源的并行计算框架,它提供了一个分布式的文件存储系统HDFS.然而,当处理海量小文件时会产生NameNode内存使用率较高、存取性能并不理想的问题,导致NameNode成为系统瓶颈,从而制约了文件系统的可扩展性.本文结合统计工作,提出了一种小文件存储的优化策略,在HDFS之上增加小文件预处理模块将文件进行分类,合并成Mapfile,并建立全局索引,另外该策略引入了索引预取机制和缓存机制.实验证明,该方法能有效提高大批量小文件的存取性能.
-
关键词
HDFS
小文件
预处理模块
索引预取
缓存机制
-
Keywords
HDFS, small file, preprocessing module, index mechanism, caching mechanism
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-