Lustre文件系统元数据服务恢复机制的改进被引量：1

Improvement of Recovery Mechanism for Lustre Metadata Service

下载PDF

导出

摘要 Lustre的重启恢复算法需要集群中所有客户端在指定的恢复时间窗口内与服务器重新建立连接,客户端重传未提交的事务请求,服务器严格按照事务序列号重放所有未提交的事务,要求过于严格。针对Lustre可恢复性不强的缺点,提出了基于版本的恢复和共享时提交算法,它们分别对Lustre现有的元数据更新和恢复机制进行了改进和扩展,根据事务之间的依赖关系,允许客户端在更为宽松的条件下进行恢复并加入到集群而不被驱逐,提高了Lustre文件系统的可用性和可恢复性。最后通过一系列实验对改进后的算法的性能进行了评估。 Lustre reboot recovery algorithm needs that all clients reconnect to the server in a special recovery ttme win- dow, and then clients resend uncommitted transactional requests and the server replays these requests strictly in the transaction number order. The recovery conditions are too strict. To improve Lustre＇ s recoverability and availability, this paper proposed version based recovery and commit on share algorithms. They extend Lustre＇s metadata update al- gorithm and recovery algorithm respectively, and allow clients rejoin in the cluster by recovery under a more relaxed condition according to the dependence between transactions. At last, the performance of improved recovery algorithms was evaluated via a series of experiments.

作者钱迎进李永刚汪毅周琳琦

机构地区中国卫星海上测控部技术部

出处《计算机科学》 CSCD 北大核心 2015年第9期177-182,共6页 Computer Science

基金国家973计划资助项目(2009CB723803) 国家自然科学基金资助项目(60873120)资助

关键词 LUSTRE 高性能计算可恢复性可用性 Lustre, HPC, Recoverability, Availability

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1Patterson D.Availability and Maintainability >> Performance:New Focus for a New Century [EB/OL].http://usenix.org/events/fast02/patterson/sld001.htm. 被引量：1
2钱迎进..大规模Lustre集群文件系统关键技术的研究[D].国防科学技术大学,2011:
3李晖..基于日志的机群文件系统高可用关键技术研究[D].中国科学院计算技术研究所,2005:
4钱迎进,伊瑞海,肖侬,金士尧.Lustre文件系统元数据服务恢复机制研究[J].高性能计算技术,2013,0(6):10-16. 被引量：1
5Bhide A,Elnozahy E N,Morgan S P.A Highly Available Network File Server [C]∥Proceedings of the Usenix Winter 1991 Conference.Dallas,TX,USA:USENIX Association,1991:199-205. 被引量：1
6Devarakonda M,Kish B,Mohindra A.Recovery in the CalypsoFile System [J].ACM Transaction on Computer Systems,1996,14(3):287-310. 被引量：1
7Mogul J C.Recovery in Spritely NFS [J].Computing Systems,the Journal of the USENIX Association,Spring,1994,7(2):201-262. 被引量：1
8Baker M,Ousterhout J.Availability in the Sprite DistributedFile System [J].Operating Systems Review,1991,25(2):95-98. 被引量：1
9Welch B,Baker M,Douglis F,et al.Sprite Position Statement:Use Distributed State for failure Recovery [C]∥Proceeding of the Second Workshop on Workstation Operating System.Pacific Grove,CA,USA:IEEE Computer Society,1989:130-133. 被引量：1
10Baker M.Fast Crash Recovery in Distributed File Systems [D].California:University of California at Berkeley,1994:34-104. 被引量：1

二级参考文献32

1姚念民,舒继武,郑纬民.SAN中的分布式锁机制[J].计算机研究与发展,2005,42(2):338-343. 被引量：1
2Braam P J. Lustre: A Scable, High-Performance File Systme [M]. Lustre Whitepaper Version 1.0,2002. 被引量：1
3Davis R G. VAXcluster Principles[M]. Digital Equipment Corporation, 1993. 被引量：1
4Thomas K. Programming Locking Applications v. 4. 3. 1 [EB/OL]. [1999-05-08]. http: ffwww. 124. ibm. com/developerworks/oss/dlm/currentbook/dlmbook_index, html. 被引量：1
5Kistler J J, Satyanarayanan M. Disconnected Operation in the Coda File System[J]. ACM Trans on Computer Systems, 1992,10(1):3-25. 被引量：1
6Burns R C, Rees R M, Long D D E. Semi-Preemptible Locks for a Distributed File System[C]// Proc of 2000 Int'l Performance Computing and Communication Conf, 2000. 被引量：1
7Schmuck F, Haskin R. GPFS: A Shared-Disk File System for Large Computing Cluters[C]//Proc of Conf on File and Storage Technologies, 2002. 被引量：1
8Lustre file system:High-performance storage architecture and scalable cluster file system white paper[EB/OL].[2010-07-25].http: //www.sun.com/offers/details/LustreFileSystem.html. 被引量：1
9CIFS Oplock file locking[EB/OL].[2010-07-25].http://msdn.microsoft.com/en-us/library/dd327670.aspx. 被引量：1
10Devarakonda M, Kish B, Mohindra A.Recovery in the Calypso file system[J].ACM Transactions on Computer Systems, 1996, 14 (3):287-310. 被引量：1

共引文献11

1张在贵,张立强,李瑞东,文中领,张海涛.一种适用于集群文件系统分级存储的分布式锁设计与分析[J].计算机研究与发展,2012,49(S1):234-239. 被引量：2
2熊安萍,葛军,邹洋.Lustre文件系统中范围锁机制的应用研究[J].重庆邮电大学学报（自然科学版）,2011,23(2):242-246. 被引量：5
3金红琳,刘波.分布式锁的Petri网建模及死锁检测[J].计算机科学,2011,38(8):49-52. 被引量：3
4马艳军,吕爽,刘一谦.集群文件系统lustre的介绍及应用[J].科技信息,2012(5):139-140.
5朱小谦,孙超,孟祥飞,张保,冯景华.NEMO模式系统基于“天河一号”的存储性能分析与优化[J].计算机应用,2012,32(5):1411-1414. 被引量：1
6王巍,李旺.基于Lustre文件系统的MPI-IO编程接口改进[J].电子技术应用,2012,38(5):128-131. 被引量：1
7李林林,吴万国,孙良旭.并行文件系统Lustre细粒度I/O性能优化[J].计算机工程与应用,2012,48(17):88-92. 被引量：3
8宋龙,李延杰,韩锦宁.基于Lustre文件系统的分布式地理环境构建[J].地理空间信息,2015,13(2):73-75.
9钱迎进,伊瑞海,肖侬,金士尧.Lustre文件系统元数据服务恢复机制研究[J].高性能计算技术,2013,0(6):10-16. 被引量：1
10郝娉婷,胡亮,姜婧妍,车喜龙.基于多管理节点的乐观锁协议[J].吉林大学学报（工学版）,2017,47(1):227-234. 被引量：4

同被引文献9

1周江,王伟平,孟丹,马灿,古晓艳,蒋杰.面向大数据分析的分布式文件系统关键技术[J].计算机研究与发展,2014,51(2):382-394. 被引量：74
2孙耀,刘杰,叶丹,钟华.分布式文件系统元数据服务的负载均衡框架[J].软件学报,2016,27(12):3192-3207. 被引量：16
3张艳飞,王菁,韩燕波.基于数字指纹的智能终端缓存一致性技术的研究[J].小型微型计算机系统,2017,38(1):40-43. 被引量：4
4聂世强,伍卫国,张兴军,蔡毅,徐志伟.一种基于跳跃hash的对象分布算法[J].软件学报,2017,28(8):1929-1939. 被引量：7
5佘楚玉,温武少,肖扬,刘育擘,贾殷.一种自适应文件系统元数据服务负载均衡策略[J].软件学报,2017,28(8):1952-1967. 被引量：11
6罗圣美,陆游游,秦雄军,杨洪章,张佳程,舒继武.一种结合SSD特征的分布式文件系统元数据优化技术[J].小型微型计算机系统,2018,39(5):930-937. 被引量：7
7张晓娟,唐长乐.数字信息资源长期保存元数据技术研究进展[J].情报科学,2018,36(8):3-9. 被引量：11
8张光宇,应时,贾向阳,骆慧.元数据驱动的多样化服务的混合编排方法[J].计算机应用研究,2018,35(3):777-781. 被引量：3
9邢玉轩,肖侬,刘芳,付印金,李芳,巫小泉.一种基于历史信息的一致性Hash集群重复数据删除路由策略[J].计算机研究与发展,2014,51(S2):182-188. 被引量：2

引证文献1

1孙煜华.企业信息系统高质量元数据管理[J].计算机与数字工程,2019,47(3):593-597. 被引量：2

二级引证文献2

1余芸.基于一致性Hash的电力企业MDS集群高质量元数据管理模型[J].自动化技术与应用,2020,39(3):174-177. 被引量：6
2徐欢,陈彬,甘杉,马赟,张小波.海量数据分析平台元数据管理的设计研究[J].电子设计工程,2020,28(17):10-14. 被引量：2

1刘昊晨.Lustre设置优化分析[J].计算机光盘软件与应用,2012,15(20):71-72. 被引量：2
2梁军,谢文君.分布式文件系统Lustre的研究[J].信息技术,2014,38(4):52-54.
3宋振龙,李琼,徐炜瑕,李晋文,刘光明.面向高性能计算的混合存储系统设计与实现[J].上海交通大学学报,2013,47(1):113-117. 被引量：1
4王博,李先国,张晓.Lustre文件系统的性能优化研究[J].微型电脑应用,2011(5):31-33. 被引量：4
5李希,汪争,蒋金虎.MTFS：一种基于多副本的分布式存储系统可靠性增强方法[J].高性能计算技术,2012,0(4):41-48.
6钱迎进,伊瑞海,肖侬,金士尧.Lustre文件系统元数据服务恢复机制研究[J].高性能计算技术,2013,0(6):10-16. 被引量：1
7贺鹰.浅析Lustre的优化设置[J].中国科技博览,2016,0(14):260-260.
8熊安萍,葛军,邹洋.Lustre文件系统中范围锁机制的应用研究[J].重庆邮电大学学报（自然科学版）,2011,23(2):242-246. 被引量：5
9董守斌,赵铁柱.面向搜索引擎的分布式文件系统性能分析[J].华南理工大学学报（自然科学版）,2011,39(4):7-14. 被引量：12
10邓秋菊.基于JSP的简单图书借阅功能设计与实现[J].电脑知识与技术,2015,0(3):97-100. 被引量：1

计算机科学

2015年第9期

浏览历史

内容加载中请稍等...

Lustre文件系统元数据服务恢复机制的改进被引量：1

参考文献13

二级参考文献32

共引文献11

同被引文献9

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

Lustre文件系统元数据服务恢复机制的改进 被引量：1

参考文献13

二级参考文献32

共引文献11

同被引文献9

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

Lustre文件系统元数据服务恢复机制的改进被引量：1