一种优化的分布式系统的失效恢复策略被引量：2

LOW OVERHEAD CHECKPOINTING AND ROLLBACK RECOVERY IN DISTRIBUTED COMPUTING SYSTEMS

下载PDF

导出

摘要本文对确定性进程组成的分布式系统的失效（包括处理机崩溃和进程出错）恢复策略做了深入的研究，独到地提出了应用数据流分析来静态地计算进程的最小备查点数据集的方法．从而允许每个备查点操作只需对那些充分必要的数据进行合法性检测与备份，这种方法使引入的备查点操作的附加时空消耗降到最低．本文还对因进程通信所产生的备查点间隔的依赖关系做了深入讨论，得出了进程错误的最大可能影响范围定理及出错后系统一致性状态的构造定理，从而可以把错误对整个系统的影响限制在一个可控的最小范围内，这不仅可减小因错误而造成的计算损失，而且将直接降低失效恢复过程中的通信开销．在理论分析之后，我们给出了相应的异步备查点与卷回算法，最后通过比较得出本文的算法在空间性能上优越于已发表的几个具有代表性的算法．本文提出的理论及其算法可以应用于以有限自动机为模型的分布式系统的容错设计方法中． In this paper, a deep study on failure recovery strategy for distributed systems comprising of deterministic processes is given. A new DFA based method to compute statically the minimal checkpointing data set is presented, so that only those necessary data would be checked and backupped into stable storage, which makes the overhead of both time and space of out strategy to be minimal. Besides, this paper also discusses the dependency between the checkpointing intervals of the processes, and gives the theorems about the maximal possible effecting range and consistent global checkpoints. By applying these theorems, the affection of an error can be limited into a small controlled set of processes, which in turn leads to less computation loss and communication overhead upon appearance of processor crash or process error. Based on these theorems, the data structure and the corresponding asynchronous algorithm are presented. At last, a comparison on the algorithm and some other existing algorithms with respect to their space overhead is resulted. The strategy presented in this paper can be applied widely in various distributed systems in which the processes can be modeled by the Extended Finite State Machine.

作者刘云龙陈俊亮

机构地区北京邮电大学程控交换与通信网国家重点实验室

出处《计算机学报》 EI CSCD 北大核心 1999年第3期249-257,共9页 Chinese Journal of Computers

关键词分布式系统容错备查点卷回进程 Distributed systems, fault tolerance, checkpointing and rollback, data flow analysis, dependency between checkpointing intervals.

分类号 TP338.802 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1刘云龙，北京邮电大学国家重点实验室内部技术报告，1997年被引量：1
2Wang Yiming，IEEE Trans Comput，1997年，46卷，4期，456页被引量：1
3Chiu Geming，IEEE Trans Parallel Distributed Systems，1996年，7卷，6期，565页被引量：1
4陈火旺，编译原理（第2版），1984年被引量：1

同被引文献9

1黄志军,曾斌,赵皑.面向修复的计算技术分析[J].计算机工程与应用,2004,40(17):85-88. 被引量：3
2任怡,吴泉源,贾焰.一种层次式的事务工作流失效恢复算法[J].电子学报,2005,33(2):317-321. 被引量：9
3旷海蓉,董歆奕,尤晋元.时间服务的设计[J].计算机科学,1998,25(6):99-102. 被引量：6
4印杰,江建慧.复杂失效分布下的动态检查点设置[J].小型微型计算机系统,2010,31(4):715-721. 被引量：2
5贺鹏,曾维鲁.电厂数据采集与监控系统的时间同步技术[J].华北电力大学学报（自然科学版）,2000,27(3):42-45. 被引量：12
6向运飞,刘旺开,沈为群.多线程技术在计算机测控系统中的应用研究[J].计算机应用研究,2002,19(9):112-114. 被引量：23
7王利华,李青侠.基于TCP/IP协议的远程配置与监控系统[J].计算机与现代化,2003(1):18-21. 被引量：5
8张秀忠,贺鹏,张季珍,桑润玲.卫星时间服务试验与展望[J].陕西天文台台刊,1992,15(2):200-207. 被引量：5
9林才彪,李磊.基于动作推导引擎下的故障检测方法[J].计算机科学,2004,31(2):188-192. 被引量：1

引证文献2

1李伟超,李志刚,杨旭海.VSAT数据采集处理系统中的时间同步技术[J].电子测量与仪器学报,2008,22(S2):149-152. 被引量：1
2郑业青,王慧强,冯光升,吕宏武,林俊宇.一种基于操作增量的分布式系统悔改方法[J].小型微型计算机系统,2011,32(12):2430-2433.

二级引证文献1

1陈超.VSAT卫星多频段通信系统技术浅探[J].江苏科技信息（学术研究）,2012(7):106-108.

1刘云龙,陈俊亮.一种新的软件容错方法及应用[J].北京邮电大学学报,1998,21(1):23-28. 被引量：3
2陆圣超,霍仁村.进程组和组通信的分类和需求[J].抗恶劣环境计算机,1991(1):9-19.
3贺杰.MPI的点对点通讯详解[J].微计算机信息,2012,28(1):116-117.
4邹永贵.数据库恢复系统的设计[J].重庆邮电学院学报（自然科学版）,1998,10(4):42-47.
5文梅,李宏亮,张春元,范金鹏,吴涛,王志英.分布式系统故障卷回恢复技术研究与实践[J].计算机工程与科学,2000,22(5):52-55. 被引量：3
6湖南一考生.标准,你为何如此重要?[J].美文（青春写作）,2016,0(8):13-14.
7崔丽青,徐炜民.MPI容错机制的研究[J].计算机工程,2004,30(16):88-90. 被引量：4
8臧雪柏,赵海英,吴洋,李雄飞.网格数据库事务处理模型[J].吉林大学学报（工学版）,2010,40(6):1668-1672.
9沙丽杰,武秀川,韦鵷.分布式系统检查点算法中程序卷回时文件系统的状态恢复[J].计算机工程与应用,2002,38(17):131-134. 被引量：4
10许再越.分布式系统中卷回技术综述[J].计算机工程,1993,19(4):29-34. 被引量：1

计算机学报

1999年第3期

浏览历史

内容加载中请稍等...

一种优化的分布式系统的失效恢复策略被引量：2

参考文献4

同被引文献9

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种优化的分布式系统的失效恢复策略 被引量：2

参考文献4

同被引文献9

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种优化的分布式系统的失效恢复策略被引量：2