系统管理自测32问之26：灾难恢复演习-系统灾难恢复

【51CTO精选译文】本文是《Limoncelli的测试：有助于提高系统管理员团队工作效率的32个问题》当中的第26题：有没有定期测试灾难恢复方案的制度或计划？

其实上一个章节有一点点误导。备份什么的其实并不重要，数据恢复才是我们的最终目的。

没人关心备份什么的，他们只在乎数据恢复效果。如果有人能搞出一套理论体系，帮我们无需事先备份就能搞定最终的恢复工作，我绝对尽我所能说服诺贝尔委员会创建年度系统管理员奖项，并头一个把它颁给他。

如果不进行测试，我们永远无法了解当前的备份机制是否有效。信任还不足以胜任备份工作，尽管我们的生活需要希望，但希望毕竟无法成为一种能够切实解决问题的“战略”。

一套完整的测试流程应该包括整体故障模拟以及全面恢复。

我们只有在真正尝试一次之后才会知晓整套恢复工作所要耗费的时间。从磁带上恢复数据的耗时一般来说是执行备份的十倍以上。也就是说如果你能在八小时上班时间内将服务器信息完全备份下来，那么就要做好心理准备，为可能到来的数据恢复工作拿出80个小时的加班时间及额外支出。这可是超过三整天的时间。

如果你从未做过测试，那么先搞个小规模的试点终究聊胜于无。编写一个小脚本，随便选台服务器，然后指定其中的某块硬盘，***任意挑几个文件。脚本将会立即创建新项目，并要求对象文件恢复至六周前的状态。每周都运行几次该脚本，我们很可能从这种好习惯中发现之前备份工作的纰漏。另外，如果大家认为这些小规模恢复测试会占用自己过多的时间，那么我向大家传授一个小秘密：这种办法不会占用我们自己任何时间，让同事们代劳就可以。只要我们在项目中设计足够多的随机文本，同事们肯定会老老实实加以处理，而不会意识其中的猫腻。

要想更进一步，那么我们就需要找一天将整套灾备体系完整地执行一遍。这套模拟其实带有一定的游戏性质，我们先假设某些技术人员在事故中去世了，而幸存下来的众位则开始尝试对服务项目进行故障切换。在脚本中明确指出将进行哪些测试内容。无论是真正的中断（切断电源或网络）还是模拟出来的场景：那些“去世了”的成员可以负责监督整个测试。“好吧，现在假设你们收到了有关此次事故的通知。告诉我你们将输入哪些指令并且采取哪些行动。”另一种办法是叫上你们企业的总裁，并且果断拔掉他所选择的任何线缆。

【51CTO.com译文，转载请注明原文作译者和出处。】

原文：http://everythingsysadmin.com/the-test.html

Limoncelli的测试：有助于提高系统管理员团队工作效率的32个问题：

【编辑推荐】