获得即时访问
这个蓝图

基础设施操作图标

创建大小合适的容灾恢复计划

缩小您的容灾能力与业务连续性需求之间的差距.

  • 任何时候发生自然灾害或重大IT中断时, 它增加了高管们创建灾难恢复计划(组成)的意识和内部压力。.
  • 传统的组成模板是繁重的,并导致冗长, 密集的计划可能会让审计师满意,但在危机中不会有效.
  • 组成只适用于重大灾难的神话使组织容易受到更常见事件的伤害.
  • 越来越多的外包基础设施服务的使用增加了对供应商实现恢复时间表目标的依赖.

我们的建议

关键的见解

  • 灾难恢复(DR)的核心是确保业务连续性. 制定一个既能应对孤立事件又能应对灾难性事件的计划.
  • 记得墨菲定律. 发生故障时. 重点提高整体弹性和恢复能力, 而不是基于风险概率分析的DR.
  • 具有成本效益的DR和服务连续性首先要确定什么是真正关键的任务,这样您就可以相应地集中资源. 并非所有服务都需要快速故障转移.

影响和结果

  • 根据业务影响为服务停机和数据丢失定义适当的目标.
  • 记录从事件检测到数据中心恢复的所有步骤的事件响应计划.
  • 创建容灾路线图,以弥补当前容灾能力和恢复目标之间的差距.

创建合适大小的灾难恢复计划研究 & 工具

1. 灾难恢复计划(组成)研究-一个循序渐进的文档,帮助简化您的灾备恢复计划过程,并建立一个简洁的计划, 可用的, 和可维护的.

任何发生重大IT中断的时候, 它增加了高管意识和内部压力,以创建it 组成. 这个蓝图将通过遵循我们定义范围的四阶段方法来帮助您开发一个可操作的组成, 当前的状态, 和 dependencies; conduct a business impact analysis; identify 和一个ddress gaps in the 恢复y workflow; 和 complete, 扩展, 维护你的组成.

2. 组成案例研究——这些例子可以帮助你理解组成的管理和事件响应组件,并表明你的组成项目并不需要像想象的那么繁重.

这些例子包括一个利用组成蓝图来创建实际应用的客户, 简洁的, 易于维护的组成管理和事件响应计划,以及基于一家提供广泛医疗保健服务的医院的案例研究.

3. 组成成熟度记分卡-一个评估组成当前状态的工具.

使用这个工具来衡量您当前的组成成熟度,并确定需要解决的差距. 它包含了组成项目的全面需求列表, 包括核心和行业需求.

4. 组成项目章程模板-用于沟通项目目的的重要细节的模板, 范围, 和参数.

项目章程模板包括项目概述(描述)的细节, background, 司机, 和 objectives); governance 和 management (project stakeholders/roles, 预算, 和 dependencies); 和 risks, 假设, 以及限制因素(已知的和潜在的风险和缓解策略).

5. 组成业务影响分析工具-一个评估工具,以估计停机影响,以确定适当的, 可接受的恢复时间目标(RTOs)和恢复点目标(rpo),并审查目标与实际之间的差距.

This tool enables you to identify critical 应用程序s/systems; identify dependencies; define objective scoring criteria to evaluate the impact of 应用程序/system 停机时间; determine the impact of 停机时间 和 es选项卡lish criticality tiers; set 恢复y objectives (RTO/RPO) based on the impact of 停机时间; record 恢复y actuals (RTA/RPA) 和 identify any gaps between objectives 和一个ctuals; 和 identify dependencies that regularly fail (和 have a significant impact when they fail) to prioritize efforts to improve resiliency.

6. 组成 BIA评分上下文示例-一个工具,记录你在组成业务影响分析工具中做出的假设,以解释结果,推动业务参与和反馈.

使用此工具专门记录对谁和什么受到系统停机影响所做的假设,并记录对影响严重程度所做的假设.

7. 组成恢复工作流程模板-一个流程图模板,提供了一个一览恢复工作流程.

这种简单的格式在危机情况下是理想的, 更容易维护, 而且通常创作速度更快. 使用此模板记录通知-评估-声明灾难工作流, 记录当前和计划的未来状态恢复工作流程, 包括差距和风险, 并回顾一个示例恢复工作流程.

8. 组成路线图工具-一个可视化的路线图工具,可以帮助你规划, 沟通, 跟踪组成计划的进展.

提高DR能力是一场马拉松,而不是短跑. 您可能无法同时为降低风险的所有措施提供资金和资源. 而不是, 使用此工具为操作创建路线图, 任务, 项目, 而主动要在短时间内完成, 媒介, 和长期. 优先考虑高效益、低成本的缓解措施.

9. 组成概述和结果模板-一个总结和展示从您的DR规划练习和文档的关键发现的模板.

使用这个模板来显示组成成熟度记分卡的结果, BCP-组成健康评估, 组成业务影响分析工具, 桌面演习计划, 组成恢复工作流模板, 组成路线图工具.

10. 组成工作簿-一个全面的工具,使您能够组织信息,以支持容灾规划.

利用这个工具记录有关组成的信息 资源(列出支持容灾规划的文档/信息源) 以及DR团队和联系人(请列出DR团队、sme 和关键联系人,包括业务连续性管理团队 领导将涉及宣布灾难和协调反应 在组织层面).

11. 附录

还包括以下工具和模板 该蓝图的一部分可根据需要用于补充上述核心步骤:


会员推荐

在每一次信息技术体验之后, 我们要求我们的成员量化实时储蓄, 货币的影响, 和 我们的研究帮助他们实现了项目改进. 请参阅我们的顶级成员的经验为这个蓝图和 我们的客户想说什么.

9.6/10


总体影响

$136,044


平均美元救了

36


平均一天救了

客户端

经验

影响

美元了

天救了

科罗拉多州儿童医院

指导实施

10/10

$61,999

20

虹膜组织

指导实施

9/10

$14,700

5

的正常

指导实施

10/10

$46,499

5

埃克塞特大学

指导实施

9/10

$8,550

5

OnPoint集团有限责任公司

车间

9/10

$12,399

10

圣达菲市

车间

10/10

$1.24M

120

安大略省索圣玛丽市

车间

10/10

$50,000

105

约翰内斯堡大学

指导实施

8/10

$30,999

50

荷兰布鲁维尤儿童康复医院

指导实施

9/10

$25,000

35

盖恩斯维尔地区公用事业

车间

10/10

N/A

20

奋进号银

指导实施

10/10

$16,000

20

Eswatini铁路

指导实施

10/10

$12,300

20

佐治亚州银行和财政部

指导实施

10/10

$30,999

N/A

路易斯安那州立大学

指导实施

10/10

$12,399

10

洛杉矶快船队

车间

10/10

$1.12M

32

多伦多地区学校董事会

指导实施

9/10

$1M

70

约翰内斯堡大学

指导实施

10/10

$30,999

47

双河纸业公司

指导实施

9/10

$2,479

5

威尔克度假集团有限公司.

指导实施

10/10

$58,899

20

Cascades,技术中心

车间

9/10

$6,000

5

Doyon有限

指导实施

10/10

$11,159

10

多伦多地区学校董事会

指导实施

8/10

$200K

100

城市的台面

指导实施

10/10

$25,419

50

五大湖水务局

指导实施

10/10

$2,479

7

柯林斯堡市

指导实施

8/10

$11,159

20

格林奈尔学院

指导实施

10/10

$11,159

10

多伦多地区学校董事会

指导实施

10/10

N/A

N/A

普拉特河电力管理局

车间

10/10

$12,399

20

Eswatini铁路

指导实施

9/10

$32,237

90

阿拉巴马州环境管理部

车间

10/10

N/A

N/A


灾难恢复计划

缩小您的容灾能力与业务连续性需求之间的差距.
本课程构成安全的一部分 & 风险证书.

现在玩: 学院:灾难恢复计划|执行简报

信息技术学院需要积极的会员
  • 课程模块: 4
  • 预计竣工时间: 2-2.5个小时
  • 分析师:
  • 弗兰克它起码,基础设施实践研究总监
  • Eric Wright,研究与咨询高级副总裁

现场研讨会:创建大小合适的容灾恢复计划

现场研讨会提供了一种简单的方法来加速您的项目. 如果你不能自己做这个项目, 一个引导实现是不够的, 我们提供低成本的现场交付我们的项目车间. 我们将带您完成项目的每个阶段,并确保您有一个路线图,以成功地完成项目.

模块1:为组成定义参数

目的

根据业务需求确定关键应用程序和依赖项.

关键好处

了解需要为关键应用程序恢复的整个IT“足迹”. 

活动

输出

1.1

评估当前DR的成熟度.

  • 通过组成成熟度记分卡确定的当前挑战.
1.2

确定关键业务操作.

1.3

确定关键的应用程序和依赖关系.

  • 业务影响分析(BIA)工具中记录的关键应用程序和依赖项.

模块2:确定所需的恢复时间线

目的

基于业务影响量化应用程序的关键性.

关键好处

定义适当的恢复时间和恢复点目标(RTOs/rpo).

活动

输出

2.1

定义一个客观的评分标准来表示不同程度的影响.

  • 定义了业务影响分析评分标准.
2.2

估计停机时间的影响.

  • 应用临界验证.
2.3

根据业务影响确定应用程序所需的RTO/RPO目标.

  • RTOs/rpo为应用程序和依赖项定义.

模块3:确定当前恢复时间线和DR间隙

目的

确定您的基线DR能力(当前状态).

关键好处

电流和所需容灾能力之间的间隙被量化.

活动

输出

3.1

进行桌面练习以确定当前的恢复过程.

  • 当前可实现的恢复时间线(i.e. 当前状态).
3.2

确定当前功能和期望功能之间的差距.

  • RTO / RPO差距确定.
3.3

估计个体依赖失败的可能性和影响.

  • 确定了故障的关键单点.

模块4:创建项目路线图以填补DR缺口

目的

确定项目并确定优先次序,以填补DR缺口.

关键好处

组成项目路线图的定义将减少停机时间和数据丢失到可接受的水平.

活动

输出

4.1

确定需要哪些项目来缩小当前和期望的容灾能力之间的差距.

  • 确定潜在的DR项目.
4.2

根据成本、工作量和对减少RTO/RPO的影响对项目进行优先级排序.

  • 组成项目路线图的定义.
4.3

确认建议的项目将达到预期的容灾能力.

  • 定义了期望状态的事件响应计划,并验证了项目路线图.

模块5:为记录组成建立一个框架,并总结下一步

目的

  • 概述如何创建简洁、可用的组成文档.
  • 总结研讨会的结果. 

关键好处

  • 一个现实和实用的方法来记录你的组成.
  • 下一个步骤记录. 

活动

输出

5.1

列出使用流程图和检查表的策略,以创建简洁、可用的文档.

  • 当前状态和期望状态事件响应计划流程图.
5.2

查看information - tech的组成模板,用于创建系统恢复过程和组成摘要文档.

  • 模板用于在必要时创建更详细的文档.
5.3

总结研讨会的结果,包括当前潜在的停机时间和消除差距的行动项目.

  • 概述当前DR缺口的高管沟通平台, 如何缩小这些差距, 建议的后续步骤.

创建大小合适的容灾恢复计划

缩小您的容灾能力与业务连续性需求之间的差距.

分析的角度

一个有效的灾难恢复计划(组成)不仅仅是一个保险政策.

一个有效的组成可以解决常见的中断,如硬件和软件故障, 以及地区性事件, 提供持续的日常服务. 这不仅仅是你可能永远无法兑现的保险. 客户也需要有效组成的证据, 因此,没有组成的组织不仅面临业务影响的风险,而且还面临销售损失的风险. 如果你足够幸运,能得到管理层的支持, 无论是由于客户的压力,还是担心潜在的停机时间, 您仍然面临有限的时间来进行灾难恢复(DR)计划的挑战. 组织需要一种实用但结构化的方法,使IT领导者能够创建组成,而不会成为他们的全职工作."

弗兰克•它起码

研究室主任、基础设施

信息技术研究小组

这是为你做的研究吗?

本研究的目的是:

  • 负责执行容灾的高级IT管理人员.
  • 寻求形式化、优化或验证现有组成的组织.
  • 业务连续性管理(BCM)专业人员领导组成开发.

这项研究将帮助你:

  • 创建与业务需求一致的组成.
  • 根据DR需求和风险影响分析确定技术增强的优先级.
  • 识别并解决影响容灾能力和日常服务连续性的流程和技术差距.

本研究还将有助于:

  • 希望了解组成所需的时间和资源承诺的高管.
  • 需要理解它的组成的关键要素的BCM和危机管理团队成员.

这项研究将帮助他们:

  • 确定开发组成所需的时间和精力.
  • 协调业务连续性、DR和危机管理计划.

执行概要

情况

  • 任何时候发生自然灾害或重大IT中断时, 它增加了高管们创建组成的意识和内部压力.
  • 行业标准和政府法规正在推动开发业务连续性和IT DR计划的外部压力.
  • 客户要求供应商和合作伙伴在同意开展业务之前提供证据,证明他们拥有可行的组成.

并发症

  • 传统的组成模板是繁重的,并导致冗长, 密集的计划可能会满足审计师, 但在危机中不会有效.
  • 组成只适用于重大灾难的神话使组织容易受到更常见事件的伤害.
  • 越来越多的外包基础设施服务的使用增加了对供应商实现恢复时间表目标的依赖.

决议

  • 通过遵循结构化的流程来发现当前的能力,并定义连续性的业务需求,从而创建一个有效的组成:
    • 根据业务影响为服务停机和数据丢失定义适当的目标.
    • 记录从事件检测到数据中心恢复的所有步骤的事件响应计划.
    • 创建容灾路线图,以弥补当前容灾能力和恢复目标之间的差距.

信息技术的见解

  1. 在其核心, 容灾是为了保证业务的连续性. 制定一个既能应对孤立事件又能应对灾难性事件的计划.
  2. 记得墨菲定律. 发生故障时. 重点提高整体弹性和恢复能力, 而不是基于风险概率分析的DR.
  3. 低成本的容灾和业务连续性始于 确定什么是真正的关键任务 所以你可以相应地集中资源. 并非所有服务都需要快速故障转移.

有效的组成对于降低停机成本至关重要

如果失败发生时你没有一个有效的组成, 由于混乱和缺乏记录在案的流程,预计将面临延长的停机时间和指数级上升的成本.

所显示的图像是一个图表,显示在恢复延迟导致的收入损失指数.

潜在的收入损失

当系统无法使用时,停机的影响呈指数增长(图左). 电流, 经过测试的组成将显著提高您执行系统恢复的能力, 减少停机时间和业务影响. 没有一个组成, IT是在赌自己在危机时期定义和实施复苏战略的能力. 至少, 这意味着延长停机时间(可能是几周或几个月)和重大业务影响.

改编自: Philip Jan Rothstein, 2007

财富1000的停机成本

每年计划外的应用程序停机成本: $1.25 b 2美元.5B.

关键应用每小时的失败成本: 500000美元,1美元.

每小时基础设施故障成本: $100,000.

35% 据报道在12小时内康复.

17% 基础设施故障需要超过24小时才能恢复.

13% 应用程序故障需要超过24小时才能恢复.

资料来源:Stephen Elliot, 2015年

信息技术的见解

停机时间的成本正在全面上升, 而不仅仅是那些传统上依赖IT的组织.g. 电子商务). 自2010年以来,停机时间成本增加:

热情好客 : 增加129%

交通:增加108%

媒体机构:增长104%

一个有效的组成还设定清晰的恢复目标,与系统的关键程度相匹配,以优化支出

图中显示灾难恢复计划示例, 与时间相关的支持复苏的不同层次在哪里.

采取一种实用的方法,创建一个更简洁和可操作的组成

DR规划不是你的全职工作,所以它不可能是一个资源和时间密集型的过程.

<选项卡le border="1" width="800"> 传统的方法 信息技术的方法

从广泛的风险和概率分析开始.

挑战: 你不能预测每一个可能发生的事件, 这耽误了你的恢复程序.

不管发生了什么事,都要专注于如何恢复.

我们知道失败会发生. 专注于提高故障转移到容灾环境的能力,这样无论什么原因导致主站点故障,您都能受到保护.

为诸如自然灾害等重大事件制定计划.

挑战: 重大破坏性事件仅占12%,而软件/硬件问题占45%. 绝大多数事件是孤立的局部事件.

一个有效的组成可以改善日常服务的连续性,而且不只是针对重大事件.

利用DR计划来解决这两个常见问题.g. 电源/网络中断或硬件故障)以及重大事件. 它必须是您可以使用的文档,而不是架子上的软件.

创建一个组成手册,提供任何人都可以遵循的一步一步的指导.

挑战: 其结果是冗长、密集的手册,难以维护,也难以在危机中使用. DR文档的可用性直接影响到DR的成功.

为技术专家创建简洁的文档.

使用流程图、检查表和图表. 它们在危机中更有用,也更容易维护. 您不会要求业务用户恢复您的企业资源计划(ERP), 所以你可以做到简洁.

容灾必须与日常事件管理相结合,以确保业务的连续性

当龙卷风摧毁了你的数据中心, 这是一个明显的DR场景,宣布灾难的升级很简单.

挑战在于,在不太明显(也更常见)的容灾场景(如关键的系统硬件/软件故障)中,如何发挥决定性作用, 和知道 何时从事件管理转移到DR. 当你可能在几个小时内就会出现故障时,不要困在故障排除中好几天.

用明确定义的升级规则和标准来弥补差距,何时将事故视为灾难.

图像显示两个图形. 左边的图通过成功满足RTO和RPO来度量服务管理流程的灾难程度. 右边的图是一个双条形图,显示组成被集成和未集成在以下类别中:事件分类, 严重程度定义, 事件模型, 升级程序. 这些是根据成功满足RTO和RPO来度量的.

来源: 信息技术研究小组; N=92

流言终结:组成是独立于日常运营和事件管理的.

对业务连续性最常见的威胁是硬件和软件故障, 网络中断, 和停电

图中显示的是条形图,显示了对业务连续性的常见威胁. 有两个有趣的领域有标签. 第一个是:超过业务规定的最大停机时间准则的45%的服务中断是由软件和硬件问题引起的. 第二个标签是:只有12%的事故是由重大破坏性事件引起的.

来源: 信息技术研究小组; N=87

信息技术的见解

这意味着我不用担心自然灾害了吗? No. 这意味着容灾规划需要关注整体业务连续性,而不仅仅是大灾难. 如果您忽略了更常见但不太严重的服务中断原因, 您正在降低组成的业务价值.

流言被终结了:drp只是用于破坏性事件——火灾、洪水和自然灾害.

DR isn’t about identifying risks; it’s about ensuring 服务连续性

传统的DR方法首先要进行深入的练习,以识别IT服务连续性的风险以及这些风险发生的概率.

以下是为什么从风险登记册开始是无效的:

  • 可能的情况是,你不会想到每一个可能发生的事件. 如果你想到20个风险,那么21个风险会让你崩溃. 如果你想要防范第21个风险, 您可以迅速进入卡通场景和更昂贵的解决方案.
  • 故障转移到另一个站点的能力降低了大多数(如果不是全部)事故(火灾)的风险, 洪水, 硬件故障, 龙卷风, 等.). 风险和概率分析不会改变对包含故障转移过程的计划的需求.

在本方法中纳入风险的地方:

  • 利用已知的风险来进一步完善你的策略(例如.g. 如果你容易受到飓风的袭击, plan for greater geographic separation between sites; ensure you have backups, 除了复制, 以减轻勒索软件的风险).
  • 识别对您执行DR能力的风险(e.g. 缺乏交叉培训,备份没有经过测试),并采取措施降低这些风险.

流言终结:风险登记是创建有效DR计划的关键第一步.

你不能把责任外包出去,也不能假设你的供应商的DR能力能满足你的需求

外包基础设施服务——给云提供商, 协同定位提供者, 或MSP (managed service provider)—可以提高您的容灾能力和业务连续性. 例如,一个大型的公共云提供商通常会有:

  • 冗余的电信服务提供商、网络基础设施、电源和备用电源.
  • 24小时的基础设施和安全监控.
  • 给定区域内的多个数据中心,以及跨区域复制数据和服务的选项.

尽管如此, 〇失败不可避免 它已经被多次演示过了——通过高调的中断. 当你放弃对系统的直接控制, 确保供应商能够满足您的容灾需求是您的责任, 包括:

  • 灾备站点和该站点系统可接受的恢复时间.
  • 可接受的复制/备份计划.

来源: Kyle York, 2016; Shaun Nichols, 2017; Stephen Burke, 2017

流言终结:我外包基础设施服务,这样我就不用担心容灾了. 这是我的供应商的责任.

选择流程图而不是过程指南,选择检查表而不是过程,选择图表而不是描述

IT DR不是一部飞机灾难片. 您不会要求业务用户执行系统恢复, 就像你不会真的希望一个没有飞行经验的乘客降落飞机一样.

实际上,您要为其编写DR计划 知识渊博的技术人员, 让你总结你的员工已经知道的关键细节. 简明、直观的文档是:

  • 更快地创建.
  • 更容易使用.
  • 简单的维护.

“毫无疑问,300页的drp是无效的. 我的意思是, 审计员喜欢它们,因为其中的细节, 但给我一份10页的组成和联系人名单, 流程流, 图, 还有很容易上手的恢复清单."

- Bernard Jones, MBCI, CBCP, CORP, Manager 灾难恢复/BCP, ActiveHealth Management

显示图形. 它通过流程图、检查表和图表显示了折线图,其中DR的成功率较高.

来源: 信息技术研究小组; N=95

*DR成功是基于声明的能力,以满足恢复时间目标(RTOs)和恢复点目标(rpo), 报告称,他们对持续实现目标的能力有信心.

流言终结:组成必须包含所有细节,这样任何人都可以执行恢复.

组成是整体业务连续性计划的一部分

A 组成 是一组过程和支持文档,使组织能够恢复其核心IT服务(i.e. 应用程序和基础设施)作为整体业务连续性计划(BCP)的一部分。, 如下所述. 使用此蓝图中的模板、工具和活动来创建您的组成.

<选项卡le border="1" width="600"> 整体BCP <选项卡le border="1" width="600"> 它的组成 每个业务单位的BCP 危机管理计划 恢复IT服务的计划.g. 应用程序和基础设施). 这包括:
  • 识别关键的应用程序和依赖关系.
  • 基于业务影响分析(BIA)定义适当的(期望的)恢复时间.
  • 创建一个循序渐进的事件响应计划.
为每个业务单元恢复业务流程的一组计划. 信息技术的 制定业务连续性计划 blueprint提供了创建业务单元BCP的方法,作为组织整体BCP的一部分. 一系列处理各种危机的程序, 从健康和安全事件到业务中断,再到声誉受损. 这包括紧急反应计划, 危机沟通计划, 以及在适用时调用BC/DR计划的步骤. 信息技术的 实施危机管理最佳实践 Blueprint提供了一种结构化的方法来开发危机管理流程.

注意: 对组成, 我们专注于面向业务的IT服务(而不是底层的基础设施), 然后确定所需的基础设施的依赖关系(例如.g. 服务器、数据库、网络).

采取一种实用但结构化的方法来创建一个简洁有效的组成

显示的图像显示了该蓝图的结构. 它显示了阶段1-4的结构以及每个阶段的相关工具和模板.

信息技术提供各种级别的支持,以最适合您的需求

DIY工具包

“我们的团队已经将这个关键项目列为优先事项, 我们有时间和能力, 但在这一过程中,一些指导将会有所帮助."

指导实施

“我们的团队知道我们需要修复一个过程,但我们需要帮助来确定重点在哪里. 在这个过程中,一些签到会帮助我们保持在正轨上.”

车间

这个人说:“我们必须马上开始这个项目. 一旦我们有了一个框架和策略,我们的团队就有能力接手这个工作.”

咨询

“我们的团队没有时间或知识来接手这个项目. 我们整个项目都需要协助.”

在所有四个选项中都使用诊断和一致的框架

信息技术咨询服务提供可衡量的价值

信息技术成员平均节省 $22,98322天 通过与一位信息技术分析师在组成(基于信息技术研究集团的客户响应数据)上合作 测量值的调查, 按照分析师对该蓝图的建议).

为什么会员报告分析师参与的价值?

  1. 专家建议 根据你的具体情况克服障碍和减速带.
  2. 结构化项目和指导 保持正轨.
  3. 项目可交付成果评审 确保流程被正确应用.

引导实现概述

打个电话就能找到你信任的顾问.

定义组成范围(调用1)

范围、需求、目标和具体的挑战. 首先确定要关注的应用程序/系统.

定义当前状态和系统依赖关系(调用2-3)

评估当前组成成熟度. 识别系统依赖关系.

进行电话投诉(电话4-6)

创建一个影响评分量表并进行BIA. 确定每个系统的RTO和RPO.

恢复工作流程(呼叫7-8)

创建基于桌面计划的恢复工作流程. 确定恢复能力方面的差距.

项目及行动项目(电话9-10)

确定并确定改进的优先次序. 总结结果并计划下一步.

在您的组成项目期间,您的指导实施将与我们的分析团队的顾问配对.

车间概述

联系您的帐户代表或电子邮件 研讨会@InfoTech.com 的更多信息.

图像显示此蓝图的车间概述. 这是一个为期4天的研讨会,涵盖各种活动,并产生许多可交付成果.

终端用户的投诉分散了人们对业务连续性面临的严重it风险的注意力

案例研究

工业: 制造业
来源: 信息技术研究小组的客户参与

一家年销售额超过10亿美元的全球制造商与Info-Tech合作,提高DR能力.

组成 BIA

与IT团队和业务单位的对话确定了超过24小时的停机时间的以下影响:

  • 电子邮件: 直接成本:1美元00k; Goodwill 影响 分数: 8.5/16
  • ERP: 直接成本:1美元.35mm; Goodwill 影响 分数: 12.5/16

桌面测试和恢复能力

回顾组织当前的系统恢复工作流程,确定以下功能:

  • 电子邮件: RTO:分钟,RPO:分钟
  • ERP: RTO: 14小时,RPO: 24小时

发现

因为终端用户投诉, IT部门在电子邮件弹性方面投入了大量资金,尽管电子邮件停机对业务的影响相对较小. 在研究了这个方法之后,很明显 业务需要为关键系统提供额外的支持.

每一步的见解:

识别容灾成熟度和系统依赖关系

进行BIA

概述事件响应和恢复工作流程与桌面练习

减少差距和风险

创建大小合适的容灾恢复计划

第一阶段

定义组成范围、当前状态和依赖关系

步骤1.1:设定范围,启动组成项目,并制定章程

这一步将引导你完成以下活动:

  • 为DR规划建立一个团队.
  • 检索和审查现有的相关文档.
  • 创建项目章程.

这一步骤涉及以下参与者:

  • 组成协调员
  • 组成小组(主要资讯科技中小企业)
  • IT经理

结果和见解

  • 为组成方法的第一次迭代设置范围.
  • 不要试图同时完成DR和BCPs.
  • 不要一次吃太多.

启动你的组成项目

现在可以开始DR项目了.

这可能是年度回顾,但可能性更大, 这是你们多年来第一次回顾DR计划.*可能审计失败可能为DR规划提供了授权, 或者一场真实的灾难可能突出了DR能力的差距. 第一个, 对项目是什么或不是什么设定适当的期望, 就范围而言, 输出, 和资源的承诺. 很少有组织能够聘请全职DR规划师, 所以这可能不是你的全职工作. 相应地设定目标和时间.

收集一个团队

  • 通常,DR工作由基础设施和运营负责人领导. 这个人可以担任组成协调员,也可以委派这个角色.
  • 关键基础设施主题专家(sme)通常是团队的一部分,并参与整个项目.

查找和检查现有文档

  • 现有组成可能包含您可以重新利用而不是重新创建的信息.
  • 高级架构图和网络图可以帮助设置范围(将成为您的DR工具包的一部分).
  • 理解当前以业务为中心的运营计划(鸡笼s)或BCPs很重要.

设定具体的、现实的目标

  • 创建一个项目章程(见下一张幻灯片)来记录目标、时间和假设.
*Only 20% of respondents to an 信息技术研究小组 survey (N=165) had a complete 组成; only 38% of respondents with a complete or mostly complete 组成 felt it would be effective in a 危机.

列出组成驱动程序和挑战

1(a)司机和路障

预计时间:30分钟

确定与核心DR团队一起完成功能性组成计划的驱动因素和挑战.

组成司机

  • 过去的中断(请具体说明):
    • 硬件和软件故障
    • 外部网络和电力中断
    • 建筑损坏
    • 自然灾害(s)
  • 审计发现
  • 新闻事件
  • 其他?

组成的挑战

  • 缺乏时间
  • 博士的预算不足
  • 缺乏行政支持
  • 没有内部组成专家
  • 组成面临的挑战
  • 其他?

在活动挂图纸或白板上写下会议的见解,并利用这些发现来指导你的组成项目.g. 挑战地址).

用项目章程阐明期望

1(b) 组成项目章程模板

组成项目章程模板 组件:

定义项目参数、角色和目标,并与执行团队明确期望. 具体的子部分将在下面列出,并在此阶段的其余部分中进行更详细的描述.

  • 项目概述: 包括目标、可交付成果和范围. 利用来自“项目驱动者”头脑风暴练习的相关笔记.g. 过去的中断和差之差之差有助于证明这一点).
  • 治理和管理: 包括角色、职责和资源需求.
  • 项目风险、假设和约束: 包括风险和缓解策略,以及任何假设和限制条件.
  • 项目签字: 包括IT部门和行政部门的签字(如果需要).

注意: 首先确定最初的团队角色和职责,这样他们就可以帮助定义项目章程.

该图片是组成项目宪章模板第一页的截图.

步骤1.2:评估当前状态组成成熟度

这一步将引导你完成以下活动:

  • 完成信息技术的 组成成熟度计分卡.

这一步骤涉及以下参与者:

  • 组成协调员
  • 它的中小企业

结果和见解

  • 确定组织组成和连续性管理的当前状态. 为改进设定一个基线.
  • 找出最需要改进的地方,创建一个有效的计划.

只有38%的IT部门相信他们的组成s在真正的危机中会有效

即使是具有文档化drp的组织也在努力使其可操作.

  • 即使组成确实成为一个优先事项(例如.g. 由于监管或客户驱动), 挑战在于知道从哪里开始,并有一个有条不紊的循序渐进的工作过程. 没有指导计划和为项目提供资源, 当你没有在做其他项目时,它就变成了你零零碎碎地完成的工作, 或者在晚上孩子们睡觉后.
  • 太多的组织创建文档来满足审核员的要求,而不是创建一个可用的计划. 这类人通常只是想要一个填空模板. 他们通常会在书架上找到一个300页传统手册的模板,放在活页夹里, 难以维护, 在危机中是无效的.
显示两个柱状图. 左边的图表显示,只有20%的受访者表示他们拥有完整的组成. 右边的图表显示有38%的人已经完成了或完全完成了组成,他们实际上觉得它在危机中会很有效.

使用 组成成熟度计分卡 评估组成的当前状态,并确定需要改进的地方

1(c) 组成成熟度计分卡

信息技术的 组成成熟度计分卡 评估 完成状态过程成熟度 对一个有效的组成计划的三个方面进行全面而实际的评估 定义需求、实现维护.

图像有三个方框. 一个被标记为完成状态,在它下面的另一个被标记为过程成熟度. 它们之间有一个加号. 从两个方框中引出一个箭头的是另一个标记为组成成熟度评估的方框

完成状态: 反映组成计划每个部分的进展情况.

流程成熟度: 反映执行步骤的一致性和质量,以达到您的完成状态.

组成成熟度评估: 每个组件 (e.g. 您的组成计划的评估基于 完成状态过程成熟度 提供准确的整体评估. 例如, 如果你的BIA结业状态是4(满分为5), 但是过程成熟度是2, 那么需求就不是从一个一致定义的过程中得到的. 风险在于应用程序的优先级不一致,并且与实际的业务需求不一致.

步骤1.3:确定应用程序、系统和依赖关系

这一步将引导你完成以下活动:

  • 识别系统、应用程序和服务,以及使用它们的业务单元.
  • 文档中的应用程序、系统及其依赖项 组成业务影响分析工具.

这一步骤涉及以下参与者:

  • 组成协调员
  • 组成的团队

结果和见解

  • 确定核心服务和依赖于它们的应用程序.
  • 将应用程序和依赖项添加到 组成业务影响分析工具.

选择5-10个服务来开始使用组成方法

1 (d)高层优先级

预计时间:30分钟

第一次完成计划过程是很有挑战性的. 如果你担心失去动力,那就把BIA限制在几个关键的系统上.

如果您需要一个结构化的练习来决定首先关注哪里,并确定应该要求输入系统停机影响的业务用户,则运行此练习.

  1. 在白板或活动挂图纸上,在左边一栏列出业务单位. 在顶部一行列出关键的应用程序/系统. 画一个网格.
  2. 在高层次上, 复习每个单元如何使用应用程序. 做笔记,记录下你做出的任何假设.
    • 如果单元成员使用应用程序或系统,请添加一个✓.
    • 如果单元成员是应用程序或系统的重度用户和/或将其用于时间敏感的任务,则添加✱.
    • 如果应用程序不被这个单位使用,请将该框留空.
  3. 用这个图表来确定要列入BIA的系统的优先级.g. 用*标记的系统),但也包括一些不太重要的系统,以说明一系列系统的组成需求.

图像是一个例子,可以完成从步骤1(d). 这里显示了一个表格. 左边这一栏列出了销售、营销、R&D,和金融. 在最上面一行,列出了拨号器,ERP. 客户关系管理、互联网、分析、内部网

<选项卡le border="1" width="400"> 应用程序 笔记 CRM
  • 支持时间紧迫的销售和账单流程.
拨号器
  • 用于推动销售电话队列,与CRM集成.

为你的环境画一个高层次的草图

1(e)描绘你的环境

预计时间:1-2小时

高级拓扑或架构图是识别依赖关系的有效方法, 应用程序所有权, 外包服务, 硬件冗余, 和更多的.

注意:

  • 网络图或高级架构图有助于识别依赖关系和冗余. 即使是一个粗略的草图对参与者来说也是一个有用的参考工具, 并将成为最终容灾计划中有价值的文档.
  • 保持图纸整洁. 在您开始在白板上绘制之前,可视化最终的图表,以帮助确定间距和位置.
  • 与相关的中小企业合作,以确定依赖性. 保持绘图的高度.
  • 用行说明应用程序或组件之间的连接. 使用颜色编码来说明应用程序的托管位置.g. 内部、co-lo、云或MSP环境).
高级拓扑或架构图的示例

文档系统和依赖关系

与系统中小企业合作,确定每个应用程序或系统的依赖关系. 将依赖项记录在 组成业务影响分析工具 (见下图)

  • 当清单应用程序, 重点关注业务用户能够识别和使用他们能够理解的术语的面向业务的系统或服务.
  • 将支持所有其他服务的基础设施组件分组为一个单一的核心基础设施服务,以简化依赖关系映射(例如,将支持所有其他服务的基础设施组件分组为一个核心基础设施服务).g. 核心路由器、虚拟主机、ID管理、DNS).
  • 通常,每个数据中心都有自己的核心基础设施组件. 分别列出每个数据中心——特别是当每个数据中心托管不同的服务时.
  • 在记录依赖关系时要明确. 使用现有的资产跟踪表, 发现工具, 资产管理记录, 或配置管理工具来标识特定的服务器名称.
  • 核心基础设施的依赖, 如网络基础设施, 电力供应, 和集中存储, 会是大多数应用程序的公共依赖集吗, 因此,将它们归为单独的类别,称为“核心基础设施”,以减少DR规划中的重复.
  • 文档 生产 组件在BIA工具. 捕获在生产中,在单个依赖项线上执行相同工作的冗余组件. 在注释中列出备用系统.

信息技术的最佳实践

一般来说,可视化文档在危机中更容易使用,随着时间的推移也更容易维护. 使用 信息技术的研究 来帮助你建立自己的可视化sop.

文档系统和依赖关系

1(f) 组成业务影响分析工具 -记录系统和依赖关系

Info-Tech的组成业务影响分析工具的截图.

来自领域的故事:信息技术客户通过以下方式在第一阶段发现价值

一个组织发现了一个需要作为第1层系统来对待的关键依赖项

检查应用程序的整个生态系统,确定以前被认为非关键的关键依赖项. 例如, 用于促进安全数据传输的系统被确定为工资单和其他关键业务流程的关键依赖项, 并被提升到一级.

一张图片胜过千言万语(和1600个服务器)

绘制简单的架构图是识别关键依赖关系和关键系统的宝贵工具, 理解系统和依赖关系是如何相互关联的. 对于试图理解其1600台服务器环境的IT和业务涉众来说,这是一个令人振奋的时刻.

为组成辩护

S中的一个元素&p500使用的是信息技术公司的 组成成熟度计分卡 为董事会提供可靠的客观评估并提出改进建议.

邦政府机构发起了一个组成项目,以补充现有的合作项目

信息技术的 组成项目章程 使CIO能够明确他们的组成项目范围,以及它在哪里适合他们的整体合作项目. 项目章程的例子提供了许多标准的复制目标, 范围, 项目角色, 方法, 等. -要求概述项目.

阶段1:洞察力和成就

Image有两个来自Info-Tech阶段1工具和模板的截图.

创建一个章程并确定当前的成熟度

Image有两个截图. 一个来自Info-Tech的组成业务影响分析工具,另一个来自第1步(d)中的例子。.

识别BIA的系统和依赖关系

成就的总结:

  • 创建组成项目章程.
  • 完成了 组成成熟度计分卡 并确定当前组成成熟度.
  • 优先级的应用/系统进行首次容灾规划.
  • 为每个应用程序和系统确定依赖关系.

接下来:进行BIA以建立回收要求

创建大小合适的容灾恢复计划

第二阶段

制定BIA以确定可接受的RTOs和rpo

步骤2.1:定义一个客观影响评分标准

这一步将引导你完成以下活动:

  • 创建一个评分量表来度量应用程序和系统停机的业务影响.

这一步骤涉及以下参与者:

  • 组成协调员
  • 组成的团队

结果和见解

  • 使用与实际业务影响的多个类别相关联的评分量表,以开发更客观的应用程序和系统关键性评估.

将能力与BIA的适当和可接受的RTOs和rpo相结合

太多的组织避免了BIA,因为他们认为它是繁重的或不必要的. 一个管理良好的BIA是直接的,好处是有形的.

BIA使您能够确定适当的支出水平, 维护执行支持, 并优先考虑DR规划以获得更成功的结果. it - tech发现,BIA对组织设定适当目标和投资目标的能力有可衡量的影响.

描述了两个柱状图. 左边的显示了93%的BIA对适当的rto的影响. 右边的图表显示,在BIA中,有86%的BIA对适当支出的影响.

信息技术的见解

业务输入很重要,但不要因为缺乏业务输入而耽误了BIA的起草. 根据你对业务的了解完成一份草稿. 在IT内部创建一个草案,并使用它从业务领导那里获得输入. It’s easier to edit estimates than to start from scratch; even weak estimates are far better than a blank sheet.

选择与您的业务相关的影响类别,以形成业务影响的整体视图

直接成本影响类别

  • 收入: 永久收入损失.
    • 例子: 由于网站故障,三分之一的日销售损失.
  • 生产力: 生产力损失.
    • 例子: 财务人员的工作离不开会计系统.
  • 运营成本: 额外的运营成本.
    • 例子: 需要临时人员重新关键数据.
  • 经济处罚: 停机时间可能导致的罚款/处罚.
    • 例子: 如果在正常运行时间上不遵守合同规定的服务水平协议(sla),将受到经济处罚.

商誉、合规性、健康和安全类别

  • 涉众的善意: 由于伤害、挫折等而失去客户、员工或商业伙伴的善意.
    • 例子: 由于网站宕机,客户无法访问所需的服务.
    • 例子: 工资单系统的中断延误了所有员工的工资.
    • 例子: 供应商的付款延迟是因为采购系统失灵.
  • 合规、健康和安全:
    • 例子: 金融系统停机会导致漏报税务.
    • 例子: 网络停机会断开安全摄像头.

信息技术的见解

你不必把所有影响类别都包括在BIA中. 包括可能影响你业务的类别. 推迟或排除其他类别. 例如, 政府机构的大部分收入来自税收, 如果IT系统故障,这些不会永久丢失.

修改评分标准,以帮助您度量停机时间的影响

评分尺度定义了不同类型的业务影响(例如.g. 成本, 丧失商誉),采用共同的四点比额表和24小时时限,以简化BIA的工作和文件编制.

中的评分标准时,请使用以下建议作为指南 组成业务影响分析工具:

  • 所有的直接成本类别 (收入, 生产力, 运营成本, financial penalties) require the user to define only a maximum value; the tool will populate the rest of the criteria for that category. 使用以下建议找出每个直接成本类别的最高分数:
    • 收入: 用上一年的总收入除以365,就可以得到每天的收入. 假设这是你一天中可能损失的最大收益,并使用这个数字作为最高分数.
    • 损失的生产力: 将组织的全负荷劳动力成本除以365,就可以估算出每天的生产率成本. 如果所有业务停止一天,可以将此作为工作损失的代理度量.
    • 增加运营成本: 将此与已知的因中断而产生的额外成本(如.g. 加班或临时员工费用). 估算组织的最大成本.
    • 经济处罚: 将此与已知的经济处罚(e.g. 由于未能达到sla或遵从性要求). 使用估计的最大惩罚作为量表上的最高值.
  • 对商誉的影响: 使用所有受影响利益相关者百分比的估计来评估商誉影响.
  • 影响 on Compliance; 影响 on Health 和 Safety: BIA工具包含默认的评分标准,用于说明影响的严重程度, 发生的可能性, 在服从的情况下, 是否有宽限期. 按原样使用这个量表,或者调整这个量表以适应您的需要.

修改系统默认的评分等级 组成业务影响分析工具 反映你的组织

2(a) 组成业务影响分析工具 ——评分标准


Info-Tech的组成业务影响分析工具的评分标准的截图

步骤2.2:估计停机时间的影响

这一步将引导你完成以下活动:

  • 确定服务/系统/应用程序停机的业务影响.

这一步骤涉及以下参与者:

  • 组成协调员
  • 组成的团队
  • IT服务中小企业
  • 业务端技术所有者(可选)

结果和见解

  • 应用评分量表对停机时间的业务影响进行更客观的评估.
  • 根据停机时间对业务的影响创建关键级别.

估计停机对每个系统和应用程序的影响

2(b)估计系统停机的影响

预计时间:3小时

在第3页 组成业务影响分析工具 说明停机时间的费用,如下所述:

  1. 有没有一份 “评分标准” TAB可用作参考(e.g. 打印或二次显示). 在选项卡3中,使用下拉菜单来分配分数 0 to 4 的影响程度 “评分标准” 选项卡.
  2. 工作 水平 跨越单个系统或应用程序的所有类别. 这将使您熟悉所有影响类别的评分标准, 如果需要,还可以修改评分标准.
  3. 例如,如果核心呼叫中心的电话系统故障:

    • 损失的收入 销售收入的一部分是通过呼叫中心产生的吗. 根据呼叫中心处理的销售百分比,这可能会得到1或2分.
    • 对客户的影响 可能是2或3,这取决于一些客户可能使用呼叫中心获得支持或购买新产品或服务的程度.
    • 法律/法规遵从性健康或安全风险 可能是0,因为呼叫中心在这两个区域都没有影响.
  4. 接下来,工作 垂直 跨单个影响类别中的所有应用程序或系统. 这将允许您在创建它们时比较类别内的分数,以确保内部一致性.

将影响分数添加到 组成业务影响分析工具

2(c) 组成业务影响分析工具

Info-Tech的组成业务影响分析工具的截图

记录驱动BIA分数的业务原因和假设

2(d) 组成 BIA评分示例

Info-Tech建议IT领导和员工首先确定停机时间的影响,然后创建一个版本,您可以与相关的业务所有者进行验证. 当你作为一个团队在BIA工作时, 是否有一个记事本记录下你所做的假设,以帮助你解释结果并推动业务参与和反馈.

一些常见的假设:

  • 你不可能安排一场灾难,所以信息技术建议你假设 糟糕的时间 对停机时间. 将停机时间对灾难最坏的一天的影响作为基础.g. 年终结束,工资运行).
  • 记录关于谁和什么会受到系统停机影响的假设.
  • 记录关于影响严重程度的假设.
  • 如果你偏离了评分标准, 或者如果某一特定影响不符合定义的评分标准, 记录异常.

信息技术的组成 BIA评分上下文示例截图

使用信息技术的 组成 BIA评分示例 作为一个笔记模板.

信息技术的见解

你不可能建立一个完美的评分标准. 根据你的判断和对业务的了解做出合理的假设是可以的. 写下你的假设. 如果你不把它们写下来,你会忘记你是如何得出这个结论的.

根据停机时间的直接和间接总成本分配一个临界等级

2(e) 组成业务影响分析工具 —分配临界层

一旦您完成了对停机时间的影响的估计,请使用以下方法 粗略的指导方针 创建一种初始类型的应用程序到tier 1, tier 2和tier 3.

  1. 通常,对应用程序进行排序 对商誉、合规和安全的总影响 第一个.
    • 快速排序的一个有效策略是:指定一个Tier 1评级,其中分数是最高总分数的50%或更多, 第2层,分数介于25%到50%之间, 第三梯队得分低于25%. 一些组织还会为得分最高的系统设置Tier 0.
    • 然后回顾并验证这些分数和作业.
  2. 接下来,考虑 停机总成本.
    • 总成本 由工具根据表2中的“评分标准”和表3.
    • 决定总成本影响是否证明提高临界等级是合理的.g. 由于高成本影响,从第2层到第1层).
  3. 检查指定的影响分数和等级,检查它们是否一致. 如果你需要破例,记录下原因. 将异常保持在最低限度.

例子: 最高总分为12分

Info-Tech的组成业务影响分析工具的截图

步骤2.3:确定可接受RTO/RPO目标

这一步将引导你完成以下活动:

  • 回顾设置RTO和RPO(恢复目标)的“辩论空间”方法.
  • 按临界层设置初始RTOs和rpo.

这一步骤涉及以下参与者:

  • 组成协调员
  • 组成的团队

结果和见解

  • 使恢复目标与停机和数据丢失的业务影响保持一致.

使用“辩论空间”方法使rto和rpo与停机时间的影响保持一致

业务必须验证 可接受的和适当的 RTOs和rpo,但是IT可以使用下面的指导原则来设置初始估计.

调整恢复.

更短的RTO通常需要更高的投资. 如果短时间的停机影响最小,那么设置一个低的RTO可能是不合理的. 随着时间的继续, 影响开始呈指数级增长,达到停机时间无法忍受的程度——可接受的RTO必须比这更短. 将同样的想法应用于rpo——有多少数据丢失是不明显的? 有多少是无法忍受的?

一个图表显示了与RTOs和rpo相关的辩论空间

“辩论空间”介于最小的影响和最大的容忍停机.

为每一层估算合适的、可接受的RTOs和rpo

2(f)设置恢复目标

预计时间:30分钟

RTO和RPO层通过为具有类似关键度的系统和应用程序设置类似的恢复目标来简化管理.

使用“辩论空间”方法设定适当和可接受的目标.

  1. RTO, 根据影响确定合适的恢复时间范围.
    • 整体, 对于黄金来说,RTO级别可能是0-4小时, 4-24小时为银, 铜牌则需要24-48小时.
  2. rpo 反映目标数据保护措施.
    • 确定层中的最低RPO并使其成为标准.
    • 例如, 黄金数据的预定时间可能是五分钟, 小银可能要四个小时, 也许有一天会成为青铜.
    • 将此作为指导方针. RPO并不总是与RTO层完美匹配.
  3. 审查rto和rpo,确保它们准确地反映了关键性.

信息技术的见解

一般来说,系统越关键,RPO越短. 但情况并非总是如此. 例如, 服务总线可能是Tier 1, 但如果它不存储任何数据, RPO可能比其他Tier 1系统更长. 有些系统的RPO可能与该层中的大多数其他系统不同. 只要目标对业务来说是可接受的,并且考虑到影响是适当的,就可以了.

将恢复目标添加到 组成业务影响分析工具

2(g) 组成业务影响分析工具 —文档恢复目标

Info-Tech的组成业务影响分析工具的截图-文档恢复目标

来自领域的故事:信息技术客户通过以下方式在第二阶段发现价值

大多数组织发现关键应用程序的一些新东西, 或者利益相关者使用它们的方式, 当他们通过BIA工作并与利益相关者一起审查结果时. 例如:

为什么要完成BIA? 可能有一百万个理由

  • 一个全球制造商完成了组成 BIA演习. 当电子邮件故障时,服务台的电话就会亮起来,直到问题得到解决. 这种悲哀导致了电子邮件的高可用性实现. 然而,BIA表明ERP停机时间的影响要大得多.
  • ERP停机将停止生产线,延迟客户订单,并最终 每天让公司损失一百万美元.
  • BIA结果清楚地表明ERP需要被优先考虑, 投资需要商业支持.

从表达不满转向做出明智的决定

组成业务影响分析工具 帮助组织利益相关者就大型大学IT部门的DR需求进行磋商. 过去的磋商变成了不满的发泄. 使用客观的影响分数帮助利益相关者保持专注,并围绕适当的rto和rpo做出明智的决定.

阶段2:洞察力和成就

这个阶段的工具和模板的截图.

估计停机时间对业务的影响

这个阶段工具的截图

设置恢复目标

总结成就

  • 创建了一个与业务影响的不同类别相关联的评分量表.
  • 应用评分尺度来估计系统停机的业务影响.
  • 确定适当的、可接受的rto和rpo.

下一个:进行桌面计划练习以建立当前的恢复能力

创建大小合适的容灾恢复计划

第三阶段

确定并解决恢复工作流程中的缺口

步骤3.1:确定当前恢复工作流程

这一步将引导你完成以下活动:

  • 做一个桌面练习.
  • 概述初始响应(通知)的步骤, 评估, 灾难声明)和系统恢复(i.e. 记录你的恢复工作流程).
  • 确定您的初始响应和系统恢复中的任何缺口和风险.

这一步骤涉及以下参与者:

  • 组成协调员
  • 资讯科技基础设施中小企业(适用于范围内的系统)
  • 应用中小企业(适用于范围内的系统)

结果和见解

  • 使用可重复的实践练习来概述和记录在发生灾难时用于恢复系统的步骤, 以及确定要解决的差距和风险.
  • 这也是你的团队分享知识的机会, 也是获取他们见解的实用方法, 建议, 把知识写在纸上.

桌面计划:测试和记录恢复工作流程的有效方法

在桌面规划练习中, 组成团队通过一个灾难场景来绘制出每个阶段应该发生的事情, 并有效地定义一个高级别的事件响应计划(i.e. 恢复工作流程).

在受访者中,桌面规划对实现恢复目标(RTOs/rpo)的影响最大.

柱状图显示,桌面计划在受访者中对实现恢复目标(RTOs/rpo)的影响最大.

*注意: 相对重要性表明了单个测试方法的贡献, 最少每年进行一次, 能否预测成功达到复苏目标, 当控制回归模型中所有其他类型的测试时. 相对重要值已被标准化,总和为100%.

成功的基础是以下几点:

  • 始终满足rto要求.
  • IT部门对满足RTOs的持续能力有信心.
  • rpo得到了一致的满足.
  • IT部门对满足rpo的持续能力有信心.

为什么桌面规划如此有效?

  • 它能让你发挥出 更广泛的场景 而非基于技术的测试.g. 全尺寸、并行),因为成本和复杂性因素.
  • 它是 非侵入性的, 因此,它可以比其他测试方法更频繁地执行.
  • 它很容易转化为恢复文档的主干,因为它允许您这样做 回顾恢复计划的各个方面.

首先关注IT DR

你的组成就是IT应急计划. 它不是危机管理或BCP.

目标是定义在中断后恢复应用程序和系统的计划. 这是你的第一次桌面练习, 信息技术建议您使用一个不危及生命的场景,至少需要临时迁移您的数据中心(i.e. 故障转移到灾备站点/环境). 假设气体泄漏或水管爆裂导致数据中心无法访问. 电源被切断,IT部门必须将系统故障转移到另一个位置. 一旦您创建了主过程,请检查该计划,以确保它能够处理其他场景.

信息技术的见解

当系统出现故障时,您将面临两个高级选项:故障转移或就地恢复. 如果您记录将系统故障转移到另一个位置的计划, 您将记录DR过程的核心. 这与传统的场景规划不同,在传统的场景规划中,您为不同的假设场景定义单独的计划. 目标是一个可以适应不同场景的计划, 如何减少建立和维护组成的工作量.

进行桌面规划练习,概述当前环境中的DR过程

3(一)桌面规划

预计时间:2-3小时

对于每个高级恢复步骤,请执行以下步骤:

  1. 在白色提示卡上:
    • 记录的步骤.
    • 指示任务所有者(如果为了清晰起见).
    • 注意完成该步骤所需的时间. 锻炼后, 使用此命令构建一个正在运行的恢复时间,其中00:00是事件发生的时间.
  2. 在黄色提词卡上, 文档的空白, 过程, 并按技术要求完成步骤.
  3. 在红色提示卡上,标明危险(如.g. 关键员工没有后备人员).
在步骤3(a)中可以做什么是一个例子. 三张提示卡分别显示为白色、黄色和红色.

Do:

  • 检查从通知到用户验收测试的整个工作流.
  • Keep focused; stay on task 和 on time.
  • 重新审视每一个步骤,记录差距和风险(以及已知的解决方案,但不要沉溺于此).
  • 与任务负责人一起修改和改进计划.

别:

  • 被工具压得很重.
  • 马上用文档记录细节——在第一次练习时要坚持高层次的计划.
  • 在你前进的过程中,试着找到解决每一个缺口/风险的方法. 把深入的研究/讨论留到以后.

当前状态事件响应计划流程图(i.e. 记录恢复工作流程)

3(b) 组成恢复工作流程模板和案例研究:实用的、合适大小的组成

为什么使用流程图?

  • 流程图提供了一个一目了然的视图, 非常适合灾难场景,压力很大,需要快速向上沟通.
  • 对于有经验的员工来说,关键步骤的高层提醒就足够了.

使用已完成的桌面规划练习结果来构建此工作流.

“我们在申报程序中使用流程图. 当你必须向上层管理人员解释状态和接下来的步骤时,流程图会更有效." -医疗行业IT运营助理总监

来源: 信息技术研究小组访谈

信息技术的组成恢复工作流程模板截图

有关可用于捕获计划的格式化模板,请参见Info-Tech的 组成恢复工作流模板.

对于桌面规划结果的完整示例,请查看Info-Tech的 案例研究:实际的、合适大小的组成.

识别区域规划

我的战? 考虑以下情况:

  • 一周一次, 对完整的ERP系统进行完整的备份,并通过WAN转移到250英里以外的备用站点, 它存储在磁盘的什么地方.
  • 在一夜之间, 对当天的更改进行增量备份, 并被转移到相同的次要站点, 也存储在磁盘上.
  • 在办公时间, SAN对保存在本地存储上的更改进行快照(会计系统上的信息通常只在办公时间发生更改).
  • RPA是什么? 一个小时(快照)、一天(增量)或一周(完全备份)?

识别RPA时,请记住以下几点:

你正在为一场灾难做准备, 在什么情况下,现场系统可能无法访问,灾难期间采取的任何数据副本可能失败, 是腐败的, 或者永远不要离开数据中心.g. 如果备份文件送达前网络出现故障). 在上面的场景中, 似乎可以恢复非站点增量备份, 导致了24小时的RPA. 然而, 如果对每日增量的可靠性有严重的担忧, RPA可以说是基于每周的完全备份.

信息技术的最佳实践

RPA是对在DR场景中使用当前功能(人员)可能丢失的最大数据的承诺, 过程, 和技术). 选择一个你可能达到的数字. 列出任何你不能满足RPA的情况, 并确定风险承受力的讨论. 在上面的例子中, 主SAN的完全丢失也意味着快照的丢失, 所以最后一份完好的数据可能是24小时前的.

在您的BIA副本中添加恢复实绩(RTA/RPA)

3(c) 组成业务影响分析工具——复苏实绩

“影响分析” 选项卡中 组成业务影响分析工具,在RTA和RPA列中输入估计的最大停机时间和数据丢失.

  1. 估计 RTA基于完全恢复所需的时间. 检查恢复工作流程以确定此时间线. 例如, 如果通知, 评估, 申报过程需要2个小时, 系统恢复需要一天的大部分时间, 估计需要24小时.
  2. 根据发送到站点外的数据副本之间的最长间隔估计RPA. 例如, 如果某个系统上的数据每天在异地备份一次, 现场系统就在备份开始前被毁了, 全天的数据可能会丢失,估计的RPA可能是24小时. 注意: 输入9999表示数据不可恢复.

Info-Tech的组成业务影响分析工具的截图-恢复实际情况

信息技术的最佳实践

为了简单起见,可以将数字四舍五入到最近的班次、日或周(例如.g. 24小时而不是22小时.5个小时,或者8个小时而不是7个小时.25小时).

针对其他场景测试恢复工作流

3 (d)工作流程审查

预计时间:1小时

用不同的场景回顾您的恢复工作流程.

  • 工作和更新您的恢复工作流程的软拷贝.
  • 如果场景发生变化,任何步骤会有所不同吗? 如果是,用菱形决策捕获不同的流. 找出任何你遇到红黄牌的新漏洞或风险. 使用尽可能少的决策钻石.

针对其他场景测试工作流的截图

信息技术的最佳实践

当你开始考虑可能受伤或失去生命的情况时, 记住,在危机中,健康和安全风险是最优先考虑的问题. 如果数据中心着火了, 疏散大楼是首要任务, 即使这意味着放弃一个体面的关闭. 有关紧急反应和危机管理的详细信息,请参见 实施危机管理最佳实践.

考虑其他IT灾难场景

3(e)思维实验-复习额外的场景

在附加上下文中浏览您的恢复工作流程, 不同的场景,以确保没有差距. 与DR团队合作,确定可能需要的更改, 并将这些变化纳入计划.

<选项卡le border="1" width="800"> 场景类型 注意事项 孤立的硬件/软件故障
  • 可能不需要将故障转移到灾备站点(或者仅针对受影响的系统).
停电或网络中断
  • 你有备用电源吗? 你有网络冗余吗?
当地风险(e.g. 化学品泄漏,警方事件)
  • 系统可能可以远程访问,但最终需要动手维护.
  • 为保证业务连续性,需要一个备用站点.
设备/建筑损坏(e.g. 火,屋顶倒塌)
  • 工作人员可能受伤或失去生命.
  • 设备可能需要维修或更换(供应商参与).
  • 为保证业务连续性,需要一个备用站点.
区域自然灾害
  • 工作人员可能受伤或失去生命.
  • 公用事业可能受到影响(电力、自来水等).).
  • 希望员工在工作之前先照顾好自己的家庭.
  • 为保证服务的连续性,可能需要地理上遥远的备用地点.

步骤3.2:确定项目的优先顺序以缩小差距

这一步将引导你完成以下活动:

  • 分析从成熟度记分卡中确定的差距, 桌面规划运动, RTO/RPO差距分析.
  • 集体讨论解决方案,以缩小差距和降低风险.
  • 确定一个行动路线来弥补这些差距. 优先考虑每个项目. 创建一个项目实施时间表.

这一步骤涉及以下参与者:

  • 组成协调员
  • 中小企业IT基础设施

结果和见解

  • 可提高容灾能力的优先项目和操作项列表.
  • 通常情况下,低成本、低努力的快速成功至少可以减少一些差距/风险. 高成本、高工作量的项目可以是长期IT战略的一部分. 改善服务的连续性是一项持续的承诺.

集思广益以解决差距和风险

3 (f)的解析

估计时间:1.5个小时

  1. 回顾桌面练习中的每一张风险和间隙卡.
  2. 作为一个团队,集思广益,以解决差距、降低风险和提高弹性. 把这些想法写在白板或白板纸上. 解决方案可以从速胜和行动项目到主要的资本投资.
  3. 在这一点上尽量避免关于可行性的争论 -那是迟早的事. 我们的目标是把所有的想法都写在黑板上.

如何完成活动3(f)的例子. 在白板上,有3张提示卡,上面用箭头标出不同的步骤.

信息技术的最佳实践

这是关于找到解决问题的方法,而不是解决问题. 当你头脑风暴解决问题的方法时, 不要停留在第一个想法上, 即使解决方案看起来很明显. 的 第一个 idea isn’t always the best or only solution; other ideas can exp和 on 和 improve that 第一个 idea.

从众多选择中选择一个最佳的容灾部署模型

容灾部署有许多选项. 什么对你有意义?

  • 筛选DR站点的选项可能会很困难. 通过消除不适合您的需求或组织使用的部署模型来简化 信息技术的研究.
  • 有人会问你云中的DR. 开门见山地评估云计算是否适合您组织当前的能力和需求. 读到的 成功容灾的10个秘诀.
  • 选择和部署灾备站点是降低风险的一种实践. IT的角色是为业务提供建议,以解决没有容灾站点的风险, 包括成本和工作估算. 然后,企业必须决定如何管理风险. 构建总拥有成本(TCO)估算,并评估每个选项可能面临的挑战和风险.

投资更大的股票是否可行 geo-redundancy 在大范围的活动中遇到rto和rpo?

信息技术建议你考虑对两个网站都有影响的事件, 以及你对这种影响的风险承受能力. 如果主站点和辅助站点都受到影响,请概述在较高水平上停机的影响. 研究过去发生的足以影响你的主要和次要部位的严重事件的频率. 企业对这类事件的容忍度是多少啊?

一个常见的策略是:让主站点和容灾站点足够近,以支持低RPO/RTO, 但要足够远,以减轻已知区域事件的影响. 将数据备份到远程的第三个位置,以防止灾难性事件的发生.

信息技术的见解

将选址作为一个项目来处理. 利用 选择最佳容灾部署模型 构建您自己的选址项目.

设置 组成路线图的工具

3(g) 组成路线图的工具 -设置工具

使用 组成路线图的工具 创建高层次的路线图来计划和沟通灾备行动项目和计划. 确定用于定义路线图项的数据.

Info-Tech的组成路线图工具的截图

通过估计时间、工作量、优先级等来计划下一步

3(h) 组成路线图的工具 描述路线图项目

Info-Tech的组成路线图工具的截图,展示如何描述路线图项

审查和沟通 组成路线图的工具

3(i) 组成路线图的工具 -查看路线图

Info-Tech的组成路线图工具的路线图选项卡的截图

步骤3.3:查看Future State Recovery Process

这一步将引导你完成以下活动:

  • 更新恢复工作流程,以概述您未来的恢复过程.
  • 总结DR练习的结果,并将结果呈现给项目发起人和其他感兴趣的主管.

这一步骤涉及以下参与者:

  • 组成协调员
  • IT中小企业(未来状态恢复流程)
  • 博士项目发起人

结果和见解

  • 总结容灾规划实践的结果,以说明需要的容灾投资.

概述你未来的状态恢复流程

3(j)更新恢复工作流程,概述今后的反应和恢复

预计时间:30分钟

概述您预期的未来状态恢复流程,以演示项目和操作项完成后的改进.

  1. 在Visio的新选项卡中创建组成恢复工作流程的副本.
  2. 删除被提议的项目所解决的差距和风险卡. 合并或取消在实施项目时将在将来简化或精简的步骤.
  3. 创建一个短期, 中期, 以及对变更的长期回顾,以说明随着时间的推移对项目路线图的改进.
  4. 当您实现和提高容灾能力时,请更新此工作流程.

恢复工作流程的截图

验证恢复目标并交流实际的恢复能力

3(k)验证调查结果,提出建议,确保预算

预计时间:所需时间会有所不同

  1. 面试经理或流程所有者,以验证RTO、RPO和业务影响评分.使用你对特定应用的“重度用户”的评估(右图)来提醒你哪些业务用户应该包括在面试过程中.
  2. 向管理团队陈述你的调查结果.使用信息技术的 组成综述和结果模板 总结一下你的发现.
  3. 将项目纳入预算过程.随着管理团队意识到投资组成的基本原理, 在需要的地方构建业务案例和安全的预算.

汇报组成的发现并说明需要投资的理由

3(I) 组成综述和结果模板

创建一个沟通平台,为利益相关者总结主要发现.

  • 写一份清晰的问题陈述. 确定你为什么做这个项目(你正在解决什么问题).
  • 清楚地陈述关键的发现、见解和建议.
  • 利用已完成的工具和模板来填充桥牌. 模板表示中的标注将指导您在整个文档中获取和填充屏幕截图.
  • 用演示来传达主要的发现, 并收集反馈, 业务部门经理, 高管, 和IT人员.
信息技术的组成概述和结果模板的截图

来自领域的故事:信息技术客户通过以下方式在第三阶段发现价值

桌面计划是发现恢复能力差距的有效方法. 确定桌面练习中的问题,这样您就可以在灾难发生之前进行管理. 例如:

请后退一点……

事件解释客户端离线备份应用数据. 为了最小化数据传输和存储成本,系统本身没有备份. 完成灾备站点的恢复过程, DBA意识到,30年的COBOL和SQR代码——关键的业务功能——没有在场外备份.

净工作……?

一家拥有500名员工的专业服务公司意识到,它的互联网连接可能是复苏的一个重大障碍. 没有互联网,总部的任何人都无法访问关键的云系统. 桌面练习确定了这个恢复瓶颈,并帮助在路线图中确定修复的优先级.

叫个医生来!

医院依靠电话系统进行系统停机程序. 与医院客户进行的桌面练习强调,如果数据中心遭到破坏, 电话系统可能也会被破坏. 认识到这一点为正在进行的VOIP迁移提供了更多的紧迫性.

时间的考验

小型自治市依赖于本地MSP执行系统恢复, 但意识到它从未测试过恢复过程来识别RTA. 联系MSP以审查功能成为解决此风险的路线图项目.

阶段3:洞察力和成就

信息技术的组成恢复工作流程模板截图

概述了组成的应对措施和复苏面临的风险

与头脑风暴风险缓解措施有关的已完成活动的截图.

头脑风暴风险缓解措施

总结成就

  • 计划并记录您的DR事件响应和系统恢复工作流程.
  • 确认恢复和事件管理方面的差距和风险.
  • 头脑风暴和确定项目和行动项目,以减少风险和缩小差距.

下一个: 利用核心交付物来完成、扩展和维护您的组成

创建大小合适的容灾恢复计划

第四阶段

完成、扩展和维护您的组成

阶段4:完成、扩展和维护你的组成

这个阶段将带领你完成以下活动:

  • 通过重新评估你的组成成熟度来确定你在组成上取得的进展.
  • 优先考虑最高价值的主要计划,以完成、扩展和维护您的组成.

这一阶段包括以下参与者:

  • 组成协调员
  • 高层执行官

结果和见解

  • 中的项目显示进度,以传达组成的价值 组成成熟度计分卡.
  • 确定未来支持组成和更大的BCP的主要举措并确定优先级.

庆祝成就,规划未来

祝贺你! 您已经完成了核心组成交付,并提出了投资于DR能力的理由. 花点时间来庆祝你的成就.

这个里程碑是一个回顾和展望未来的机会.

  • 回顾: 从你开始建立组成开始,衡量你的进展. 重新审视在阶段1中完成的评估,并评估整个组成成熟度中的变化.
  • 期待: 优先考虑未来的计划,以完成、延长和维护您的组成. 将那些对最少的努力和资源需求产生最大影响的举措按优先次序排列.

我们已经完成了关键系统的核心组成方法:

  • BIA,恢复目标,高级恢复工作流程和恢复实际情况.
  • 确定实现恢复目标的关键任务.

接下来我们能做什么?

  • 对其他系统重复核心方法.
  • 确定灾备站点以满足恢复需求,并检查厂商的容灾能力.
  • 创建一个摘要组成文档,包括需求、功能和变更过程.
  • 创建测试计划和详细的恢复文档.
  • 协调bcp的创建.
  • 容灾与其他关键操作流程集成.

重新审视 组成成熟度计分卡 衡量进展,确定有待改进的地方

4(a) 组成成熟度计分卡 重新评估你的组成计划的成熟度

  1. 找到副本 组成成熟度计分卡 你完成之前. 在同一个文件夹中保存完成的记分卡的第二份副本.
  2. 在你改进了组成文档或能力的地方更新评分.
  3. 查看表3中的新分数. 将新的分数与原来的分数进行比较.

组成成熟度评估结果的截图

信息技术的最佳实践

使用已完成的、更新的 组成成熟度计分卡 为了证明你的连续性项目的价值,并帮助你决定下一步的重点.

优先考虑主要计划以完成、延长和维护组成

4(b)优先考虑重大倡议

预计时间:2小时

优先考虑那些以最少的成本和努力降低重大风险的主要计划.

  1. 使用下面的评分标准来评估潜在计划的风险、工作和成本. 如果您的组织需要,请修改标准. 把这些写在白板或挂图纸上.
  2. 从1到3打分. 将每个项目的分数相乘,得到总分. 一般来说,优先考虑得分较高的项目.
<选项卡le border="1" width="1200"> 分数 答:这项倡议将减轻的风险有多大? B:我们完成这项倡议有多容易? C:这个计划的成本效益如何? 3:高 对50%的利益相关者产生重要影响, 或对合规姿态有重大影响, 或存在严重的健康/安全风险. 一个冲刺,可以由几个人在很少的监督下完成. 在IT可自由支配的预算之内. 2:中 影响s <50% of stakeholders, 或对遵从性的轻微影响, 或者退化到健康或安全控制. 四分之一,和/或一些增加的努力需要,一些风险完成. 需要财务部门的预算批准. 1:低 影响s limited to <25% of stakeholders, no impact on compliance posture or health/safety. 一年,和/或主要供应商或组织的挑战. 需要得到董事会的预算批准.

信息技术的最佳实践

您可以使用类似的评分练习来优先安排和安排高效益项目, 少量付出, 路线图第三阶段中确定的低成本项目.

例如:优先考虑主要计划

4(b)继续确定主要倡议的优先次序

在白板上写下表格(将结果记录在电子表格中以供参考). 在下面的例子中, IT人员在创建活动测试计划时,可能决定首先重复核心方法, 稍后处理过程更改.

<选项卡le border="1" width="1000"> 倡议 答:这项倡议将减轻的风险有多大? B:我们完成这项倡议有多容易? C:这个计划的成本效益如何? 总分(A × B × C) 对所有系统重复核心方法 2 – 是否会影响一些利益相关方,没有合规或安全影响. 2 – 大概需要3个月,没有明显并发症吗. 3 – 没有成本. 12 将容灾添加到项目mgmt中. 和变更管理. 1 – 缓解了一些长期复苏的风险. 1 – 需要广泛的咨询和过程审查. 3 – 没有成本. 3 计划上的主动故障转移测试 2 – Mitigates some risks; documentation 和 cross training is already in place. 2 – 需要3-4个月的时间来准备考试. 2 – 测试前可能需要购买一些设备. 8

信息技术的最佳实践

找到一个能让你保持动力的节奏, 但也留出了足够的时间来根据初步发现采取行动, 项目, 中确定的操作项 组成路线图的工具. 在路线图工具中包含这些计划,以可视化确定的计划如何与确定的其他任务相匹配,从而提高您的恢复能力.

对其他系统和应用程序重复核心DR方法


您已经为最关键的系统创建了DR计划. 现在,把剩下的添加进去:

  • 以你已经完成的工作为基础. 重新使用BIA评分量表. 更新现有的恢复工作流程, 而不是创建和格式化一个全新的文档. 将与大家分享恢复过程中的一些步骤, 或类似的, 一级系统的恢复过程.

降低风险和挑战

  • 对于不太重要的系统,还没有评估容灾需求和能力.
  • 对不太重要的系统的恢复过程中存在的差距尚未评估或解决.
  • 非关键系统的容灾能力可能无法满足业务需求.
<选项卡le border="1" width="200"> 样例输出 添加二级 & BIA有3个系统. 完成Tier 2的另一个桌面练习 & 3系统恢复,并将结果添加到恢复工作流程中. 确定项目以弥补恢复过程中的额外缺口. 将项目添加到项目路线图中.

信息技术的最佳实践

使用这个 完整、实用、大小合适的容灾计划示例 来驱动和指导你的努力.

扩展你的核心组成交付物

您已经完成了核心组成交付成果. 继续创建组成文档,以支持恢复程序和治理流程:

  • 当组织试图煮沸海洋时,DR文档工作就会失败 一个针对审计人员、业务领袖和IT人员的一体化计划. 它很长,很难维护,最终会成为一款搁置的软件.
  • 分层创建文档以保持其可管理. 逐步建立支持文档,以支持您的高级恢复工作流程.

降低风险和挑战

  • 关键的联系信息, 升级, 灾难宣布的责任也没有被确定或正式规定.
  • 组成需求和功能不是集中的. 组成的主要发现在多个文档中, 使审计人员的治理和监督复杂化, 高管, 和董事会成员.
  • 详细的恢复程序和外围设备信息(如.g. 网络图)没有文档化.
<选项卡le border="1" width="400"> 样例输出 三到五个详细的系统恢复流程图/检查表. 文档化的团队角色、继任计划和联系信息. 通报、评估和灾害申报计划. 组成总结. 层1、2 & 3网络图.

信息技术的最佳实践

使用这个 完整、实用、大小合适的容灾计划示例 来驱动和指导你的努力.

请选择最优的容灾部署模式和部署站点

您的灾备站点被确定为不足:

  • 以终为始. 致力于掌握所选模型并利用您的供应商关系来实现有效的容灾.
  • 直接切入正题,首先评估云计算的可行性. 在着迷于这个想法之前,请评估您的组织目前在云中进行容灾的能力.
  • 混合模型提供了两个世界中最好的东西. 通过确定适合的目的并平衡维护各种模型所需的工作,使您的策略多样化.

降低风险和挑战

  • 灾备站点不确定, 当灾难来袭时,你会手忙手乱地寻找并签约一个位置来恢复IT服务.
  • 系统和应用程序数据没有在站点外备份, 如果主站点上的所有数据副本都丢失了,那么您可能会丢失关键的业务数据和逻辑.
<选项卡le border="1" width="200"> 样例输出 云容灾应用评估. 适用于不同环境的TCO工具. 解决方案决策和执行演示.

信息技术的最佳实践

使用信息技术的蓝图, 选择最佳容灾部署模型,以帮助您了解您的灾备站点的选择范围.

通过BCP试点将组成研究结果扩展到业务流程弹性

将你在组成中的发现整合到整体BCP中:

  • 作为一名IT领导,您拥有领导BCP项目的技能和组织知识, 但最终 商业领袖需要拥有BCP -他们比任何人都更了解恢复业务运作的流程和要求.
  • BCP的传统方法是一个庞大的项目,大多数组织如果不聘请顾问就无法执行. 要在内部执行BCP, 把任务分成可完成的小块.

降低风险和挑战

  • 目前还没有正式的计划可以从关键业务流程的中断中恢复过来.
  • IT系统恢复的业务需求可能在全面审查业务连续性需求之后发生变化.
  • 核心系统之外的恢复, IT部门可以参与人员的调动, 成像和发布新的终端用户设备, 等. 识别这些需求是BCP的一部分.
<选项卡le border="1" width="200"> 样例输出 一个业务单位的业务流程集中的BIA. 一个业务单元的恢复工作流程. 一个业务单元的供应列表. BCP项目路线图.

信息技术的最佳实践

使用信息技术的蓝图, 制定业务连续性计划,开发和部署可重复的BCP方法.

测试计划以验证能力,并对员工进行恢复过程的交叉培训

你没有一个定期测试DR计划的程序:

  • 大多数DR测试只关注技术 而不是容灾管理过程——这是大多数计划失败的地方.
  • 要积极主动 建立年度测试周期,并提前确定和协调资源.
  • 更新复制文档 根据计划中的发现,跟踪你在一段时间内做出的改变.

降低风险和挑战

  • 该计划可能仍然存在一些漏洞,如果不进行某种形式的测试,就很难发现这些漏洞.
  • 客户和审核员可能要求进行某种形式的DR测试.
  • 员工可能不熟悉DR文档,也不知道如何使用.
  • 没有正式的周期来验证和更新组成.
<选项卡le border="1" width="200"> 样例输出 DR测试准备情况评估. 测试手册. 测试计划摘要模板. 容灾测试问题日志和分析工具.

信息技术的最佳实践

利用信息技术的蓝图来发现你恢复过程中的不足 通过DR测试减少昂贵的停机时间.

“实施”组成的管理

将容灾规划注入关键操作流程,支持计划维护:

  • 重大变更或多次例行变更会对容灾能力和需求产生重大影响. 每次例行变更后都要更新DR计划是不可行的,所以 利用BIA中的关键层来集中您的变更管理工作. 关键系统需要更严格的更改程序.
  • 同样的, 您可以将关键层构建到更集中的项目管理和性能度量过程中.
  • 在您的票务系统中安排常规任务,以验证功能,并对员工进行关键恢复程序的交叉培训(例如.g. 备份和恢复).

降低风险和挑战

  • 组成不会“根据需要”更新——因为业务和技术变化导致需求和功能发生变化.
  • 组成与日常操作断开连接.
<选项卡le border="1" width="200"> 样例输出 审查和更新变更、项目和绩效管理过程. 审查和更新内部sla. 审查和更新数据保护和备份程序.

检查基础设施服务提供商的容灾能力

在关键操作流程中插入容灾规划,支持计划维护:

  • 检查供应商容灾能力 IT供应商的核心管理能力是什么.
  • 随着您的DR需求每年都在变化,请确保您的 供应商的服务承诺 仍然满足您的容灾需求.
  • 识别供应商服务产品和容灾能力的变化.g. 额外DR支持的更高成本, 减少潜在停机时间的新产品, 或相反, 容灾能力的下降.

降低风险和挑战

  • 供应商的能力还没有根据业务需求进行衡量.
  • 目前不存在内部能力来评估供应商满足承诺的sla的能力.
  • 公司内部不存在跟踪供应商可恢复性表现的能力.
<选项卡le border="1" width="200"> 样例输出 定制的供应商组成问卷. 审核供应商sla. 根据调查结果选择保持或改变服务水平或供应商提供的服务.

阶段4:洞察力和成就

组成成熟度评估结果的截图

确定目标的进展

进一步的优先计划的截图.

优先考虑进一步的行动

组成规划路线图的截图

在路线图中添加主动性

总结成就

  • 制定了一个高优先级计划的列表,可以支持DR计划的长期扩展和维护.
  • 审查和更新成熟度评估,以确定进度并传达DR计划的价值.

总结成就

知识的获得

  • 为rto和rpo确定合适的目标.
  • 确定需要消除RTO/RPO差距和降低风险的DR项目.
  • 使用桌面计划创建和验证事件响应计划.

流程优化

  • 您的组成流程得到了优化,从BIA到记录事故响应计划.
  • 优化了供应商评估流程,以确定和评估供应商满足您的容灾需求的能力, 并在每年的基础上重复这个评估.

交付完成

  • 组成成熟度计分卡
  • 组成业务影响分析工具
  • 组成路线图的工具
  • 事件响应计划和系统恢复工作流程
  • 高管表示

信息技术的洞察力打破了组成最顽固的神话

神话# 1: 减灾计划需要把重点放在重大事件上,例如自然灾害和其他具有高度破坏性的事件,例如火灾和洪水.

现实: 对业务连续性最常见的威胁是硬件和软件故障, 网络中断, 和停电.

神话# 2: 有效的组成s从识别和评估潜在风险开始.

现实: DR isn’t about identifying risks; it’s about ensuring 服务连续性.

神话# 3: drp与日常操作和事件管理是分开的.

现实: 容灾需要与业务管理相结合,保证业务的连续性.

谬论# 4: 我使用co-lo或云服务,所以我不必担心容灾. 这是我的供应商的责任.

现实: 你不能外包责任. 您不能仅仅假设您的供应商的DR功能将满足您的需求.

误区5: 组成必须包含所有细节,以便任何人都可以执行恢复.

现实: IT DR不是一部飞机灾难片. 您不会要求业务用户执行系统恢复, 就像你不会真的希望一个没有飞行经验的乘客降落飞机一样.

用这些工具和模板补充核心文档

  • 一个Excel工作簿 工作手册,以跟踪DR、业务连续性和应急响应团队的关键角色. 还可以跟踪DR文档位置和DR所需的任何硬件采购吗.
  • A 调查问卷模板 和一个 反应追踪工具 组织你对供应商容灾能力的调查.
  • 通过定义将升级与您的DR计划集成 事件严重程度和升级规则 . 使用此示例作为模板,或将思想集成到事件管理过程中您自己的严重性定义和升级规则中.
  • 一个学者 时间跟踪工具 来捕获容灾或测试场景中的进度. 在恢复任务启动和完成时,根据目标实时监控进度.

下一步:相关信息技术研究

选择最佳容灾部署模型 评估云、co-lo和本地灾难恢复部署模型.

制定业务连续性计划 简化传统方法,使BCP开发可管理和可重复.

准备组成审核 评估当前组成的成熟度, 识别需要改进, 并完成一份可审核的组成摘要文件.

记录并维护您的灾难恢复计划 给你的组成节食:保持健康,苗条,准备好行动.

通过DR测试减少昂贵的停机时间 改进您的DR计划以及您的团队执行它的能力.

实施危机管理最佳实践 有效的危机应对将危机对声誉的影响降到最低, 盈利能力, 和连续性.

研究撰稿人和专家

  • Alan Byrum, Intellitech业务连续性总监
  • Bernard Jones (MBCI, CBCP, CORP, ITILv3), B Jones BCP咨询有限责任公司所有者/负责人
  • Paul Beaudry,理查森国际有限公司技术服务助理副总裁
  • Yogi Schulz, Corvelle咨询公司总裁

术语表

  • 业务持续管理计划: 由最高管理层支持的持续管理和治理流程,并提供适当的资源来实现和维护业务连续性管理. (来源:ISO 22301:2012)
  • 业务持续发展计划: 指导组织响应的文件化程序, 恢复, 重新开始, 并在中断后恢复到预定的操作水平. BCP不一定是一个文件,而是程序和信息的集合.
  • 危机: 具有高度不确定性的情况,破坏了组织的核心活动和/或信誉,需要采取紧急行动. (来源:ISO 22300)
  • 危机管理小组: 针对破坏性事件,负责制定和实施综合计划的一群人. 该小组由经过事故管理培训并准备对任何情况作出反应的核心决策人员组成.
  • 灾难恢复计划(组成): 与IT基础设施的持续可用性和恢复相关的活动.
  • 事件: 损失,损失有导致损失能力的事件, 或者破坏, 一个组织的操作, 服务, 或者函数, 如果不是管理, 会升级为紧急事件吗, 危机, 或灾难.
  • BCI编者按:在大多数国家,“事件”和“危机”是可以互换使用的, 但在英国,“危机”一词通常用于处理涉及应急服务的大范围事故. BCI更喜欢使用“事件”用于正常的BCM目的. (来源:商业连续性研究所)

  • 事件管理计划: 在事故发生时使用的明确定义和文件化的行动计划, 通常包括关键人员, 资源, 服务, 以及实施事故管理流程所需的行动.
  • 灾难: 服务中断,需要IT部门重新构建服务, 从备份恢复, 或者在备份站点激活冗余.
  • 恢复点: Time elapsed between the last good copy of the data being taken 和 failure/corruption on the 生产 environment; think of this as 数据丢失.
  • 实际恢复点(RPA): 灾难事件后当前可实现的恢复点, 鉴于现有的人, 流程, 和技术. 这反映了灾难场景中实际可能发生的最大数据丢失.
  • 恢复点目标(RPO): 灾难事件后的目标恢复点, 通常以小时计算, 在一个给定的系统上, 应用程序, 或服务. 可以认为这是可以接受的和适当的数据丢失. RPO应该基于业务影响分析(BIA)来确定可接受的和适当的恢复目标.
  • 恢复时间: Time required to restore a system, 应用程序, 或服务 to a functional state; think of this as 停机时间.
  • 实际(RTA): 灾难事件后目前可实现的恢复时间, 鉴于现有的人, 流程, 和技术. 这反映了在灾难场景中可能实际发生的预期最大停机时间.
  • 恢复时间目标(RTO): 给定系统、应用程序或服务发生灾难事件后的目标恢复时间. RTO应该基于业务影响分析(BIA)来确定可接受的和适当的停机时间.

参考书目

BCMpedia. 恢复目标:RTO、RPO和MTPD.” BCMpedia, n.d. 网络.

伯克,斯蒂芬. 公有云陷阱:微软Azure存储集群断电, 聚焦私人部门, 混合云的优势.” CRN, 3月16日. 2017. 网络.

艾略特,斯蒂芬. “DevOps和停机成本:财富1000强最佳实践指标量化.” 国际数据公司(IDC), 2015. 网络.

联邦应急管理局. 规划 & 模板. 联邦应急管理局, 2015. 网络.

美国金融业监管局. "业务连续性计划和紧急情况联系信息.” 美国金融业监管局, 2015. 网络.

美国金融业监管局. “美国金融业监管局、SEC和CFTC发布了业务连续性规划联合咨询.” 美国金融业监管局, 2013. 网络.

高斯林,梅尔和安德鲁·海尔斯. 《澳博体育app下载》.” 连续性的中央, 2009. 网络.

Hanwacker,琳达. 《澳博体育app下载》.” 激光冲徊化集团 n.d. 网络.

国土安全. 联邦信息安全管理法(FISMA). 国土安全, 2015. 网络.

尼科尔斯,肖恩. “AWS S3宕机严重到亚马逊无法进入自己的仪表盘向世界发出警告.” 注册, 3月1日. 2017. 网络.

波特,帕特里克. “BCM监管字母汤.” 阿切尔RSA组织, 2012. 网络.

菲利普·Rothstein简. 灾难恢复测试:执行您的应急计划.” Rothstein Associates Inc .)., 2007. 网络.

业务连续性研究所. 《澳博体育app下载》.” 业务连续性研究所, 2013. 网络.

灾难恢复日志. “灾难资源指南.” 灾难恢复日志, 2015. 网络.

灾难恢复日志. “博士规则 & 规定.” 灾难恢复日志, 2015. 网络.

联邦金融机构审查委员会(FFIEC). 业务连续性计划. 资讯科技考试手册资讯资料库 2015. 网络.

纽约,凯尔. “阅读Dyn关于2016年10月21日DNS DDoS攻击的声明.” 甲骨文公司 10月22日. 2016. 网络.

关于信息技术

信息技术研究集团是世界上发展最快的信息技术研究和咨询公司, 为超过30人服务,000年IT专业人员.

我们提供公正和高度相关的研究,以帮助cio和IT领导者制定战略, 及时的, 和消息灵通的决策. 我们与IT团队紧密合作,为他们提供所需的一切, 从可操作的工具到分析师指导, 确保他们为组织提供可衡量的结果.

会员等级

9.6/10
总体影响

$136,044
平均美元救了

36
平均一天救了

在每一次信息技术体验之后, 我们要求我们的成员量化实时储蓄, 货币的影响, 我们的研究帮助他们实现了项目改进.

读一读我们的会员在说什么

什么是蓝图?

蓝图被设计成路线图, 包含解决IT问题所需的方法、工具和模板.

每个蓝图都可以附带一个指导实施,该实现可以让您访问我们的世界级分析师,以帮助您完成项目.

需要额外的帮助?
尝试我们的引导实现

在这5个阶段的咨询过程中获得你需要的帮助. 您将获得与我们的研究人员的10个接触点,这些接触点都包含在您的会员名单中.

指导实现#1 -定义组成范围
  • 呼叫#1 -范围需求、目标和具体的挑战.
  • 呼叫#2 -首先确定要重点关注的应用程序/系统.

指导实现#2 -定义当前状态和系统依赖关系
  • 呼叫#1 -评估当前组成成熟度.
  • 调用#2 -识别系统依赖关系.

指导实施#3 -实施BIA
  • 呼叫#1 -创建一个影响评分量表并进行BIA.
  • 调用#2 -确定每个系统的RTO和RPO.

指导实现#4 -恢复工作流程
  • 调用#1 -创建一个基于桌面计划的恢复工作流.
  • 呼叫#2 -找出恢复能力的差距.

指导实施#5 -项目和行动项目
  • 电话#1 -确定并优先考虑改进.
  • 电话#2 -总结结果并计划下一步.

作者(年代)

弗兰克它起码

贡献者

  • Alan Byrum, Intellitech业务连续性总监
  • Bernard Jones (MBCI, CBCP, CORP, ITILv3),业主/委托人,BJones BCP咨询有限责任公司
  • Paul Beaudry,理查森国际有限公司技术服务助理副总裁
  • Yogi Schulz, Corvelle咨询公司总裁
  • Nicole Paredes,国家收费和道路管理局的IT经理
  • 特洛伊·克莱顿,网络管理员,辅助赛博
访问我们的 COVID-19资源中心 和我们的 成本管理中心
超过100名分析师正等着接听您的电话: 1- x2019