容灾是企业数据管理中的一个重要环节。近年来,国内频频发生的自然灾害事件给企业CIO提出了一个问题,灾难备份到底要做成什么程度才能满足企业的业务连续性要求
对电信运营商来说,业务运营和容灾是两大核心命题。完善的容灾系统是企业保护核心数据,让企业生产应用不间断运行、为客户提供增值服务的关键和前提。
目前,电信行业的“大集中”建设进入了省级大集中阶段,任何单点的故障都有可能导致整个系统的瘫痪。同时,电信行业也是一个讲究系统高可用性的行业,它要求关键应用服务器必须24×7的不间断运行,以满足超大量用户的实时访问。容灾系统的建设是电信行业保证整个信息系统稳定和数据安全的关键所在。
但是,到目前为止,电信运营行业对于容灾的各种要求并没有一个明确的标准,在已有的系统之中,基本上都是以省级电信运营商自我选择为主。
容灾系统的两个关键指标
一个适合客户使用的容灾备份系统要保证灾难发生时系统能够做到最快恢复和最小损失。RPO和RTO是衡量容灾系统的两个重要指标。RPO(RecoveryPointObjective)是指灾难发生后,容灾系统能把数据恢复到灾难发生前时间点的数据,它是衡量企业在灾难发生后会丢失多少生产数据的指标。RTO(Recovery Time Objective)则是指灾难发生后,从系统宕机导致业务停顿之刻开始,到系统恢复至可以支持业务部门运作,业务恢复运营之时,此两点之间的时间。RPO可简单的描述为企业能容忍的最大数据丢失量,RTO可简单的描述为企业能容忍的恢复时间。
理想状态下,希望RTO=0,RPO=0,即灾难发生对企业生产毫无影响,既不会导致生产停顿,也不会导致生产数据丢失。但显然这不现实,是乌托邦式的梦想。企业要做的是尽量减少灾难造成的损失。
RTO时间越短,即意味要求在更短的时间内恢复至可使用状态。虽然从管理的角度而言,RTO时间越短越好,但是,这同时也意味着更多成本的投入,即可能需要购买更快的存储设备或高可用性软件。对于不同行业的企业来说,其RTO目标一般是不相同的。即使是在同一行业,各企业因业务发展规模的不同,其RTO 目标也会不尽相同。因此,企业在构建容灾备份系统时,首先要找到对企业自身而言比较适合的RTO 目标,即在该目标定义下,用于灾难备份的投入应不大于对应的业务损失。
容灾系统的选择与制定
容灾系统是指在相隔较远的异地,建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。容灾技术是系统的高可用性技术的一个组成部分,容灾系统更加强调处理外界环境对系统的影响,特别是灾难性事件对整个IT节点的影响,提供节点级别的系统恢复功能。
其中,数据容灾就是指建立一个异地的数据系统,该系统是本地关键应用数据的一个实时复制。应用容灾是在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备份应用系统(可以是互为备份),在灾难情况下,远程系统迅速接管业务运行。数据容灾是抗御灾难的保障,而应用容灾则是容灾系统建设的目标。
由于电信运营行业自身的特点,即在同一时段内有大量的用户进行实时访问,不同用户之间的需求又是千差万别。同时,客户对于网络服务体验的要求也是越来越高。仅仅进行数据容灾已经不够了。
事实上,电信运营商已不再以单纯的IT环境为对象,而是将快速恢复整个业务流程及运营作为最终目的,其中的关键,就是恢复核心数据及关键业务应用的运行。
基于“快速恢复整个业务流程及运营”和“恢复核心数据及关键业务应用的运行”这两个关键点。企业在制订灾难备份策略的时候,要考虑以下因素:主要的投资和合理的成本,这其中要考虑后备中心的设施、网络扩展的成本以及新设备的成本等;分析业务程序的重要性和优先级;修改数据处理的理念,制定应用开发、操作和用户的新规则;清醒地认识剩余风险,定期地对方案进行重新评估;高级管理层的支持等等。
在分析灾难备份方案时,主要包括6个步骤:确定业务要求、确定数据处理要求、设计备份方案、选择符合设计要求的产品、实现备份方案和不断更新方案。而权衡实施一个什么样的灾难备份方案,则应该从“方案能解决哪种灾难?什么样的数据必须多长时间恢复?企业可承受多少数据丢失?”这三个方面入手。