随着信息化进程的加快,电子商务和电子政务逐渐成为社会经济的重要组成部分。将业务建立在IT系统上的企事业单位开始重视信息的安全性,这同时也是单位决策者最为关心的问题。影响信息安全的因素是多方面的,因此需要采用不同的技术手段来解决。所谓容灾,就是为了防范由于自然灾害、社会动乱和人为破坏造成的企事业单位信息系统数据损失的一项系统工程。
正确认识容灾
业务连续性(BC)与数据安全性是密切相关的,数据安全性是实现BC的基础。统计结果表明,在过去5年内,全球93%的公司有过丢失重要数据而造成业务损失的经历,72% 的业务没有可靠的BC计划,只有18%的最终用户的数据得到了可靠保护。许多企事业单位虽然已经认识到信息安全的重要性,但没有实施保证信息安全的行动,这其中的原因是多方面的,最主要的一个就是在如何建立容灾系统的问题上存在种种疑惑。我国企事业单位在实施容灾工程方面尚处于初级阶段,对容灾技术的了解主要来自国外厂商的一些介绍。某些已经建成并投入使用的容灾系统,只能实现单一业务的数据容灾,而且存在总体投入成本高、投资回报率低、容灾数据的可恢复性难以验证、需要购买厂商的技术支持、管理成本居高不下等问题。以上种种因素使得部分准备建立容灾系统的用户裹足不前。
我们应该如何认识容灾呢?容灾是一项系统工程。用户在建立容灾系统之前,首先要进行全面的系统分析,其中包括业务系统风险分析、容灾系统对业务系统的影响分析和投资效益分析。风险分析是检查那些可能造成数据损失或者系统瘫痪的外在和内在因素。既然是容灾,必须充分考虑业务系统所在地的自然环境,针对可能发生的灾难,准备相应的容灾对策。容灾系统肯定对业务系统的性能有一定影响,因此,对于那些高负荷运行的业务系统必须认真计算。建立容灾系统,除了需要购买必要的设备外,还要考虑系统维护管理成本和使用通信线路的费用。
设计容灾系统,必须提出设计指标。既然建立容灾系统是为了数据或者业务的快速恢复,容灾系统的设计指标就与业务系统的数据可恢复性密切相关。RTO(Recovery Time Objective)代表容灾系统在灾难发生后数据或者系统恢复所用的时间。RPO(Recovery Point Objective)代表灾难发生时已经备份的数据与生产中心数据的时间差。此外,设计容灾系统还需要考虑选择容灾备份中心地点。数据库容灾要保证备份数据库的一致性,最好能够对备份数据库进行对生产系统无干扰的实时检验。通常情况下,容灾系统投资较大,使用概率较低,因此,需要对总体投入成本(TCO)和投资回报率(ROI)进行认真的分析和计算。
目前,市场上有多种成熟的容灾技术可以选择,这些容灾技术最主要的技术差异在于数据复制的发起平台和接受平台。数据备份后的异地保存方式依靠备份介质的移动和保存。存储子系统逻辑卷之间的数据复制依靠存储子系统的数据复制软件。应用系统逻辑卷之间的数据复制依靠主机卷管理软件的远程数据复制功能。虚拟存储系统之间的数据复制依靠虚拟存储管理平台的逻辑卷复制软件。数据库服务器之间的数据库复制依靠数据库ODS功能的扩展。
企事业单位中的决策者在实施容灾系统工程时,必须制定详细的容灾计划。通过制定容灾计划,可以帮助用户根据自己的业务模式来确定容灾系统的设计要求,根据系统分析决定容灾系统设计参数,根据业务系统的区域网络环境选择合适的容灾技术。容灾计划还应该包括制定灾难发生后的应急程序,建立启动容灾系统的管理机构和各方面的行动小组,以及一些非技术的因素(如损失评估与保险商、设备重建与供应商、社会公共关系与系统用户等)。
总而言之,容灾是一项系统工程,必须通过制定详细的容灾计划来实施。在后续文章中,将就如何建设容灾系统的其它问题进行深入探讨。
容灾工程的系统分析
容灾工程的系统分析包括:业务系统的风险分析(Risk Analysis),容灾系统对业务系统的影响分析(Business Impact Analysis)和容灾系统的投入和产出分析(Cost-Benefit Analysis)#p#副标题#e#
业务系统的风险分析
建立容灾工程的最终目的是保证在灾难造成对业务数据破坏后,业务数据的可恢复性,所以,首先要分析本地区影响业务数据安全性的灾难有哪些种类。灾难可以分为自然灾难,社会灾难和人为灾难。
自然灾难包括火灾、水灾、地震等突发自然灾害造成的业务系统的灾难,而不同地区的自然灾害的发生有一定的统计概率,而且自然灾害的影响范围是有一定区域的,对自然灾害的风险分析相对比较容易。在实施容灾工程时,特别要注意容灾备份中心的选择,建立在自然灾害较少的地方,在美国,一些州通过立法,规定容灾备份中心可选择的地区。
社会灾难包括区域性电力系统故障,恐怖分子制造的爆炸、战争引起定点破坏等灾难,国内外社会不安定因素的存在,必须引起足够的忧患意识。美国“9?11”事件就是一个很好的例子,一些没有采取任何容灾措施的企业由于核心业务数据的破坏而最终破产,而一些采用了容灾措施的企业得以生存,有的建立了备用业务系统的企业的业务能够很快恢复。
人为灾难包括IT系统管理人员的误操作、来自网络的恶意攻击、计算机病毒发作造成的数据灾难。近几年,人为灾难更为突出,特别是计算机病毒造成的数据损失触目惊心。最近,迅速泛滥的“冲击波”(Worm Blaster)病毒,致使全球上百万台计算机中毒,部分网络服务器瘫痪,迄今已给全球商业界造成了几十亿美元的直接损失,尽管有关公司发布了软件补丁,但余波未静,“冲击波”变种仍然伺机而动。研究结果表明,下一代电脑病毒传播的速度将更快。一种名为Flash的病毒将在极短时间内感染所有的网络,而另一种名为Warhol的病毒将在15分钟之内传遍全球。采用后发制人策略的防计算机病毒系统难以保证数据的安全,有必要建立数据的备份机制。
容灾系统对业务系统的影响分析
数据复制操作的发起来自业务系统,不论来自系统的计算层、网络层,还是存储层,肯定会影响到业务系统的性能,对于那些要求高性能的业务系统或者已经是高负荷运行的业务系统,必须分析建立容灾系统对业务系统性能的影响。不同容灾技术对业务系统的影响不同, 比如,一个采用同步数据复制技术的容灾解决方案,如果容灾备份中心与业务中心距离超过100公里以上,需要考虑数据传输的时延对业务系统IO性能造成的影响,距离越远,业务系统IO性能下降的速度越快。
容灾系统备份系统运行平稳后,需要对备份数据(数据库)的可用性进行检查,一些容灾解决方案采用的是主/备工作方式,正常情况下,备份中心的数据是不能够打开使用的,只有在业务系统工作中断,或者切断容灾进程的情况下,才能够对备份数据(数据库)的可用性进行检查,这样做,势必对业务系统正常运行产生影响。
容灾系统包括传输数据的网络,由于网络传输拥堵或者中断等原因,数据复制同样会造成业务系统性能的下降甚至业务运行的中断,当等待传输的数据溢出数据复制发起端的缓冲区时,有可能造成数据的丢失,或者数据传输次序的混乱,破坏备份数据库的一致性,使得数据库不可恢复。#p#副标题#e#
容灾系统的投入和产出分析(CBA)
众所周知,TCO和ROI是衡量容灾系统投入和回报的主要指标,CBA强调的是投资产出的分析,从业务系统发展的角度考虑容灾系统投资的合理性。
首先,要考虑准备建设的容灾系统与正在运行的业务系统的延续性,保护前期投资,为了建立新容灾系统而对原有业务系统进行大规模改造的情况,应该尽量避免。其次,要考虑业务系统扩展对容灾系统的影响,特别是存储容量增加的影响和通信线路负荷的影响,由于单业务容灾系统使用概率很低,CBA的结果倾向于选择专业的数据容灾中心服务方式。
容灾系统的设计指标
要建设容灾工程必须提出容灾系统设计指标,作为衡量和选择容灾解决方案的参数。目前,国际上通用的容灾系统的评审标准为Share78:
备份/恢复的范围
灾难恢复计划的状态
业务中心与容灾中心之间的距离
业务中心与容灾中心之间如何相互连接
数据是怎样在两个中心之间传送的
允许有多少数据被丢失
怎样保证更新的数据在容灾中心被更新
容灾中心可以开始容灾进程的能力
Share78只是建立容灾系统的一种评审标准,在设计容灾系统时,还需要提供更加具体的设计指标。建立容灾系统的最终目的,是为了在灾难发生后能够以最快的速度恢复数据服务,所以,容灾中心的设计指标主要与容灾系统的数据恢复能力有关。最常见的设计指标有:RTO 和RPO。
各种容灾解决方案的RTO有较大差别,基于光通道技术的同步数据复制,配合异地备用的业务系统和跨业务中心与备份中心的高可用管理,这种容灾解决方案具有最小的RTO。容灾系统为获得最小的RTO,同样需要投入大量资金。
RPO反映恢复数据完整性的指标,在同步数据复制方式下,RPO等于数据传输时延的时间,在异步数据复制方式下,RPO基本为异步传输数据排队的时间。实际应用中,考虑到数据传输因素,业务数据库与容灾备份数据库的一致性(SCN)是不相同的,RPO表示业务数据库与容灾备份数据库的SCN的时间差。发生灾难后,启动容灾系统完成数据恢复,RPO就是新恢复业务系统的数据损失量。
不同的容灾解决方案的RTO和RPO是不相同的,下面列举几种容灾解决方案的RTO和RPO的对比:
设计容灾系统不能只看RTO和RPO,对于不同的业务系统和用户特殊的要求,其他一些指标有可能成为选择容灾解决方案的主要因素。譬如,某些地区为了防范一些特定自然灾害的风险,要求容灾备份中心与业务中