正在肆虐的新型冠状病毒疫情给全球经济的发展带来了严重影响。企业需要重新考虑“业务连续性计划(BC)和灾难恢复计划(DR)”,“D”(灾难恢复)可能出现最糟糕的表现,“C”(连续性)的数值已从常数变为一个变量。
从历史上看,大多数数据中心的业务连续性计划都是基于本地情况。通常灾难只会对某个区域造成了严重破坏,很少有人想到这个区域是整个地球。
全球知名的数据中心标准组织UptimeInstitute公司的首席技术官ChrisBrown说,“我认为,很多人会想当然地认为,当灾难来临时将有足够的时间做出响应。我认为新型冠状病毒疫情告诉大家的是,病毒将会通过人类的活动非常迅速地传播到世界各地,其速度远远超过人们对此做出的反应。”
关键任务IT工程服务商i3Solutions集团董事长EdAnsett表示:“我们过去50年一直在为防御核攻击做好规划,这是人们公认的主要威胁。并围绕病毒传播进行了大量建模,但是事实上我们对新型冠状病毒并不了解,也难以应对。”
心态的改变
冠状病毒疫情对于全球各地的数据中心至少目前还不算是强烈的风暴。因为全球的数据中心大部分都可以正常运行。虽然一些数据中心设施现在已经不堪重负,但是总体而言,大多数数据中心基础设施还是展现出相当大的弹性。
行业专家指出,现代企业数据中心如今可以通过只有几名现场工作人员的管理就可以正常运行。通常可以将现场人员削减到两名,而且还要调整轮班时间。
数据中心运营商DigitalRealty公司全球运营高级副总裁DannyLane表示:“为了应对疫情,我们制定了合理的轮班时间表,以最大程度地减少现场工作人员,同时确保大多数设施在工程和安全方面实现全天候覆盖。DigitalRealty公司的所有团队都采取了社交远离的措施,面对面会议已被电话会议或视频会议所取代。我们继续允许授权人员进入数据中心,但我们要求所有人员只在必要的情况下进入数据中心。如有必要,我们会在人流量较高的位置监视数据大厅的人员流量,并在需要时使用人员管控方法来支持社交远离。”
数据中心运营商NTT公司全球数据中心运营高级副总裁BobWoolley表示,该公司的数据中心已经实施一人或两人轮班制度,其轮班时间从8小时延长到12小时,其中包括轮班成本较高的加利福尼亚州。轮班制将进行现场监控,并确保数据中心运行连续性。
此外,数据中心维护和技术团队将在工作日被安排定期轮班。有时数据中心主管可能会代替现场技术人员,从而使这些技术人员可以在家远程工作。Woolley说,由于现在禁止非必要人员进入数据中心,因此很多数据中心裁减了一些维护人员。
他说,“实际上,我们现在并不需要那么多的维护人员。而对于某些数据中心园区来说,可以只对其核心设施进行轮班的监视。”他承认,应对如此大规模的事件,目前还没有固定的模式可以遵循。
Woolley说:“目前的整体理念是,尽量减少与核心技术人员的接触,而他们实际上知道如何解决数据中心可能出现的问题,这些都是我们要以特殊方式保护的人才。这种特殊的保护级别旨在使这些具有独特能力的人才能够保持数据中心正常运行。”
数据中心运营和技术人员被分配到一栋建筑物工作,并且不得在建筑物中随处走动。他们可以从建筑物的设备装卸入口进入,或从客户未使用的入口进入。而在客户大厅,接待人员需要穿戴防护服接待客户。或在某些情况下,在数据中心外部的客厅接待客户。
Woolley说:“我们的客户是一些最重要的关键服务提供商,他们正在努力保持数据中心基础设施的正常运行,以便企业可以召开电话会议。这些数据中心仍在努力扩大自己的足迹,因为正努力满足用户需求。”
全球最大的数据中心运营商Equinix公司美洲区总裁JonLin表示,该公司将继续遵守所有政府法规和公共卫生指南。
他表示,Equinix公司也正在执行人员配置最小化的政策,尽管其当前的策略是减少每个员工在其指定综合设施中花费的时间。为了最大程度地减少客户对数据中心的访问,Equinix公司正在加强其智能机械手服务。数据中心提供商及其客户总体上比过去更多地依赖于智能机械手服务和远程管理工具。
JonLin说:“在冠状病毒确诊病例数较高的地区,所有IBX(国际商务交易所)的访客都必须由安全人员使用非接触式红外温度计进行温度检查。那些体温高于37.3摄氏度的人员不得进入。”
UptimeInstitute公司首席技术官ChrisBrown表示,对于某些数据中心来说,在异地的工作人员(包括数据中心设施经理)都被要求居家隔离,除非必须在现场处理事务。通常采取每天两个轮班的制度,并要求配备第三个轮班小组,以防主要工作人员出现感染症状。
轮班之间的交接现在采用的是非接触式的形式。他解释说:“一个班次的工作人员在将控制室消毒清洁之后然后离开,另一班次人员再进来,他们可以通过手机进行沟通协调。”
此外,还要调整典型的轮班表(通常包括关键设施区域的演练,例如检查数据层、机房和运营设施)。在正常情况下,这种演练的好处之一是使工作人员能够在问题发生之前就会事先发现。而在目前可行的情况下,这种演练将被远程监控所取代。
对远程监控工具进行长期投资
Brown表示,一些数据中心运营商正在对远程监控工具和服务进行长期的资本投资,这是冠状病毒疫情对正常管理模式产生长久影响的第一个明确迹象。在最糟糕的情况下,尽管在这种情况下可能会推迟关键设施的维修和更换,但此类工具可能会使数据中心设施正常运转而无需现场人员维护。
他说,“我所知道的所有数据中心都在使用远程监视和远程控制的各种功能,以更好地运行他们的数据中心,减少轮班、减少设施人员数量,或者不让工作人员在数据中心随处走动,这可以更好地保护他们。”
裁员会成为永久性的措施吗?
从总体上讲,自从冠状病毒疫情开始以来,技术和措施的转变在一定程度上是导致最终用户获得优质服务的原因。到目前为止,还没有重大互联网或云计算服务中断的报道。也没有关于大型面向公众的企业(例如大型银行)由于其技术基础设施故障而导致业务中断的报告。
但现在才持续一两个月的时间。对于数据中心运营商来说,在更长时间内保持数据中心正常运行的挑战是巨大的。
i3Solutions集团董事长EdAnsett警告说:“我们遇到的问题是认为可以通过自动化来控制一切,并认为自己拥有遥控和管理之类的工具。我认为这在很大程度上是对的,但也有例外情况。如果有一件事出错,例如用户无法从银行提取资金,可能只是一个网络补丁的问题,但在疫情持续的情况下,这种情况将会加剧,从而影响数据中心运营商的声誉。”
但Ansett认为,自动化技术可以在疫情过后的数据中心维护中发挥积极作用。从维护过程中消除人为干预可以减少人为错误的机会。使其人工流程更加标准化,这可能会带来进一步的好处,使维护流程更易于培训,从而解决了先前存在的技能短缺问题。
他说:“数据中心每次人员进入时,它出现故障的可能性就会成倍增加。这就是容易造成数据中心故障的人为因素。”
但UptimeInstitute公司首席技术官ChrisBrown表示,以往的经验表明,一旦危机结束,包括数据中心管理人员在内的员工往往会回到熟悉的工作模式。
他说:“很多人都说,这将改变我们今后的生活和工作方式。但纵观历史,每当人们面临重大挑战时都会感叹:‘这是改变生活的时刻!’。但是生活和工作其实并没有太大改变,可能只有一些微小的改变,但是通常人们一旦忘记了痛苦,他们就会回到原有的工作方式。
他表示,根据其25年的数据中心自动化经验,从未见过的一件事就是减少数据中心工作人员的数量。可以了解的一件事可能是人们想要减少轮班人员之间的联系,并更多地依赖自动化和监控技术。但是纵观历史,不知道其中某些突发事件能否成为新的规范,并且会导致某些行为发生永久性的改变。