着手行动之前,先考虑到一切出问题的可能性,同时做好应急预案,借此机会更新陈旧部分,并务必为全部组件配备标签
在一场庞大的数据中心物理迁移工作终告成功之后,我一边打量着自己伤痕累累的双手,一边打算喝两杯以示庆祝,并仔细反思一下整个流程。虽然我认为工作“成功”了,但事实上数据中心迁移本身就不存在失败这一概念:如果某些地方出了问题,我们其实也没什么补救措施,只能继续埋头工作,直到一切恢复正常运转便了。
但真正堪称成功的数据中心迁移计划绝不能依靠运气。无论数据中心重新安置还是新数据中心的从头构建,都必须在几个月甚至几年之前就准备好一份完备的实施方案。
迁移数据中心的方式多种多样。如果预算与员工技能水平允许的话,最简单的方法无疑是在新位置建立一个全新的数据中心,并将新旧设施用高带宽线路连接起来;最后,利用虚拟化工具将所有虚拟机从旧有位置迁移到新地点——利用实时迁移。
当然这种假设的基础是我们要拥有一套完全虚拟化的基础设施,同时预算也要非常充足才行,因为我们等于是在将一切信息直接复制到新位置处。虽然投入巨大,但这种办法能够在完全不影响旧有设施运转的前提下带给我们由新服务器、存储设备以及核心网络构成的全新运算环境。另外,时间与日程安排方面的要求也会相对比较宽松,毕竟不会影响到原有的正常服务嘛。不过对于大多数机构而言这套方案最令人难以接受的就是高昂的预算。
接下来要聊的是一套混合型方案,也就是在迁移工作真正开展之前,先在新数据中心处构建部分设施,如机架及核心网络等。当迁移工作付诸实施时,旧数据中心被直接关闭,而服务器及存储设备等则以物理方式转移到新场地处。重装机架、重接线缆,接下来服务项目就能正常上线运行了。
这种方案比起直接复制在成本上来说要低得多,但会不可避免地造成至少一天的停机时间,数据与服务也有丢失的危险。整个执行流程同样处于严密监控之下,由于关键性服务与应用程序在这一阶段无法运作,而一旦存储阵列由于某些故障而无法及时恢复正常,那么停机时间就会被延长,由此造成的损失也可能无法估量。
接下来要说的是一套类似于“厨房换水槽”的方案,即在新场地处只安装供电与冷却设备,而其它一切器材都从原有设施处迁移:机架、服务器、网络、存储等等。这种方案成本最低,但整个迁移过程也最艰难而漫长。
大多数企业在重新安置办公场所或者数据中心时都会采取后两种方案相结合的处理方式。第一种方案虽然基本上不会出什么大的纰漏,也能为企业留出充分的准备时间,但所需投入的资金同样相当庞大。而其它几种方案则相对比较繁琐,需要缜密的规划方能确保整体流程的顺利实施,并应在实际行动之前对任何可能出现的不良状况做出预测。
让我们先以数据传输线路为例。现有数据中心可能是通过数条光纤与T1运营商相连通,而T1则负责将内部网络与互联网及广域网相连。没有这些线路的帮助,数据中心的功能将完全无法发挥,因此我们必须对其进行优先处理。不过话说回来,大家最好别对运营商那边的工作效率抱太大指望。连架线缆这种简单工作都可能被他们拖上好一阵子,而服务水平协议什么的这里完全就是一句空话。
根据保守估计,就算为线缆架设工作留出四到五个月的施工时间,我们仍然很可能无法按期获得完备的线路支持。为了避免这种被动情况的发生,我们最好做两手准备,即额外布置一到两条企业级传输线缆。这类线缆在安装方面远远快于专用光纤或者T1/T3线路,并能在紧要关头成为我们的救命稻草。它的效果可能并不理想,但有总比没有好。尤其是在运营商陷入一系列麻烦当中(例如线缆需要穿过某条街道,施工的前提是拿到市政许可;许可证一时拿不到,因此他们选择绕过该街道,而时间就这样被浪费掉了)的时候,这条应急线路的存在就更显宝贵。
尽可能多投入人手也是个不错的主意。在少数核心管理者的监控之下,不妨引入更多值得信任的员工在保证安全性的前提下手动并安装服务器、存储系统以及网络设备等,这对于让网站早日恢复运作相当重要。当高级网络管理员埋头处理交换机与路由器的重新配置工作时,我们实在不该再拿安装刀片机架滑轨这种纯体力活来打扰他。
此外,必须制订一份清楚的说明,将服务器与其它设备在新场所中的部署位置安排妥当。将这份材料下发给安装机架的技工小组,这样系统各部件在机架中的安装位置才不会出现错误。重视制订指导材料不仅能够加快重建速度,更会降低布线工作的难度。说到布线,我们不妨详细讨论机架通路的后备设计方案。如果大家以传统方式从核心交换机处甩出铜线以连接所有机架,那么到头来很可能会面对预算超支的情况:连入核心的子交换机及10G上传线路将不得不安置在机架顶端,而一旦空间不足,接下来的改造工程将让人头痛万分。
为一切配备标签:服务器、交换机、KVM加密狗以及全部机架导轨都不例外。负责任地讲,没有什么比由于某台关键任务数据库服务器的导轨丢失而导致手头一切工作陷入停滞更令人沮丧。另外,务必为原数据中心布局、新数据中心安装前、安装中及安装后拍摄足够多的照片资料,尤其是在迁移工作整体完成之后。
虽然有些多余,但不得不提的是,请确保负责运输工作的司机都是尽职尽责的好师傅。在小规模迁移中,服务器及其它设备可以利用SUV或是小型上车进行运输;而大规模迁移则可能涉及机架的整体搬运,这就意味着我们需要在货运码头将器材卸至集装箱内,并在目的地码头进行接收。对于企业来说,真正重要的是存储于硬件当中的数据信息,而一旦运载这些设备的载具在高速公路上以70公里的时速前行,信息部分乃至全部丢失的风险将变得相当之高。而单纯找名热心的实习生坐在车厢里看管货物基本上于事无补。
最后,一旦所有设备运抵目的地,那么在通电之前必须花点时间来检查数据及供电线缆、布线路径以及新的PDU电源负载——最好还能重新整理一遍机箱中的刀片服务器、交换机中的模块以及热插拔电源等。这些系统刚刚经历了一路颠簸,天知道哪些部件产生了些许松动。
注意观测数据中心与室外环境之间的温度差异。假设原数据中心内部温度为75华氏度,而核心交换机由于工作发热而处于90华氏度,那么一旦突然将其置于温度仅为20华氏度的室外则很可能会发生悲剧性的后果,因为电路板在骤然变冷之下很可能发生断裂。
另外,如果迁移对象是拥有成百上千交换端口的办公场所,请确保提前制定一套完备的VLAN端口分配方案。某些基础设施采用的是根据登录信息进行的动态VLAN分配机制,但有些则采取固定分配机制。我过去曾经为泛域名解析及VLAN锁定写过一些定制代码,旨在提供一套自助型VLAN分配方案。当用户们到达新的工作场所、将自己的计算机接入数据插口并打开网页浏览器时,一套网页应用程序将自动启动,提示他们为自己的系统选择适当的VLAN。
这套网页应用程序的后端代码会向对应交换机发送一条SNMP调用请求,并为该端口重新分配VLAN。几秒钟之后,用户即可正常使用。这种方式在处理打印机及其它网络设备时也同样便捷,因为管理员能够登入该工具在普通用户无法查看的情况下为VLAN分配端口。此类工具无疑能为节省大量宝贵时间。
待到一切准备就绪,启动各种设备并关注我们的监控系统,以确保各部件工作正常。这正是采用完备的网络及服务监控系统的惟一必要原因,即根据运行状况向我们反馈一切可能存在的问题。不过当一切步入正轨、设备正常运转且一如预期,杯中的威士忌似乎变得更加爽口,而迁移工作中那些恼人的划痕与擦伤也似乎不再重要。相信我,这样的感觉真的很不错——也许这就是成就感吧。
原文名:How to move a data center without having a heart attack 作者:Paul Venezia
原文链接:http://www.cioage.com/art/201201/95713.htm