企事业单位在数据中心机房内配置计算机设备、服务器、存储等IT设备及配套的基础设施(包含:供配电系统、空调系统、监控系统、消防系统、运维管理等系统),并按信息系统的重要性分别采取容错或冗余等保障措施。
为规范数据中心基础设施的运维管理,各企事业单位应参照相关国家标准建立运维管理体系、制度、流程等措施,保证信息化业务安全、稳定、正常运行。图1示出了保证数据中心正常运行的内容。
国标GB/T51314-2018《数据中心基础设施运行维护标准》是根据住房和城乡建设部《关于印发<2015年工程建设标准规范制订、修订计划>的通知》(建标[2014]189号)的要求,由中国建筑标准设计研究院有限公司、工业和信息化部电子工业标准化研究院会同中国石油天然气股份有限公司勘探开发研究院等有关单位共同编制完成。
这是一本技术标准,主要运行维护对象是数据中心基础设施系统和设备,不包括电子信息系统和相关设备。这个标准适用于已投入运行的数据中心。
一、数据中心运行维护范围
数据中心基础设施运行维护范围应包括下列系统:电气系统、通风空调系统、消防系统、智能化系统。
电气系统的运行维护范围应包括:供配电系统、不间断电源和后备电源系统、照明系统、配电线路布线系统、防雷与接地系统。
通风空调系统的运行维护范围应包括:冷源和水系统、机房空调和新风系统。
消防系统的运行维护范围应包括:火灾自动报警系统、消防联动系统、自动灭火系统。
智能化系统的运行维护范围应包括:环境和设备监控系统、安全防范系统。
数据中心正式投入使用前应进行综合系统测试。运行维护团队宜参与基础设施系统和设备安装、调试和验证的过程。
二、数据中心运行维护的基本目标
通过有效地计划、组织、协调与控制,确保电子信息设备运行环境稳定可靠。
通过科学管理,实现数据中心基础设施运行维护服务与经济性的最优化。
数据中心基础设施的运行维护宜按不同设计或建设等级进行。
数据中心场地周边的地质灾害、水灾、火灾等隐患应定期进行检查。
电力、制冷和消防运行维护人员发现基础设施系统和设备隐患、异常、故障、报警等问题,应按照事件管理程序或既定处理措施处理。基础设施系统与设备故障和维护期间,应有相应的保障措施和应急预案。数据中心运行维护操作人员应具备行业规定的职业资格。
三、数据中心运行维护规定主要内容
基础设施系统与设备运行应包括值班、监控、日常巡检、运行操作、报警和事件处理等内容。A级数据中心应24小时值班,B级和C级数据中心宜按照电子信息设备负载的重要性确定值班时间。
消防系统和安全防范系统应24小时保持正常工作状态,不得随意中断。
运行人员应按照巡检计划、周期、规定路线对基础设施系统和设备及运行环境进行巡检,巡检记录应及时、完整、真实、清晰。
A级数据中心每日现场巡检次数不应少于2次,B级和C级数据中心每日现场巡检次数不应少于1次。
有能耗计量系统的数据中心,应保证能耗计量装置正常工作,数据完整有效。数据中心能耗数据应定期进行综合分析,合理优化电气与通风空调系统的运行控制策略,提高整体电能使用效率。设备有备用或冗余的,应轮换使用。
在各企事业单位应用中,主要是大型或超大型数据中心须单独设置运行岗位,分不同专业的运行技术人员对数据中心机房及相关辅助用房和电气系统、通风空调系统、消防系统、智能化系统进行实时监控和现场安全值班、日常巡检、运行操作、报警和事件处理等内容。
四、数据中心运行维护管理注意事项
维护工作应包括预防性维护、预测性维护和维修等内容。
基础设施系统和设备应进行标识,标识应设置于显著位置。
保修期满的设备应采取措施确保维护保养服务的连续性。
基础设施设备周围应保持整洁,无杂物堆放,确保维护维修通道通畅。
数据中心维护管理人员应定期对基础设施系统和设备的运行状态进行风险分析与评估,根据评估结果进行预测性维护。
设有内置时钟的设备应定期检查并进行校准,与标准时间同步。
环境和设备监控系统、安全防范系统宜定期对数据进行备份,并对备份数据进行验证。
在各企事业单位应用中主要是大型或超大型数据中心单独设置维护岗位,分不同专业的维护技术人员对数据中心机房及相关辅助用房和电气系统、通风空调系统、消防系统和智能化系统进行维护、保养和维修。
五、加强“预防性维护”
“预防性维护”是指为降低数据中心基础设施系统和设备发生失效或功能退化的概率,按预定的时间间隔或按既定的准则实施的维护。
在各企事业单位应用中,预防性维护是以预防故障和功能退化为目的,对于事先防止数据中心基础设施系统设备故障的维护性工作。主要包括:电气系统、通风空调系统、消防等系统的各种运行数据和状况进行分析研究,提前对易损部件或出现风险隐患的设施进行维护、保养和维修。
“预测性维护”是指通过各种技术手段进行数据和信号的采集、分析,同时结合设备运行的寿命期统计规律或历史数据。预测可能后果,提前采取的有针对性的维护活动。
预测性维护是以运行状态为依据的维修与维护。在设备或系统运行时,对它的主要部位进行定期或连续的状态监测和故障诊断,判定设备或系统所处的状态,预测其未来发展趋势,针对可能发生的故障进行维护活动。
预测性维护首先要做定期(离线)或连续(在线)的设备状态监测,以确定在设备发生故障前的成本效益最优的维护时机。
六、数据中心基础设施的运行管理模块流程
数据中心基础设施的运维管理包括运行管理对象、运行管理支撑工具、运行管理模式、运行管理流程和运行管理持续改进等模块。
数据中心基础设施的运维管理流程,见图2。
1.运行管理流程:服务台的管理以及事件、问题、配置、变更、发布、知识、供应商、业务关系、服务级别管理等多个核心流程。
2.流程管理制度:事件、问题、配置、变更、发布、知识、供应商、业务关系、服务级别管理等9个核心流程的管理制度。
3.运维管理制度:机房管理、维护作业管理、值班管理、技术档案资料管理、设备管理、运行平台管理、重要作业公告管理等。
4.综合管理制度:安全管理、文档管理、质量管理、客户管理、外包管理及上墙制度。数据中心的服务流程、制度与流程,见图3。
其中又对规章制度、IT服务流程、操作与维护管理手册所包含的内容作了说明,如图4所示。
数据中心基础设施的运维管理需要详细编制操作手册、应急操作流程(EOP)和应急预案,提升运维团队应对突发事件的管理能力。
为了保证数据中心安全稳定地运行首先要完善基础设施的运维管理,图6就示出了必要的保障措施示意图。
七、案例分析
按照GB50174-2017国家标准规划数据中心来规划机房设备的安装与摆放是保证系统安全运行的基本准则,否则有可能出现问题。比如标准中要求供电设备的UPS和蓄电池组不能安置在同一空间内,要进行物理隔离,目的是一旦其中出现故障也不要会影响其它。
新疆一单位数据中心由于忽略了标准的要求,将电池和UPS放在一起,如图7所示。其目的是靠近UPS满足电池放电时减小电缆压降的要求。但当电池起火燃烧时的黑烟被正在运行的UPS吸收,在UPS所有电路板上覆盖了一层厚厚的无法洗掉的油烟,导致了UPS报废,相当一段时间整个数据中心停止工作,造成了不可弥补的损失。