在云计算、大数据浪潮席卷全球的大背景下,数据中心市场在经历金融危机后,重新回归快速增长通道。数据显示,2011年,我国数据中心服务市场规模达到1587.5亿元,同比增长18.6%,预计到2015年,规模将达3031.1亿元,年复合增长率为17.8%。巨大的市场蛋糕使各地开始大规模建设数据中心。
对于这些数据中心的建设,建设者和管理者往往将目光聚焦在其“绿色标签”上,从照明、制冷的节能,到IT基础设施的功耗,都会被上上下下扫描一番。在这种形势下,“高大全”的数据中心建成了。如果说数据中心的正式运营标志了启动了其生命起点,而对于其生命周期中的系统维护,则将伴随着数据中心度过漫长的数十年。
在一些数据中心管理者的眼中,数据中心IT运维并不是新鲜事儿,无论是自建维护团队还是外包第三方服务,都是必需必要的。然而,他们忽视了非常重要的一点——在后信息时代下,传统的IT服务模式,还能继续下去吗?
后信息时代的一个重要特点是数据的大批量集聚,表现为数据来源各式各样、数据规模飞速增长、数据结构纷繁复杂、数据处理手段百出,数据应用面面俱到。海量数据的爆发式增长,需要有足以支撑的IT硬件和软件系统。而对于这些无论从规模还是从功能上都大幅升级的IT系统,如果还坚持传统的“走读式”IT服务,将会遭遇巨大的挑战。
传统IT运维通常采用日常巡检与故障排除的组合式服务,需要IT服务人员要有较高的耐心和细心。对于有数十台IT设备的中小规模数据中心,这样的服务方式足以满足要求。但是,当数据中心的规模以数千台甚至上万台IT设备来计时,这种“手工作业”的模式则会被淘汰,取而代之的是“自动化”模式的IT管理服务。
在天玑科技看来,要支撑大型数据中心的可靠运维,必须依赖一个统一的运维管理平台。它应该具备这样的功能:
一、 覆盖数据中心全部IT设备,即将所有设备统一在一个平台上进行管理。
二、 该平台能够实时监控管理对象,使IT人员的管理触角可同时延伸至所有设备。
三、 能够预警,即通过阈值的正确设定,确定预警门槛,既能够“防患于未然”,又不会“虚惊一场”。
四、 能够自动数据分析,具有报表的自动生成功能,使管理运维工作及时、真实地反应出来。
具备了以上性能的运维管理平台,应该说只是具有的基本的功能框架,还需要大量的细节来加以丰富。例如:对于该平台的访问模式,是采用单一模式还是多样模式?是否接受远程访问?告警内容以何种方式发送给对应人员,语音、短信,抑或电子邮件?如何在自定义周期内进行自动触发,从而完成IT运维的例行巡检,并生产巡检报告?如何联动分析告警信息,从而判断单点告警事件的影响面有多大?如何进行风险评估,并提前解决风险点?
以上种种,看似琐碎,实则需要运维管理平台的建设者拥有丰富的实践管理经验,而并非闭门造车可以产生的。比如,倘若没有深厚的技术和经验积淀,很难设立准确的阈值,设的高了,意味着小事件变成大事件了才为人所知;而设的低了,则动不动警报乱响,大惊小怪,白白耗费各种资源。再如,运维人员和管理人员对数据分析结果要求不同,运维管理平台就要提前明确这些各自不同的要求,从而生成符合需要的分析报表和函数图形。
天玑科技在大型数据中心运维管理方面累计了丰富经验,因而拥有深厚的运维管理平台设计和建设能力。由其研发的数据中心运维管理平台,已经在多家运营商数据中心得以使用,可同时覆盖数千个节点,通过实践验证了该平台的性能完全能够满足后信息时代数据中心IT 运维的要求。
数据中心的管理是个漫长的工程,在日复一日看似单一而枯燥的监控报表中,孕育着这个时代的先进技术和不断膨胀的时代需求。运维管理这门课也在不断地增加新内容,须知停滞就会被淘汰。
后信息时代里,数据中心的建立管理影响到千万上亿人的工作和生活,将毫无疑问地成为“柴米油盐酱醋茶”之后的开门第八件事。只有先进的运维管理手段,才能保障其安全可靠的运营。它的重要性,堪比你家附近的菜场,或者我家附近的米店!