一、建立信息化的运维管理平台系统
云计算数据中心的运维管理应从数据中心的日常监控入手,事件管理、变更管理、应急预案管理和日常维护管理等方面全方位地进行数据中心的日常监控。实现提前发现问题、消除隐患,首先要有完整的、全方位实时有效的监控系统,并着重监控数据的记录和技术分析。
数据中心的业务可以概括为:通过运行系统来向客户提供服务。没有信息系统的支撑来运行IT系统就如超市里仍然采用手工结账一样不能让顾客满意。信息化的数据中心运维管理平台系统包括如下方面:
机房环境基础设施监控管理系统
IT系统监控管理系统
IT服务管理系统
二、理清云计算数据中心的运维对象
数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。云计算数据中心运维对象共可分成5类:
(1)机房环境基础设施部分。这里主要指为保障数据中心所管理设备正常运行所必需的网络通信、电力资源、环境资源等。这部分设备对于用户来说几乎是透明的,因为大多数用户基本并不会关注到数据中心的风火水电。但是,这类设备如发生意外,对依托于该基础设施的应用来说,却是致命的。
(2)在提供IT服务过程中所应用的各种设备,包括存储、服务器、网络设备、安全设备等硬件资源。这类设备在向用户提供IT服务过程中提供了计算、存储与通信等功能,是IT服务最直接的物理载体。
(3)系统与数据,包括操作系统、数据库、中间件、应用程序等软件资源;还有业务数据、配置文件、日志等各类数据。这类管理对象虽然不像前两类管理对象那样"看得见,摸得着",但却是IT服务的逻辑载体。
(4)管理工具,包括了基础设施监控软件、监控软件、工作流管理平台、报表平台、短信平台等。这类管理对象是帮助管理主体更高效地管理数据中心内各种管理对象,并在管理活动中承担起部分管理功能的软硬件设施。通过这些工具,可以直观感受并考证到数据中心如何管理好与其直接相关的资源,从而间接地提升的可用性与可靠性。
(5)人员,包括了数据中心的技术人员、运维人员、管理人员以及提供服务的厂商人员。人员一方面作为管理的主体负责管理数据中心运维对象,另一方面也作为管理的对象,支持IT的运行。这类对象与其他运维对象不同,具有很强的主观能动性,其管理的好坏将直接影响到整个运维管理体系,而不仅仅是运维对象本身。