随着企业的日益扩大和业务的发展,以数据中心为代表的IT系统的规模和复杂性都在与日俱增。管理日益增多的硬件资产和充分利用资源是数据中心IT运维人员所面临的一项重大挑战,而且越是新的技术就越会带来更多的挑战。
谁都希望数据中心是一个整洁透明的纯净环境,所有的内容配置、设备使用情况、资源利用程度都清晰可见,但对于当前的运维环境这似乎是可望而不可及的奢望。
如何改善IT部门的服务质量?如何降低成本?如何增强IT架构的灵活性?如何提升IT适应业务改变的灵敏性?这都是新时期的运维模式所需要解决的问题。
转变运维模式
目前,我们很多企业的运维管理仍然停留在应对式的模式上,基本思路即是监控多数设备的运行,看哪里会出现问题,然后就是发现问题,再组织力量去解决问题。这种方式的最大弊端是,虽然及时发现了问题并解决,但是却没有顾及到因问题产生而带来的严重后果,也无法预测或杜绝这种后果的产生。
很不幸地是,我们的很多用户都处在这样一种被动的管理方式中。因为缺少一个有效的配置管理系统作为支撑,无法管理整个IT系统的配置和运营情况。所以,企业并不能及时了解和管理它的配置情况,也无法预知哪些环节会出现问题。它看到的只能是问题出现的局部,而不能看到全局以及与之相关联的部分。而我们所面对的IT系统是相当庞大的,单凭运维人员手工管理显然是做不到的,所以说要改变运维模式,提升运维质量。
当企业意识到这个模式并不能完全处理某些问题之后,才会试图将运维模式向主动式转变,此时一定需要有配置管理系统来支撑,以管理整个IT基础架构和IT基础设施。当然如果能加上变更管理、资产管理等一系列流程管理则会更好,运维模式可能会更进一步向服务模式转变,这是IT运维的最高阶段。但这个转变过程并不是在短时间完成的,需要一个发展适应的过程。
IT运维与业务应用
运维模式的转变,在一定程度上决定了IT支撑业务应用转型的能力有多强。在企业中,很多时候从业务部门的角度来看,IT支撑业务的能力是被打个问号的,并不像IT部门自己所描述的那么灵活、那么有效。
很多人把IT运维看作是IT技术的表现,与业务的关键性没有直接的联系,而是把整个IT系统以及基础设施的搭建看得与业务更关联一些。但在实际环境中则不应该是这样,因为IT运维的方式并不是在这个系统建设之后才开始筹划的,应该是在IT系统设计、规划架构的时候就应该确定下来的。
IT体系结构会随着业务的转变而发生很大的变化,因此配置管理系统的引入可能是第一步要做的事情。很多用户也都在探索,自己究竟应该从哪方面入手才能根本性地改变自己的IT运维质量?IT运维并不是简单的技术专家会诊,而应该是有针对性地按照信息处理方式管理。而配置管理系统就是将各种各样的信息整合在一起,汇集成对IT运维有用的信息,然后用最直观、最有效的方式来展现在您面前,从而让您能够了解到整个IT系统的架构和运营状况,为您采取何种运维决策提供参考。所以如果要从技术手段入手的话,更应该为企业去构建一个CMDB库,这是一个比较好的方式。
实际上在进入服务模式后,IT架构的转变就会是很灵活的,是随着服务或服务请求的调整而改变的。那么对于IT服务方面,IT服务的模式也会有很大的变化。因为原来的模式是无法保证您在IT上的投入和您的业务关键性是直接相关的,也就是无法根据业务的重要性来决定您在这一业务上的IT投入是多大。所以现在大多数的企业在分配自己的IT预算或者是分配IT管理人员的时候,很少去考虑这套系统是否和业务直接相关,尤其是在基础设施建设和IT运维这个层面上。从本质上来讲,IT永远是一个服务部门,所以,IT部门应该以完成服务为第一目标,并以此构建IT运维管理方式。
运维也要精确管理
精确管理是IT运维的一种有效手段,可以避免牺牲太大的系统容量,并且让您及时发现系统里面所存在的风险。只有能够做到对IT系统的精确管理,才能按照服务的方式提供IT资源。如果做不到精确管理,那么您很难保证您的IT服务质量。
所以,精确管理的好处,一是可以大幅节省IT系统资源,另外则是可以规避不必要的风险。精确管理是基于数据管理基础的,而管理决策通常也都是基于数据来作出的。
所有的IT资源都应该用精确管理去规划它,当然投入可能会相应增大,因为要增加很多的探针,采集更多的数据,但这是值得的,它能够帮助企业带来更多的实惠。
数据中心运维
现在国内的现象是,数据中心的场地很大,但是密度很低,这就会造成非常大的资源浪费。很多用户的规划是按设备的额定值来规划的,但是这个额定值通常都有很大的保留,与实际应用有很大的差距。
然而在当前的运维模式下,这些资源的使用是很难评价和管理的。因为数据中心不是建好之后就一直保持不变的,一个数据中心,大大小小的项目可能每天都会发生,稍大的项目可能两、三个月也有发生。即使是已经建设完备的数据中心,两、三年之后,它的设备配置可能也会有将近40%的改变,所以要有很好的规划和管理。在很多情况下,我们在做资产管理的时候,会发现一些资产丢失,而且不知道丢失发生在什么时候,也没有历史记录可以追踪。还有就是您无法去了解您的数据中心在过去的时间都发生了什么变化,也无法比较各个变化之间的差别。
因此,从数据中心运维的视角来看,必须要解决三个问题:第一是数据中心平面层次,怎么样可以非常容易地了解数据中心的部署情况,如何从容量的角度管理各种设备(包括配电设备、空调等非IT设备);第二是如何帮助用户精确了解每个机柜中设备的摆放情况;第三,如何帮助用户了解设备的配置、变更情况。
要解决这些问题,如果没有一套完整的配置和变更管理系统来支撑的话,则很难完成这个管理任务。如果使用了配置和变更管理系统,这些问题就迎刃而解了。这是因为配置和变更管理系统帮您掌握了全面的配置信息,同时保留了所有发生在数据中心里面的物理设备以及环境的变更,可以帮您回溯历史上发生过的变化,并建立了一条基准线,为未来项目的开展寻找合适的方式。这时候,您才可以从容量的角度来管理,才能规划长期的项目:您的容量现状是什么样的,您的容量趋势是什么样的,您的容量预期在什么时候达到一个饱和。
结束语
最后要说的是,IT运维模式由被动向服务转变,可以根本性地提升运维管理的成熟度,使运维的质量变成可控的。而目前IT运维质量是不可控的,目标也不明确。当然这种从一个阶段上升到另外一个阶段的转变,不是通过购买一个技术或一个工具就能实现的,要通过一定的方法才能完成。
而从ITIL的角度来看,首先是管理方法的问题,确定了管理的方法从而也就确定了管理所使用的技术和所采购的管理工具。
采访后记
作此专访时,恰逢Avocent发布数据中心管理产品Avocent MergePoint Infrastructure Explorer,这是一款可以对数据中心运营环境和资产进行非常细致监测、精确管理的集成平台,为数据中心的有效规划和运维提供了完善的数据和技术上的保障。
IT架构和IT基础设施已经进入了一个新的阶段,旧有的模式和方法遇到了提高效率的瓶颈,此时,更需要厂商、用户等多方参与,探寻可改善IT运维、提升服务质量的新模式。