任何日常使用的商品都会逐渐老化,例如在一些家电产品中,如冰箱老化出现不制冷的问题、微波炉达到使用年限出现安全问题等等。这让我们联想到企业中赖以生存的业务系统,它们是否也存在“越用越慢”的问题呢?答案是肯定的。
在IT运维工程师中,一直流传着这样一句话:“不怕坏,就怕慢”。这也恰恰反映出维持业务系统高效运转在IT运维管理中的难点。IT运维管理专家北塔软件针对此类棘手的问题,建议企业用户引入BSM(Business Service Management,即业务服务管理)管理的方法,并利用IT运维管理工具构建业务系统的映射视图,从而发现业务系统潜在的故障和缓慢的原因,进而实现业务系统优化的最佳实践。
奢侈品级别的硬件 组合效果却差强人意
随着企业业务系统对IT 系统的依赖性越来越强,IT 系统已成为企业生存与发展的技术神经。诸如OA系统、邮件系统、门户网站,ERP系统、MRP系统、PDM系统等不同应用系统,都依靠网络和硬件设备输出动力。所以,在一些高增长型企业中,为了保证系统的性能不受影响,同时考虑用户数量成倍增长的趋势,所选用服务器、存储和网络设备都是十分昂贵的。而在这些业务系统运行一段时间后,这些“顶配”的设备性能往往还是出现了问题,用户的实际体验效果也会差强人意。
显然IT工程师们知道是因为某一个硬件配置策略或者程序上出现了瓶颈问题,但这样的后果,无疑还是把矛头指向了IT运维部门的服务质量。可以想象,业务系统反应越来越慢,对于系统维护部门的压力有多大。于是,心急的管理者立即组织系统维护人员去查看问题,但后续不论是网络层流量拥塞的问题,还是交换机或是防火墙的配置问题,以及服务器上的数据库程序问题,每个环节的负责人或者厂商售后都可能提交“一切正常”的报告。
潜在的风险最终演变成灾难 瓶颈究竟在哪里?
随着线上业务的发展,业务系统的服务器、网络设备、存储等面临高并发访问和海量数据流的情况屡见不鲜。系统中的各个核心设备所负担的处理能力和计算强度也会相应增大,使得单一设备根本无法承担。可每个设备的最大负载又能是多少呢?单纯依靠IT人员的经验去处理吗?另外,有时业务系统在生产环境中响应的速度突然变得很慢,但是又找不到原因。这时就要依据长期数据来计算平均负载,是否有大量的进程在排队等待等等。
可负责真正能够解决问题的数据却是杂乱无章的,造成这种现象的主要原因传统的资源型监控有着一定的局限。例如,目前的大型企业当中,当有问题出现的时候,各个部(系统部、研发部、网络部、安全部)的人都是用自己的工具监测自己的管理领域,向自己的经理汇报自己这部分有没有问题。但从来没有谁是从业务整体性能的角度来分析、解决问题,所有的结论都是分散的。
当然,由于身处IT运维管理部门,我们虽然可以在任何时刻制定风险管理计划,但往往着重于对系统运行中风险的管理和维护,而忽视系统在运行中的潜在风险。所以,绝不能因为“慢”就听之任之,因为它是一颗埋在网络中的定时炸弹。
引入BSM运维方法以集中的业务视图破解优化难题
针对如何处理业务系统缓慢的问题,北塔软件副总经理孙永杰先生认为:“企业首先要解决的是基础设施统一平台监控的问题,而在此基础上引入BSM以及使用能否完成其目标的运维管理工具,将是破解优化难题的最佳途径。”需要进一步了解的是,BSM的一个主要功能是实现 IT 资产与其支持的业务服务之间的动态映射。也就是说在BSM 的实施过程中,要将IT基础设施视图从架构拓扑图转换为一个模型,其中给出IT设备与业务服务的关联,让 IT 部门能够将基础设施事件与业务系统的性能和用户体验关联起来。
在接下来的IT运维管理中,工程师可以利用支撑BSM目标实现的BTIM(Betasoft Integrated Management,IT综合管理软件),分别对监控对象设置事件触发,特别是SQL阀值监控这些最容易出问题的地方,形成设备层面的性能监控。然后,要把业务系统涉及的每一个对象都合并起来,将所有运维监控对象,按照业务访问路径综合起来进行,统一管控,形成综合业务视图。这也就是符合了业务管理目标中最关键的:“不可分割性”。在这样的一个平台中,如果发现业务系统缓慢,IT运维人员则可以第一时间在业务视图中找到这个“拖油瓶”。而如果遇到需要“全面优化”的任务,或者让这些业务系统能够具备“持续优化”的能力,我们也可以在数据汇总中得到答案。
作为BSM落地的最佳实践工具,BTIM在BSM业务管理方面包括了非常强大的业务数据的汇总和分析功能。对于业务系统的优化来说,历史数据分析、趋势分析和服务质量的改进等,都需要通过对报表的分析来取得优化对象的依据。通过业务运行率报表提供的业务系统运行分析和性能报告,信息管理人员能够根据这些报告准确评估整个业务系统运行情况,及时发现故障隐患和评估威胁,为整个企业IT全面优化的决策提供了参考依据。