企业IT系统越来越多,网络、设备和产品越来越复杂,业务越来越依赖于稳定可靠的系统运行,公司内部和外部用户对IT部门的支持服务和协调管理也提出了更高的要求,如果企业的运行设备出现了故障,往往会给企业带来巨大的损失。此时,往往企业会要求运维部门力保设备的运行正常,同样运维部门也会提出相关的口号,例如,连续100天运维无故障。也就是我们常说的零故障。
IT部门如果缺乏快速有效的协调机制和必要的辅助管理工具,就会出现“救火队式”的混乱局面,其主要表现如下:
%26#61550;
被动响应式的工作方式。
%26#61550;
很难及时发现和预见问题的发生。
%26#61550;
问题出现后,很难快速、准确地找到根本原因,并及时地找到相应的人进行修复和处理。
%26#61550;
问题找到后,缺乏流程化的故障处理机制。
%26#61550;
支持过程总是被打断和干扰。
%26#61550;
关键人员的工作负载过重。
%26#61550;
缺乏过程和变化的跟踪记录。
%26#61550;
IT支持部门面临不断改进服务和降低成本的压力。
%26#61550;
服务请求的响应时间和质量无法衡量。
%26#61550;
决策基于“我认为”而不是“我知道”。
结果造成IT部门整天疲于奔命,无法满足服务时效性和稳定性的需求。这种工作模式下的IT资源管理,不仅IT部门吃力不讨好,而且也无法发挥IT系统的整体性能和功能,同样也无法达到企业提出的零故障的要求。
什么是零故障
对故障我们已作定义就是设备失去了规定的功能,再从故障的字面看,它是由人“故”意而引起的“障”碍,即故障的根源在人,它是由於人的思维方法和行动上的错误而引起的,也就是说人们的认识及其相应的行为的结果以故障的形式表现出来。因此只要改变与设备相关的所有人的认识,增加相应的知识,提高其技能,改进其方法和行动,故障就会消失。
有人可能要问,按照零故障观点,设备岂不可以永久地使用下去了吗,这里我们要区分两个不同的概念就是自然老化和强制恶化。所谓自然老化就是虽然 使用方法正确,但随着时间的推移,设备发生了性能逐渐下降。而所谓的强制恶化是指未按应有的方法作业,人为地促使了恶化。因此零故障观点的意义在於指导我们正确认识故障,做该做的事以避免强制恶化,延缓自然老化。
为了实际推进这项工作,我们针对可能产生故障的原因,导出实现零故障的四大对策:
1、具备基本条件
所谓具备基本条件,就是指CPU、内存、硬盘等硬件设备。故障是由设备的劣化引起的,但大多数故障是由於基本条件3要素引起的。
2、严守使用条件
机器设备在设计时就确定了使用条件。严格按照使用条件使用,设备就很少产生故障。比如电压、转速、温度及安装条件等,都是根据设备的特点而决定的。
3、使设备恢复正常
一台设备,即使具备了基本条件,保证使用条件,由於很难做到十全十美,因此设备还是会发生劣化,产生故障。所以使隐含的劣化明显化并使之恢复到正常状态。这意味着我们应经常地对设备进行正确的检查和预防。
4、提高人的素质
所有的处理都要由人来实施,在实现零故障的过程中人是最根本的。首先,每个人都要有认真的态度,兢业的精神,其次,对故障有一个正确的认识,最後就是要提高操作和维修人员的专业技能。
总的来说,我们在日常工作中要做好以上这几方面的工作:就可以防止故障的出现。当然这种故障也只是无限的接近零故障,或者是在某一段时间内实现了零故障。
摩卡业务服务管理的故障预处理
对于实现企业的零故障,摩卡软件的摩卡业务服务管理(Mocha Business Service Management,简称Mocha BSM),在这方面有着超过十年的经验积累,所以可以更多的从客户方面去考虑,通过基础模块的监控,周期性的反映出了设备的CPU、内存、硬盘等设备的运行情况,同时具有配置变更管理功能,当硬件设备松动或出现变化时,可以及时产生报警,保证了基本条件的正常运做。
通过机房的监控,可以实时的看到设备环境的温度、湿度、烟感度等使用条件,可以帮助管理人员提供预防因环境的原因而造成设备出现故障。
同时也根据对相关设备的监控信息的设置,可以提供相关设备的定位,可以提前报警,系统还可以定制定时任务提醒管理人员定期定时对设备进行检查,帮管理人员实现防患于未然,真正的接近零故障。