随着网络系统在整个企业业务流程中的地位明显提高,很多企事业单位都重新定义了网络管理的职责,MIS(Manager Information System,信息系统管理)部门孕育而生。信息系统管理中的“管”已经拓展到多个方面,其中最主要的包括:网络设备管理(NDM)、网络系统管理(NSM)、应用性能管理(APM)、桌面管理(DMI)、员工行为管理(EAM)、安全管理(SM)和数据库管理(DBM)七大方面。
在网络管理中,如果上述七个方面中的任何一个环节出现了问题,某个网络设备或者应用系统的物理或逻辑故障都可能造成整个业务流程受到阻碍,不能顺利执行。监控管理到每个环节、甚至到每个设备的某个运行进程都是十分有必要的。但在网络中如何发现故障,并且第一时间通知你出现了故障呢?这就需要预警机制。
“一只蝴蝶在纽约中央公园的小黄花上舞动了一下翅膀,很短时间过后东京就掀起一场大风暴,电闪雷鸣!”拓扑学中将这种看似无关联的事情称作——“蝴蝶效应”,其理论基础来源于“混沌理论”。在“混沌理论”中,人们主要关心“对初始条件的敏感性”,这与网络管理中关注故障点的做法非常接近。我们可以将网络中的故障诱发点看成是那只舞动翅膀的蝴蝶,捕捉到网络中的蝴蝶,记录下每次翅膀舞动的节奏,这就是网络监控的核心所在。
请人帮忙还是自己动手
有经验的网管员都清楚,运维一个网络要比组建一个网络更加困难。一个重大的网络故障发生之前,都会产生前兆。分析故障的前兆,这对于负责实施和支持企业网络的任何管理人员来讲,都将是你的终极挑战!
如果我们制定了严密的管理方法,故障就不会出现了吗?如果你有这样的想法就大错特错了。不出现故障的网络是不存在的,有人鼓吹说自己优化了网络,因此就说网络是安全稳定的,坚如磐石的,多长时间没出现过故障!这是忽悠你的大话,这句话本身就是矛盾的,网络之所以需要优化,就是某些系统和设备没有运行在一个稳定的状态,可能出现故障,优化是针对可能出现的故障的优化,是因为害怕出现问题而做的优化。
一些中小企业为了避免故障的发生,都会请专家来帮助分析,帮助调理优化网络,在付费的同时还欠下了一笔“人情债”。智能化的网管软件可以帮你省去这笔人情债,这是因为:智能网管能够自动获得网络中各种设备的技术参数,进而智能分析、诊断,预警。将整个网络中存在的隐患查找排出,遇到故障后第一时间知晓,加速恢复,支撑企业信息系统的RPO(恢复点目标)和RTO(恢复时间目标)。
迅速确定蝴蝶的位置
Broadview与众多一线运维工程师保持着密切的合作关系,这种密切的合作不是一种泛泛而谈的合作。深入网络管理一线,倾听网络管理人员的心声,从实践中改善我们的产品,这才是我们的合作初衷。我们之间交流的形式是多种多样的,很多工程师的BLOG纪录了他们的心声,其中一篇“网志”说明了预警机制的重要性:
成为MIS部小头目有一段时间了,压力太大,而且消费指数明显上升。上午的几个同事早上到40多公里外的机房进行新服务器的上架和调试工作。上架和调试的过程非常顺利,中午之前,所有人员都回到了公司总部。但大家的午饭却没有吃成,这是因为另外一套应用系统出现了故障。在老板发火之前,我们已经尝试了各种远程维护的尝试,唉!没有办法,只好返回了异地的机房。
故障解决的很快,因为服务器无法访问的原因是由于物理层故障导致的,即:网线脱落!经过事后分析,我得出了这样的结果:由于机房建设较早,而且部分信息插座存在老化现象,网线脱落很有可能是上午调试新服务器的时候不小心碰落的。再次返回总部的路上,大家由于找不到埋怨的对象(是谁碰落的网线无法得知),我成为了出气筒:“如果碰落网线的同时,就会得到报警提示,我们就不用一天跑两趟了!午饭还没吃,你请吧!” 其实,请顿午饭没有什么,不过我们公司缺少了这样的故障及时报警机制到真的是个大问题。下一次的午饭不知道还是不是我请呀?
网络管理软件的首要功能就是报警机制。在上述案例中,如果在故障刚刚产生时,工程师就接了值班人员的电话,或者直接由网络管理软件发送出短信通知工程师,这种异地徒劳奔波就可以减少很多。
捕捉蝴蝶的工具选择
网络规模的急剧膨胀以及网络结构的复杂程度不断增加,产生了许多传统网络管理中不曾遇到的问题。网络设备、服务器、客户端三者之间的不均衡发展,在设备智能化管理的发展道路上呈现出了不同的指标曲线。诸多因素的共存,使得我们在实现对大量网络设备的监控道路上辛苦地走着。在今天的网络管理中,客户端、服务器和网络设备的维护成本比例越来越大,完全可以与企业IT硬件的前期投入相提并论。
在传统的网络管理工作中,如果要捉住一只“蝴蝶”,我们只能使用“竹竿+网罩”的方式,这是一项非常消耗体力的工作。当系统发生故障后,网络管理员往往根据经验一步一步地检查故障,如ping一下路由器、检查一下系统CPU使用率、内存使用率等。网络管理随意性强、没有规范,很容易漏掉一些关键点。这种查找故障的方法效率很低,我们常常一边思考、一边检查,耗时长,而网络瘫痪时间越长,企业的损失就越大。
Broadview NCC 网络监控中心的目标就是为了达到快速有效的捕捉蝴蝶,化繁就简。如果一款网络管理工具的使用比去解决实际网络问题还要复杂耗时,那么也就失去了它使用的意义,因为管理工具就是要能够快速投入使用,帮助网络管理员解决实际问题。比如说,网络中某台设备发生了故障,向外不停地广播,严重影响了网络速度,这时候就需要能快速定位故障所在处,方便后期处理,而不是动用复杂的分析软件或专用的设备来处理。
分析蝴蝶的行为
现实生活中,我们要拍摄一只蝴蝶的翅膀舞动可以利用高速摄影机,而网络中的蝴蝶是无形的,那么我们的高速摄影机在哪里呢?这就是SNMP(Simple Network Management Protocol)简单网络管理协议。它被广泛接受并成为现今网管软件基础架构的鼻祖,经过三次的版本演化,很多管理员甚至将SNMP视为发现和解决一切故障的法宝,但随着网络和系统管理任务的增多,手工管理SNMP日志几乎成了网络管理中的累赘。
我们都清楚蝴蝶每次翅膀的煽动是不一样的,但总是有规律可循的。这就和网络管理中新生成的事件一样,如果可以自动识别当前事件与前面事件的关系就可以找到规律。Broadview NCC使用SNMP,但不局限于日志的收集,而是将日志分析放在首位。记录下网络管理中的每次触发事件,自动将触发情况立即记录到相关角色、设备、线路、流程、资源的历史记录中,同时将此信息记录到事件报告中。每次触发事件系统都自动生成事件报告,可以由集中维护人员根据需求对各类事件的类型的制定和分类。例如:根据事件的来源、类型、报警级别等,实现对事件控制台智能化管理,自动区分和抑制重复事件,减少系统负载。
结束语:目前,企业级的网络基础建设在许多地区已经基本完成,对网络管理的要求日益迫切,而且对网络管理的功能定义实际已经超出了狭义的网络管理,而转为广义的网络管理即网络架构管理。从上图中我们可以看到,网络管理的四个发展阶段,但我相信绝大多数人仍然站在第一个阶段,或者开始站在第二个阶段的起跑线上。“应对型”的网络管理模式已经不再适合我们了,捕蝶人的角色势必也将改变。