网络故障管理预警先行 - 运维管理

　　对最终用户而言，网络的概念似乎并不复杂，他们关心的仅仅是Web服务器是否能访问，打印机是否正常工作等。在大多数情况下，对网络管理员也是如此：如果网络运行良好，网络管理员就不必去接触它；如果发生了故障，就要去恢复。但如果经常发生故障，就要考虑建立一套冗余或容错的系统去消除，至少是减少发生故障的机会。

　　我们希望在集线器、交换机、路由器、服务器及其他系统设备上开发出新的功能，使它们能在遇到局部故障时，仍然能够发送SNMP信息，或对面向使用现状的查询做出响应。这样有利于网络管理员进行预防性的维护。事实上，服务器制造厂商在某些方面已经提供了这种服务，它们针对紧急磁盘故障向网络管理员发出警告。我们希望对可能出现的小故障或操作状态中的变化向网络管理员发出警告，例如，交换机风扇速度缓慢，路由器内部温度升高，或者服务器网卡正在发送错误的信息包等。当然这些都不会引起重大故障，主要是因为现在的网络协议和网络设备在设计时都考虑了容错和灵活性。但如果许多这样的小问题长时间积累起来，也许就是网络中某个部件将要发生故障的前兆。同样，当把某个设备当前使用状态及其他参数与历史数据相比较后，一些异常变化就说明实际的故障可能就在眼前。

　　很多系统可以帮助网络管理员分析SNMP数据，它们不仅可以提供网络实际状态的详细情况，还可以帮助预测网络部件的故障。Entuity公司的暴风之眼（Eye of the Storm，简称EotS）和Concord公司的电子健康组件（eHealth Suite）便是其中的代表。EotS主要是保证网络在物理上的畅通，通过实时监视每个管理端口的SNMP事件，帮助网络管理员分析，识别处于故障边缘的部件。而eHealth Suite则着重于使用和运行状态，它建立了一个包括网络中每一个基础设备元素使用状况的基线数据库，然后观察异常情况。如果发生变化，它就可以与数据库中的历史数据通过特定的规则去匹配，一旦这种变化超越了预定界限，就发出报警。

　　EotS实现实时监视

　　EotS是基于Windows NT或Solaris的应用程序。定位在超过1万个管理端口的大型网络上，主要目的是帮助局域网管理员预先发现问题。其核心是服务器端应用程序，它能发现网络设备、监视调查SNMP消息、管理并维护数据库中的事件。在客户端，EotS提供了一个部件观察器，上面有包括网络上所有管理端口的选单、公告板和报告中心。

　　EotS作为预警工具有两个原因：首先，不论是现在还是原来的设备故障，利用公告板都能实时收集并分析，而报告中心还可以做更深层次的分析，由于MySQL数据库容量大，而且始终是开放的，所以在时间上相隔很远的事件都能得到并可以分析；其次，公告板报警系统紧密地集成到离散部件的观察器及其数据库中，当某个设备开始脱离SNMP事件的影响时，部件观察器就检测那个设备及其端口以确定其他哪个端口是与它相关的。

　　因为EotS映射VLAN，可以对VLAN进行重新配置，使用户离开受影响的端口，这样提供给管理员改组用户的机会。EotS有一个十分方便的特性，就是部件观察器能建立与JAVA接口设备的远程TELNET连接。或者说，管理员可以从物理上改变用户连接，使有故障的设备或端口从系统中独立出来。同样地，如果用户总是抱怨连接断断续续的问题，部件观察器就帮助跟踪他们这些连接，最终发现问题。

　　当SNMP事件发生时，程序的响应很快，但是能看到事件的唯一地方就是公告板控制台，因为此系统没有电子邮件、电话报警等内置功能，甚至也没有发生错误时通常显示的弹出选单。由于EotS能搜寻到的故障类型都很细微，不易察觉，从小问题到大范围的系统故障，需要花几个小时或几天去检测，所以需要配备专职的网络管理员。

　　EotS擅长分析能影响网络基础设备的细微问题，但它没有自身预警的能力，也不能管理网络中的最终节点。

　　eHealth阻止超越极限

　　与EotS搜寻物理设备的故障不同，eHealth主要强调SNMP管理设备的操作参数，例如某服务器已经持续运行在预设的CPU参数的极限值之上时，eHealth就能指出潜在的问题，在这点上EotS是捕捉不到的。而EotS指出的紧急硬件故障，eHealth的图表是显示不出来的。

　　eHealth是由四部分组成的客户/服务器模式系统。它的基础是Live Health，主要负责收集设备的参数信息。它提供了一个Web接口，用以生成基于Adobe Acrobat图像程序的报告，非常直观，响应速度也很快，还能与外部管理程序（例如HP OpenView）对话。Live Health安装过程不仅安装Concord的程序，也增加了CERN Web服务、SCO的XVision PCX 等其他服务系统。另外三个软件包分别是：Network Health，主要是监视集线器、交换机、路由器和其他网络基础设备；System Health，用以监视服务器和它们各自的服务和后台程序；Application Health，对类似 Microsoft Exchange的应用程序和Web服务器进行端到端的监视。

　　Network Health能安装在HP-UNIX、Solaris或Windows NT服务器上。程序运行时，当提供给系统IP地址范围后，就开始搜寻过程，系统能够迅速识别出所有网络上的SNMP管理设备。正常情况下，软件每天在午夜执行一次用于发现问题的程序，大多数eHealth的参数都是用户自定义的，几乎每一个参数都有可选项。所有的配置都是在服务器控制台上执行的。搜寻过程启动后，程序就开始定期调查每一个管理设备（缺省设置是每隔5分钟）。Live Health根据MIB对500多个SNMP管理设备的定义进行了预编程处理，所以它可以发现很多相关的信息。通常，所有收集的数据都存储在数据库中六个星期。这个过程完成后，程序可以持续运行几天，这样可以使系统更趋于正常，并由此建立一个基线。Live Health投入正常使用后，就可以通过Web界面进行管理。Live Health的一个重要用途就是实时异常情况监控。利用一套复杂的规则，系统可以显示出异常情况。例如，一个平时很忙的端口突然显示出没有任何通信量；一个CPU超过它正常的使用范围，或收发电子邮件的速度比预想的要慢了许多等。

　　Concord公司的eHealth组件

　　Live Health的规则非常复杂，例如，路由器的广域端口使用是否超出了正常的参数范围，每周或每天的使用状况是否超出了历史峰值等，以至于虽然规则设置得非常明确，但是大多数管理员还是希望让系统根据数据库的历史记录和规则去决定什么样的组成是异常的。一旦发生了异常情况，就会出现在Live Health屏幕上，由此，管理员可以告诉系统起用快速模式开始监视那个设备。与EotS一样,Live Health不提供任何外部预警功能，例如电子邮件，但是通过和第三方程序的连接可以提供这种特性。通过跟踪异常情况，再利用数据库去分析研究，为管理员判断网络可能或正在发生的故障提供强有力的依据，同时还能预测以后的趋势和状态。Live Health的另外一个主要部分就是它强大的扩展报告能力，有些报告甚至是可编程的，这些报告可以从Web上获得，让管理员可以从时间、组织或多种方式去分析设备。Live Health把报告生成非常直观的Adobe Acrobat文件，可以为更高级的管理做准备。

　　实际上，Live Health监视的不仅是基础设备和服务器，还有上述新增模块和端到端的应用程序。扩展报告和着重于运行等特点，使Live Health成为确实是一个与众不同的解决方案。

网络故障管理预警先行
2010-06-01 网络

延伸阅读

热文

网络故障管理预警先行 2010-06-01 网络

延伸阅读

热文

网络故障管理预警先行
2010-06-01 网络