故障管理是网络管理中最基本的内容之一。故障管理的目的在于确保网络系统的高稳定性。在网络出现故障时,故障管理系统必须及时发现故障部位。故障管理的日常工作包含对所有节点动作状态的监控、故障记录的追踪与检查,以及平常对网络系统的测试。
故障管理功能以监视网络设备和网络链路的工作状况为基础,包括对网络设备状态和报警数据的采集、存储,可以实现报警信息通知、故障定位、信息过滤、报警显示、报警统计等功能。故障管理可以统一不同网络设备的警报格式,并将其显示在图形界面上,通过对报警信息进行相关性处理,确定报警发生地的管理归属等;除此之外,故障管理还可根据用户需要保存所有报警信息,同时可产生各种故障统计、分析报告。
计算机网络的可靠性是实现网络系统功能的基础。当网络中某个组成部分失效时,网络管理员必须迅速查找到故障并能及时给予排除。通常网络故障产生的原因都比较复杂,特别是故障的产生是由多个网络共同引起时。因此,要求网络管理员必须具备较高的技术水平及业务素质,同时还应该积累了丰富的实践经验。故障排除后必须认真分析网络故障产生的原因。分析故障原因是防止类似故障的再次发生的基本环节,相当重要。网络故障管理包括故障检测、隔离和纠正三个方面,主要包括以下内容。
1.网络维护及错误日志检查
(1)使用多种网络故障监控方式监控网络的整体运行情况。
(2)对于网络中的重要机器、设备进行运行状态的重点监视。
(3)检查网络设备的错误日志,分析错误原因。
2.网络故障报告
(1)通过各种途径报告网络故障,报告方式包括使用颜色、声音、日志、触发机制等。
(2)网络故障自动报警,具有自动通知的手段,包括寻呼机、手机、电子邮件等方法。
(3)根据网络故障的危害程度将报警指示分级管理,系统根据故障级别做出不同反应。
3.接收错误检测报告并做出响应
(1)分析设备故障情况,制定排错方案。
(2)启用备用线路或设备,进行故障隔离。
4.跟踪、辨认故障
(1)进行故障追踪定位。
(2)确认故障类型及性质。
5.执行诊断测试
使用各种故障诊断工具,分析故障性质。
6.错误纠正
根据故障分析结果,制定并实施解决方案。
7.故障分析预测
根据网络系统故障的类型及发作频度,分析故障产生的原因,预测将来网络故障的发作趋势。
8.历史报警查询统计
建立故障报警数据库,通过对历史故障警报资料的统计分析,寻找网络故障发生的规律,建立故障预防体系。
对网络故障的检测,是依据对网络组成部件状态的检测。不严重的简单故障通常被记录在错误日志中,并不作特别处理。而严重一些的故障则需要通知网络管理员,即所谓的“故障报警”。一般情况下,网络管理员应根据有关信息对报警进行处理、排除故障。当故障比较复杂时,网络管理员应执行一些诊断测试来辨别故障原因。