设计一个较大规模的计算机网络,除了在技术先进性和高效灵活性方面考虑以外,还要考虑网络故障管理方面的问题。在网络拓扑设计方面,要求网络层次简洁清晰,主干和接入之间、各个子系统之间界限分明;在可靠性设计方面,应考虑冗余设计,其中包括链路冗余、设备冗余、部件冗余等;在网络设备选用要求方面,网络设备必须支持通用的网络管理协议和网络管理技术,如SNMP、RMON和端口镜像等功能;在网络故障分析和定位的实施方法方面,要求有确定网络故障的分析定位流程。网络故障管理系统在设计上应该掌握以下原则。
1.分层检查网络故障的定位分析原则
网络故障的分层检查包括物理层、链路层、网络层、传输层及上层应用等。
物理层主要是指综合布线系统,包括骨干光纤系统及楼层双绞线系统,此外还包括各个连接节点等。物理层的故障主要表现在线路及节点的物理连接方式是否正确,设备的物理连接方式是否正确,设备的配置及操作是否正确等方面。
数据链路层的故障查找和排除,需要检查路由器的配置,检查连接端口的工作状况。链路层故障分析内容包括:数据链路层的运行状况,流量状况;链路层数据包的丢包,重发及包碰撞情况;网络计算机设备的链路层驱动程序的加载等。
网络层故障分析包括各种网络设备的网络层协议的加载,网络层地址和网络层路由的设置等。在进行网络层故障分析时,首先应检查路由器接口的IP地址配置,然后可以沿着从源到目标的路径,查看路由器路由表。如果路由没有在路由表中出现,应该检查是否已经输入适当的静态路由、默认路由或者动态路由。发现问题后,可以手工配置一些丢失的路由,或者排除一些动态路由选择过程的故障,包括RIP或者IGRPl路由协议出现的故障等。
传输层分析主要包括上层应用或协议在网络层协议上的捆绑状况等内容。
应用层分析包括服务器CPU运行状况,系统核心进程的运行状况,系统资源使用情况,应用程序对系统资源的占用和调度,以及系统管理等方面的内容。
2.分段检查网络故障的定位分析原则
网络故障的分段检查包括用户端、接入设备、主干交换设备、中继设备等之间的链路连通及相应端口的状态检查。
链路连通检查的内容,包括物理线路的介质类型、物理线路的连通、物理线路的质量(线路的距离、衰耗、终端设备的电气特性等)、物理线路的最大数据承载能力和收发线路的对应等。
相应端口状态检查的内容,包括两端设备对应的端口类型的统一性检查、速率匹配检查、双工设置检查、收/发时钟的时钟源检查、数据收/发的线路接通情况检查和数据流控制与拥塞控制检查等。DTE和DCE之间的连接检查还包括停止位、端口类型的转换等参数的设置检查。
3.采用纵向和横向逐级分析的原则
纵向分析为从下到上按物理层、数据链路层、网络层、传输层、应用层等应用的次序分析故障原因。横向分析为从端到端按数据终端设备、网络接入设备、网络主干设备、网络中继设备、网络主干设备、网络接入设备、数据终端设备的次序分析故障原因。