在管理和维护网络的过程中,相信每一位网络管理员都可能会碰到这样或那样的网络故障,而引起网络故障的原因也是各式各样,要想迅速解决网络故障,往往需要经过一段时间的仔细排查才可以;当然,也有一些网络故障现象比较明显,我们只要根据具体的现象就能大概判断出引起故障的原因,并能迅速采取针对性措施来高效解决故障现象了。这不,本文所描述的网络故障,由于现象比较明显,网络管理员经过简单的分析,就迅速找到到故障原因了,由于该故障排除过程具有一定的典型性,故在此与各位朋友一起分享交流!
故障现象
笔者所在单位接上级单位通知,要求建立上下联动的数据交换平台,前一段时间,笔者单位在省中心技术人员的协助下,使用移动的2M宽带光纤线路实现了与省数据交换平台的互连。最近,按照工作计划安排,下属三家县级单位也要通过移动的2M宽带光纤线路与市中心平台连接,而市中心平台主要由R1、R2、R3、R4四个路由器以及对应的中继设备组成,其中R1路由器是核心路由器,R2、R3、R4路由器分别是三家县级单位的路由器,这几个路由器设备统一使用S0端口与R1路由器的S0、S1、S2端口连接。依照组网规划,网络管理员将R1路由器S0端口的IP地址设置为了10.176.0.211/30,将S1端口的IP地址设置为了10.176.0.216/30,将S2端口的IP地址设置为了10.176.0.221/30,将R2路由器S0端口的IP地址设置为了10.176.0.212/30,将R3路由器S0端口的IP地址设置为了10.176.0.217/30,将R4路由器S0端口的的IP地址设置为了10.176.0.222/30。
在组网过程中,网络管理员发现在前两个县级单位接到市中心的R1路由器上后,他们都能通过市中心交换平台顺利访问到省中心的数据交换平台,而且访问速度也比较顺畅,可是将第三个县级单位接到市中心的R1路由器上后,发现没有多长时间,整个市中心网络全部瘫痪,原先能够正常访问的前两个县级单位也不能正常上网访问了。
故障排查
刚开始的时候,网络管理员还以为是市中心平台到省中心平台之间的这段线路出了问题,于是立即电话联系当地移动公司,请求他们派技术人员前来测试线路,经过一段时间的检测,移动公司人员确认线路不存在任何问题,而且他们还顺便检测了市中心到几个县级市的几条宽带线路,发现所有宽带线路的连通性都是正常的,这说明市中心网络平台瘫痪故障与宽带线路的连通性没有任何关系。
在排除了宽带线路因素后,网络管理员又开始怀疑R1路由器的工作状态不正常,毕竟能造成所有下属单位不能同时上网故障的,只有这台核心路由器设备了;依照以往经验,网络管理员认为类似交换机、路由器这样的设备持续工作时间比较长的时候,很容易出现一些缓存溢出之类的错误,这些错误很容易造成交换机、路由器等设备的工作状态不正常,从而可能引发网络瘫痪的故障现象;对于缓存溢出之类的软故障,我们往往只要重新启动一下对应设备的后台系统,就能让其工作状态恢复正常了。根据这样的分析,网络管理员立即赶到R1路由器的现场,仔细观察控制面板的信号灯状态,发现并没有异常之处,不过为了排除核心路由器自身状态因素,网络管理员还是切断了核心路由器设备的电源,过了一段时间,重新接通其电源,对该设备后台系统进行了启动, 待后台系统启动成功后,网络管理员从本地尝试访问省中心的数据交换平台时,发现故障现象已经消除;就在网络管理员认为故障已经被排除时,下属单位的工作人员打电话过来,说以前的故障现象又出现了,网络管理员再次从本地访问时,发现网络连接的确又不正常了,看来核心路由器受到了大容量数据的攻击了。
考虑到前两个县级单位与市中心平台相连时,整个网络平台访问省中心一切正常,这说明前两个县级单位与市中心平台所使用的路由器设备工作状态是正常的,而且参数配置也是正确的。既然第三家县级单位连上市中心平台后,整个市中心平台无法访问省中心数据交换平台,那么问题可能出在第三家县级单位上,于是网络管理员立即联系相关的技术人员,请他们认真检查自己内网的组网情况,特别是要检查内网的物理连接,看看是否存在网络环路现象;很快,网络管理员就得到了反馈信息,说他们经过仔细检查,没有看到第三家县级单位内网中存在网络环路现象,而且查看相关设备的配置参数时,也没有看到不正确的地方,这么说来,难道第三家县级单位内网不存在问题?可事实是,当第三家县级单位内网连接到市中心平台之后,市级网络瘫痪故障才发生的,这就直接证明网络故障肯定与第三家县级单位内网的接入有关;联想到核心路由器重新启动成功后,刚开始的一段时间网络连接是正常的,只是过一段时间后,网络瘫痪故障才发生的,为此网络管理员估计第三家县级单位内网可能存在广播风暴现象,这种现象很快就将核心路由器给“顶死”了,从而造成了核心路由器启动稳定后过一段时间就死机的现象。
而造成广播风暴现象最主要的因素,无非就是网络病毒、网络环路、网络配置已经硬件损坏因素;为了排除这些因素,网络管理员让第三家县级单位的工作人员,只连接一台没有病毒感染的计算机到对应的路由器上,看看网络故障是否能够自动消失,如果故障现象仍然存在,那就说明问题与网络环路、硬件损坏以及网络病毒没有任何关系,的确在第三家县级单位只有一台计算机上网的情况下,市中心平台仍然还无法与省中心平台互连,这说明问题肯定是由县级单位的路由器引起的。
解决故障
既然找到了故障位置,那么故障排除起来也就不是那么麻烦了;网络管理员建议先将对应的路由器设备重新启动一下,看看是不是该路由器存在软性故障,可是重新启动之后,网络瘫痪故障仍然存在,这说明对应的路由器设备不存在软性故障,那会不会是该路由器设备发生了硬件损坏呢?但是想到该路由器设备刚刚才工作没有多长时间,而且该设备也是品牌产品,按理来说它不容易损坏才对,为此网络管理员开始怀疑该设备的参数配置不正确。于是,网络管理员请对方的技术人员,将他们使用的路由器配置参数告诉自己,结果经过仔细对比,网络管理员发现对方的工作人员无意中将R2路由器S0端口的IP地址设置为了10.176.0.212/28,而实际上第三家县级单位网络的掩码位数应该为30位,可现在却被设置成了28位,会不会是掩码位数设置不当造成了整个市级网络平台发生瘫痪现象呢?经过仔细分析,网络管理员发现当第三家县级单位网络的掩码位数设置为28位后,R1路由器S0端口的IP地址10.176.0.211/30,S1端口的IP地址10.176.0.216/30,S2端口的IP地址10.176.0.221/30,R2路由器S0端口的IP地址10.176.0.212/28,R3路由器S0端口的IP地址10.176.0.217/30,R4路由器S0端口的的IP地址10.176.0.222/30全部位于同一个工作子网中了,那样一来下属单位发送到核心路由器的数据包,在R1路由器中就不能找到合适的寻径路由,那么数据包只能在核心路由器的几个端口上进行循环传输,最终将核心路由器的系统资源全部消耗掉,造成了该设备发生瘫痪现象,最终引发整个市级平台网络无法访问省中心平台。为此,网络管理员建议工作人员立即将R2路由器S0端口的IP地址修改过来,果然没有多长时间,整个市中心平台的网络全部恢复正常了,这说明上述故障现象果然是由第三家县级单位网络的参数配置不当造成的。