IT运维管理,创造商业价值!
中国IT运维网首页 | 资讯中心 | 运维管理 | 信息安全 | CIO视界 | 云计算 | 最佳案例 | 运维资源 | 专题策划 | 知识库 | 论坛

升级导致网络故障的深思

2009年08月04日
IT专家网/黑眼睛

  网络升级几乎是每个公司都必须做的事情,然而有时候网络升级引发的一系列故障会让网络管理员们手忙脚乱。下面是一个网络管理员所遇到的一个升级带来的故障案例,希望带给大家一些启发。

  1.故障症状  

  某机床锻造企业在很早就组建了企业局域网,此后多年来鲜有更新改造,软硬件严重滞后,网络性能低下。为了改变这种状况,新近该企业进行了一次比较大规模的网络升级,由10M网全部提升为100M以太网,核心交换机为千兆以太网。为了节约成本,该企业没有进行外包而是由自己的IT人员独立实施此次改造工程。改造完工后,进行网络测试时发现,网络性能提升并不明显,而且大部分的网络成员访问公司的服务器或者与其他不同子网的部门之间进行数据交互是感觉速度慢,有时数据出错。但是子网段内拷贝数据速度基本不受影响,用Ping测试检查所有工作站和服务器均正常。以上是客户向我们反应的具体情况。

  2.初步诊断

  根据客户反应的情况看问题并不严重,初步判断应该布线方面出了问题,在我们的经验范围之内。因此这次并没有亲自出诊,而是建议他们对网络布线系统进行严格认证测试。由于该企业的信息中心除了电缆和光缆的认证测试仪外,没有其它测试维护工具,无法对网络进行评测。他们利用现有工具和技术手段进行了测试,给我们反馈的情况是,布线施工质量优良,全部电缆光缆链路按超五类标准测试参数均合格,没有发现任何问题。此外,该公司的IT人员又进行了网络系统及平台的重新安装,但仍无济于事。

  3.进一步了解

  看来问题没有想象的那么简单,我们有询问了客户这次网络升级中的一些技术细节。通过询问得知,由于总公司希望全面提高ERP系统的覆盖范围,在这次网络升级过程中新增的网络设备比较多,网上成员也增加了二倍多,工作站从原来的220台猛增至680台;办公区和生产区之间、生产区和生产区之间均用光缆和路由器连接起来。另外,该企业的网络各子网段基本上采用核心交换机和工作组交换机作网络骨架,用桌面交换机和集线器混用的方式构成基层用户接入平台。核心交换机之间为千兆以太网连接,用户全部为100M到桌面。为了便于维护和管理,同时也从安全角度考虑,设计方案中将大多数数据服务器均安装在了网管中心。

  该企业的IT人员抱怨,这样的网络结构使得网络管理更加复杂,网络管理面临重重难题,查找故障不象从前那样容易了。没错,通过这次网络升级,一来网络规模比以前大多了,故障数量和种类增多;二来网络结构变得比以前复杂多了,故障的定位分析和隔离变得比较困难。

  4.亲自出诊

  因为网络为新扩容的网络,而且故障是在网络升级之后出现的,所以先看看该企业的网络拓扑,是否有设计不合理的地方,但从拓扑图上看不出网络结构设计有何不合理之处。

  由于在各子网段内拷贝数据时速度基本不受影响,而多在跨网段时受阻,所以我们把分析的重点放在跨网数据的分析上。将网络测试仪接入办公区网络的网管中心,打开网段内的全部4个路由器的端口观察。通过检测发现网段间的流量为27%~42%之间,由于网络没有多媒体应用启用,因此如此高的流量记录是不正常的。

  下面我们需要观察这些流量的走向,于是在办公区将网络测试仪串入路由器与交换机之间(100M端口)监测。启动IP矩阵监测和以太网MAC矩阵监测功能,观察数据流向。观测的结果是,大部分的数据流向均指向办公区的WINS服务器,而WINS响应流量极少。查看拓扑图,该WINS服务器直接与一台工作组交换机相连,打开工作组交换机的端口记录检查,流量记录为13%并伴随少许碰撞指示记录。

  为了不影响用户的使用,下班后我们从测试仪所在端口向WINS服务器所在交换机端口P32的邻近端口P31发送高额流量。我们选值为90Mbps的流量冲击,并在此邻近端口P31观察接收到的流量记录,记录显示为89.7Mbps,这说明端口P31的通道测试是合格的。然后对准WINS服务器所在端口P32发送90Mpbs的高额流量,观察P32端口流量冲击记录,结果显示为13.5%,并出现大量延迟帧,表明该端口通道测试不合格。将流量发送方向指向与该端口连接的上游端口P17,观察P17流量显示为90Mbps。问题很清楚,被丢弃和延迟的流量就在P32口。

  然后,我们对WINS本身作WINS查询,10次测试响应只有2次,响应地址正确,响应率20%。重新测试WINS链路电缆,合格。测试WINS服务器网卡,合格;测试交换机的端口P32,低效。再此临时将WINS服务器端口P32改接到端口P33,重新启动系统,5分钟后进行上述测试,全部合格。为了验证P32口低效,用网络测试仪接入该端口并向P17发送90M流量,收到流量为12%,应该是这台工作组交换机有故障。由于这台工作组交换机这次网络升级中购置的新品,尚在包换期内。更换该交换机后,第二天进行测试,在公司员工上班后的网络使用高峰期开头所述的网络故障消失,同时网络速度比以前有了惊人的提高。

  5.故障总结

  故障解决了,我们找到了罪魁祸首——一台工作组交换机。其实,交换机只是“替罪羊”真正的元凶应该是不够科学、合理的网络结构。不然一台小小的工作组交换机为什么能够引起如此大面积的网络故障呢?

  为了使得大家对此有更进一步的认识,我们重新梳理一下该公司的网络结构以及这次网络故障。在该企业重新升级的网络中,大多数数据服务器设置在办公区的网管中心,而且公司整个系统的工作依赖集中式系统中的这些专用数据服务器。另外,链路连接和数据交换时需要WINS服务器提供服务。而与WINS服务器连接的链路中,如果交换机一侧的端口P32发射能力低效,使得发送的信号幅度不符合要求,再加上链路长度不长,所以并不是对所有的数据包WINS服务器都无响应。这使得有些数据被作为部分错误和碰撞数据由端口记录,大部分从交换机各端口送往P32端口的数据因链路接口问题被延迟和丢弃,而造成记录数据中有用流量正常,而网络用户速度普遍偏慢的假象。这难道不是由于网络拓扑的不合理造成的吗?

  6.维护建议

  首先,建议企业在进行网络改造的时候,一定要根据企业的需求和实际应用合理规划网络拓扑。这其中,应该尽可能地寻求专家的帮助,构建科学、合理、高效的网络结构。这样的网络不仅利与维护、管理,而且在故障发生时能够快速定位,也不至于一个小问题引发大故障。

  此外,我们知道,交换机、网卡、集线器和路由器等网络设备的端口一般从工作2~3年开始出现低效现象,5年后比例为3%~18%(这取决于不同的厂商产品质量,也取决于同一厂商的不同系列产品的产品质量)。另外,由于系统中有大量的端口,所以在网络维护周期建议中要求每半年对端口性能进行定期测试。每一~二年对布线系统进行一次轮测,尤其对重要的网络设备如服务器、交换机、路由器等应该坚持定期测试,这样做对提高网络的可靠性有莫大的帮助。所以,在网络改造完成后对于所有的网络设备进行一次普查,将相关的情况比如设备性能、使用年限、端口登录进行备案,列入顶起维护计划中。

  7.总结

  其实,我写这这篇文章并不仅仅是告诉大家如果排除类似上述的网络故障,而是希望大家能够通过这个案例有所思考,想想网络故障的背后,比如如何进行科学的网络改造等等。

发表评论请到:http://bbs.cnitom.com

相关阅读

图文热点

以不变应万变 网络虚拟化应对园区网新挑战
以不变应万变 网络虚拟化应对园区网新挑战Forrester Research的分析师Robert Whiteley认为: “十年以来,虚拟化技术与网络...
OpenShift加入更多新元素 友好面对开发者
OpenShift加入更多新元素 友好面对开发者通过网络进行程序提供的服务称之为SaaS(Software as a Service),而将服务器平台...

本类热点