IT运维管理,创造商业价值!
中国IT运维网首页 | 资讯中心 | 运维管理 | 信息安全 | CIO视界 | 云计算 | 最佳案例 | 运维资源 | 专题策划 | 知识库 | 论坛

SAN网络故障排除

2007年10月08日
网络/佚名
在介绍SAN网络故障排除之前,我们先来介绍两个应用技巧。

交换机的LED

我们在讨论SAN故障排除之前先看一下故障诊断工具,其中最重要的是交换机的LED显示屏。

图1是一个典型的SAN存储网络构架,其中包括Fbric线缆、主机、工作站、服务器、交换机、RAID阵列等设备。交换机处于主机和存储设备之间的网络中间位置,既能看到存储设备,也能看到主机。得益于对存储网络两端的可见性,您可以使用交换机确定SAN中所有故障的原因,通过查看交换机的LCD就能收集到大量的信息。可以通过查找“快闪黄灯”,确定设备发生了故障,或是它仍未处于联机状态。如果交换机置于异地,可以使用Web工具直观、实时地了解LED的状态。快速闪烁的绿灯是SAN正常运行的信号。通过实际观察组成SAN的交换机,可以检测模式,并确定处于边缘状态或是有故障的组件。例如,如果您处于需要确定在联机和脱机两种状态间重复切换的设备的情况,此时就可以使用交换机的LED。

在观察运行的Fabric线缆时,正常情况是该端口依次处于脱机状态(没有LED灯)、发光(保持为黄色)、进入联机状态(保持为绿色),然后循环进行同样的步骤—无色、黄、绿。LED保持黄灯或黄灯闪烁,表明SAN中存在问题。LED由黄灯转为绿灯,则没有问题。边缘设备断电或未处于联机状态,都可能导致交换机的LED黄灯闪烁。如果交换机电源的LED开始慢速闪烁,则表明交换机的加电自检(POST)过程存在故障,无法实现联机。

将SAN视为虚拟线缆

当对SAN进行故障诊断时,可以通过将其分解为主机、SAN虚拟线缆及存储设备来解决问题,这时将SAN视为一条虚拟线缆。对于操作系统来说,SAN是一条通往磁盘的链路,这正是传统的小型计算机系统接口(SCSI)连接所实现的目标。

在刚开始进行故障诊断时,请将SAN视为一条虚拟线缆。传统的存储方式就是通过一条SCSI线缆将SCSI磁盘连接到主机。在这种情况下,您会关注4个组件:存储设备、主机总线适配器(HBA)、主机的操作系统以及Fbric线缆。SAN故障诊断与传统的存储故障诊断过程有许多不同之处。在诊断直连SCSI设备的故障或是以太网故障时,采用的是排除法,可以将这一方法用于对SAN进行故障诊断。从宏观层面讲,如果将SAN作为一条虚拟线缆来考虑,问题有可能出在三个地方:主机、Fbric线缆或是存储设备。采用类似于对分查找的故障诊断方式开始对这些领域进行研究,从中间部分着手,确定是处于问题的“上方”还是“下方”,然后继续对可疑路径进行对分,直到解决问题为止。

与传统的存储故障诊程相比,对SAN进行故障诊断更为复杂。从SAN网络的组成来看。它的故障主要分为:

◆ Fabric线缆故障

◆ 设备丢失故障

◆ 边缘链路故障

◆ 输入输出(I/O)故障

Fabric线缆故障

Fabric线缆故障经常会严重地影响多个设备。由于SAN对边缘情况的冗余补偿,Fabric线缆故障在一个冗余的SAN上发生时,可能不会影响SAN的功能。但是这些“软”故障能够引起企业应用性能的降低,因此也应引起注意。大型Fabric线缆指包含10个或更多交换机及上百边缘设备的Fabric线缆,它们更易于发生Fabric线缆故障。

Fabric线缆故障排除方法如下:

(1)Fabric线缆故障影响众多设备。分段等逻辑性交换机中断或物理性交换机中断,能够引起许多设备脱离Fabric线缆。ISL初始化故障也是需要考虑的问题之一。

(2)缩小Fabric线缆故障诊断范围的最佳途径,是对比基准SAN配置文件和当前SAN配置文件,并研究其差异。

(3)SAN配置文件的内容包括每个交换机上设备的数量、Fabric线缆中设备的数量、Fabric线缆中交换机的数量等。errShow命令和switchShow命令对于追踪Fabric线缆故障也非常有用。

(4)一些Fabric线缆故障由Fabric线缆服务超时变量和边缘设备超时设置的不匹配引起。必须仔细分析Fabric线缆和边缘设备来解决这种复杂问题。

(5)从图1中可以发现,SAN网络设备中使用最多的是Fabric线缆。由于线缆通过墙角和门缝处,有可能被压坏,因此,需要注意线缆是否截断、线缆过度扭曲变形等。  

设备丢失故障

设备丢失的故障,一般会导致主机不能访问某个SAN设备。这是常见的故障,一般使用交换机的switchShow命令和nsShow命令能够很快找到设备丢失的原因。丢失设备问题通常只限少数一些设备。如果有许多设备丢失,则可能是Fabric线缆故障。因为SAN构架中Fabric线缆的使用数量最多,所以出现故障频率也最多。

设备丢失的故障排除方法如下:

(1) 使用交换机的switchShow命令查看是否与SAN存在逻辑连接。

(2) 使用nsShow命令查看该设备是否在名字服务器中。如果设备不在服务器中,它对于Fabric线缆中的其它设备就是不可见的。

(3) 检查Fabric线缆。

处于边缘状态的链路的故障

处于边缘状态的端口的影响非常大。例如,大型存储设备(如RAID阵列)可能会被几十个主机、服务器访问。于是,存储设备的边缘行为可能会影响访问该存储设备端口的所有设备。处于边缘状态的链路涉及到交换机和边缘设备之间的连接。确定链路处于边缘状态的原因,需要分析和测试组成链路的许多组件,包括交换机端口、交换机GBIC(千兆比特接口转换器)、线缆、边缘设备GBIC(千兆比特接口转换器)以及边缘设备等。

处于边缘状态的链路的故障诊断如下:

(1) 使用交换机的portErrShow命令确定是否存在大量的错误,例如CRC错误等。查找持续增加的错误数量来确认是否存在处于边缘状态的链路。

(2) 检查处于边缘状态的链路的设备状况,例如,处于边缘状态的链路共享的存储设备故障能够导致所有访问该共享存储设备的设备发生通信故障。

(3) 检查组成链路的任何组件,包括交换机端口、交换机GBIC(千兆比特接口转换器)、线缆、边缘设备GBIC(千兆比特接口转换器)及边缘设备等。

I/O(输入输出)暂停的故障

和一般的PC和服务器一样,I/O故障比较常见。所以I/O暂停发生时,SAN和边缘设备都能够承受。I/O暂停如同主机或存储设备掉电一样麻烦,它会导致I/O停止。可能有两种原因,一种是较低级别端口的RSCN不能胜任,这可能是应用软件和对存储转发时间敏感引发的问题。另外,Fabric线缆故障也能够暂停I/O。

总结

与传统的存储故障诊程相比,对SAN进行故障诊断更具复杂。在诊断直连SCSI设备的故障或是以太网故障时,采用的是“经过实践检验”的排除法,可以将这一方法用于对SAN进行故障诊断。从宏观层面讲,如果将SAN作为一条虚拟线缆来考虑,问题有可能出在三个地方:主机、线缆或存储设备。另外充分利用交换机的LED(液晶显示屏)也是很重要的。笔者这里提供一个网址:www.syngress.com/solutions,这里有许多SAN故障诊断排除的案例可供参考。

表一:交换机各端口LED和定义

端口 LED定义

黄色 接收到灯或是信号的载波,但是尚未联机

缓慢变黄 禁用(诊断、switchDisable命令的结果)

快速变黄 端口故障

绿色 联机(通过线缆与外部设备相连)

缓慢变绿 联机,但是已分段(Fabrlc参数不兼容)

快速变绿 正在进行内部环回

绿灯闪烁 正常联机,有帧流量通过端口
发表评论请到:http://bbs.cnitom.com

相关阅读

图文热点

大佬发话 Intel为超极本制定SSD新规范
大佬发话 Intel为超极本制定SSD新规范英特尔正在为 超极本 制定SSD新规范。英特尔目前正在寻求与PC厂商和NAND公司合作...
数据治理,不仅仅是技术问题
数据治理,不仅仅是技术问题毋庸置疑,数据已成为企业的重要资产,也是企业竞争力的重要武器。企业业务的成功...

本类热点