一面是数据中心对高速模块的强烈需求,一面是模块故障率居高不下。相比1G、10G,40G、100G甚至200G,直观感受故障率要高得多。当然,这些高速模块的工艺复杂度远比低速高,比如一个40G光模块,本质上就是通过4个10G通道绑定起来,同时工作实现的,相当于4个10G在工作,只要有一路有问题,整个40G就无法再用了,故障率当然要比10G高,而且光模块还要实现4条光路的协调工作,出错概率自然更高。100G更是如此,有的就是通过10个10G通道绑定起来,还有的采用新的光技术,这些都会增加出错可能。
更高速率的更不用提了,技术成熟度上就不高,像400G仍是实验室里的技术,2019年就要推向市场,必然出现一次故障率的小高潮,好在刚开始用量不会很多,随着技术的不断提升,相信也会像低俗模块那样逐渐稳定。试想20年前拿到GBIC的1G光模块去用,和现在用200G的感觉差不多,新品短期内故障率升高是必然。
好在,光模块的故障对业务冲击较小,数据中心的链路都是有冗余备份的,一条链路光模块出问题,业务可走其它链路,如果是CRC错包也可通过网管立即发现,及早做更换处理,所以光模块故障很少对业务有较大影响,极少数情况下,可能因为光模块引发设备端口故障,从而导致整个设备挂掉的情况,这种情况多是设备实现不合理导致的,很少出现,绝大多数的光模块和设备之间是松耦合的,虽然连接在一起,并没有耦合关系。所以虽然高速光模块使用中坏的比较多,但对业务冲击也没那么大,一般不会引起人们重视,发现故障直接更换掉,高速光模块的维保时间也长,故障了基本是免费的更换,损失也不大。
光模块的故障多表现在端口无法UP、光模块无法识别、端口CRC错包等现象,这些故障与设备侧、光模块本身和链路质量都有些关系,尤其是错报和无法UP,很难从软件技术上判断故障位置。有些还是适配类的问题,双方都没有问题,只不过相互之间没有调试和适配过,导致无法在一起工作,这种情况还不少,所以不少的网络设备都会给出适配的光模块清单,要求客户用自己适配过的光模块,这样才能保证稳定可用。
若遇到了故障,最好用的方法依然是轮换测试,换链路光纤、换模块,换端口,通过这一系列测试确认到底是光模块问题,还是链路或设备端口问题,好在一般这类故障现象比较确定,遇到那种故障现象不固定的就难处理了。比如端口上有CRC错包,将光模块直接拔出来换一个新的,故障现象消失,再将原来的光模块换回来,故障不再复现,这就不好判断到底是不是光模块问题。这种情况在实际使用中也会经常碰到,这让人难做判断。
如何降低光模块的故障率?第一,抓好源头,更高带宽的光模块不要急于推向市场,要做好充分的实验,而且高速模块需要相应的设备配套实现,这些技术也需要完善才能成熟,新的高速模块要平滑地引入市场,不要简单地追求高速,现在网络设备都支持多端口捆绑,400G不行,就用4个100G捆绑也可以满足需求;
第二,抓好高速光模块的引入,网络设备商和数据中心客户,在引入高速光模块上要慎重,增加对高速光模块的严格测试,坚决过滤质量上有缺陷的产品。现在市面上高速光模块市场竞争也比较激烈,都希望在新的高速模块上抢占先机,但质量和价格参差不齐,这就需要网络设备商和数据中心客户能加大考核力度,越是速率高的模块,越增加验证的复杂度
第三,光模块其实是一个集成度特别高的器件,露在外面的光纤通道和内部器件都比较脆弱,使用时要轻拿轻放,带上干净手套,避免落入灰尘,这些也会降低使用故障率,不用的光模块要带好光纤帽,放在袋子里。
第四,尽量少的出现极限情况,比如100G的光模块长期在接近限速的情况下使用,200米距离的光模块,偏偏要在200米距离使用,这些极限边界值使用对光模块的损耗较大,它就像人一样,人在24~26度的空调房里工作,工作效率就高,到了35度外面的高温环境,注意力无法长时间集中,工作效率极低,到了40度以上,人都快中暑了还怎么工作。为光模块提供一个令其舒适的环境,能够有效延长光模块的使用寿命。
随着海量数据的增长,数据中心带宽需求越来越高,引入更高速的光模块成了必由之路,必须控制好其质量的问题。如果新的高速模块在市场上频繁碰壁,也难逃被淘汰的结果。当然,任何一种新技术都有一个走向成熟的过程,高速光模块也不例外,需要不断地技术创新,解决各种问题,提升模块质量,降低故障概率。高速光模块是模块厂商的利润引擎,是历代模块厂商的必争之地,必须要严控质量关。