导语:周龙是一个很实在的管理者,在浦东机场工作的7年间,他积攒了丰富的网络管理经验,他常挂在嘴边的一句话就是:“系统不一定要多先进,尤其是在机场,最关键是保障系统的稳定。”
就在9月18号,上海受到强台风“韦帕”的影响,从当日凌晨起上海市普降阵雨而后转为暴雨,市区风力已经达到了7~9级。已经完全不适合飞机的飞行,为了避免影响民众出行,机场领导班子召集紧急会议,部署应对“韦帕”台风的各项措施。机场同时也启动了应急预案,在台风到来之前,做好了一切防范准备。这其中也有上海浦东机场网络科在网络管理方法上的一些“功劳”。
稳定的系统更关键
作为浦东机场IT系统的建设和支持部门之一,上海国际机场股份有限公司机电通信分公司承担着浦东机场的通信信息系统、应用电子及监控系统的建设、改造和日常系统维护工作。
推开上海浦东机场网络科办公室的大门,发现周龙科长正在组织网络中心讨论浦东机场二号航站楼(T2)的网络部署方案。据周科长介绍,二期工程的网络方案将在一期的基础上,吸收很多经验,将进行一些改造,但是网络管理的方法可能还将延续下去。
作为新上海的形象窗口,位于上海浦东长江入海口南岸的滨海地带的浦东机场占地达40多平方公里,从1999年9月通航之后,就具备了导航、通讯、监视、气象和后勤保障等系统,提供24小时全天候服务。从2006年的统计数据来看,在2006年已经接待乘客2500万人,日均架次达到800架。到2008年,第二座候机楼投入使用前的运营要备年飞机起降30万架次、年旅客吞吐量3650万人次的保障能力。
从1999年,周龙就开始为浦东机场工作,这些年积攒了丰富的网络管理经验,他认为:“系统不一定要多先进,尤其是在机场,最关键是保障系统的稳定。”这也是他常挂在嘴边的一句话。从他的话语中,可以看到他是一个非常务实的管理者,在对产品进行竞标选购的时候,也需要反复斟酌测试,选用最稳定的产品。
由于机场最早的航班是4点,所以系统要求在两点左右就要进入状态,而夜航的“红眼”航班最晚可能要到1点半,所以浦东机场基本处于24小时连续云状状态,系统的可靠运行,成了周龙每天的重要工作。
谈到机场IT系统管理工作的特点,周龙介绍说,机场IT应用种类多样,关键业务支持系统包括航班管理系统、离港系统、航班显示系统、信息查询系统、广播行李系统等。目前部门使用的系统管理软件包括,记录网络日志的HP OpenView和进行网络设备配置与管理的CiscoWorks。
由于这两种管理工具使用复杂,只有专业的管理人员才可以配置和操作。而机场的全天候运行的生产系统的运营情况是需要由部门内应用水平不同的员工轮流职守的。
周龙每天都在脑海中不断思索着如何让系统更加稳定,而且在网络出现问题后如何以最快的速度得知准确的症因。这个问题已经在网络科内部讨论多次,但因为当时的网络管理已经形成一定的管理和习惯,很难推倒重来,做到不破不立的改造。
在2005年,网络改造的任务中,周龙为了能够让所有网络维护人员获得易用且直观的网络监控能力,并且构建系统不安全因素的主动发现机制,干脆抛弃旧的管理思想,重新引入了一套SiteView ECC网络管理系统。
凝聚管理思路
周龙在工作中体会最深的一点是,在完整而精密的IT管理链条中,网络监控是必要且位于链条源头位置的一环。对所有企业的IT管理者而言,网络监控不仅是网络管理体系构建的开端,更是凝聚完善管理思路的关键一步。
经过长期的技术积累和应用实践,周龙认为,网络监控成为管理对象覆盖网络硬件设备、软件部件、网上行为和IT应用内容在内的综合性、集成化的技术应用体系。
对于需要在IT系统中实际部署网络监控能力的企业而言,开源或商业化软件的选择都非常充分,而比较而言,商业化的专业监控软件在应用可靠性、服务保障、构建集成化管理体系的能力更胜一筹,因此它们也成为了众多企业在生产运营系统建设告于段落之后的必要选择。
周龙所负责的部门,目前承担着对浦东机场生产业务系统中的300多台网络设备、50多台服务器、1000多台PC进行管理,系统内的信息点超过25000个。由于环境复杂,基础出身的周龙在与合作伙伴的配合下,开发了一些程序脚本,与SiteView ECC网络管理系统配合,在部门内实现了对关键应用服务器、重点网络设备、应用关键进程、甲骨文数据库表空间等IT部件及应用指标的综合监控。
该部门机房的一台终端上,工作人员就可以通过网络拓扑图的方式详细显示被监控设备及应用的具体运营状况。当节点监控指标出现异常时,系统自动给出红色警示,并提供具体参数的查看链接。“通过近7年的系统维护经验,我们选定了需要严密监控的关键节点和应用指标,能够用简便和直观的方式清晰地呈现这些信息。”周龙说。
故障修复加速度
网管系统强调的概念其实很简单,那就是对分散的网络进行集中式的控管,不管网络结构,网络环境有多么的分散,但是只要在管理方面做到集中控管,那么便会把网络的故障发生率降至最低,即使发生了网络故障,排除故障的时间也会最短化。
为了提升系统故障上报效率,周龙将网络系统与一个叫“短信猫”的系统相连接,当网络出现故障时,报警系统会自动启用报警程序,通过系统传输到报警器上,在通过短信息的形式发送给相关的负责人,从而提醒网络科的系统管理人员处理故障。
同时,浦东机场在监测系统支持下,每当系统出现各种异常情况之后,管理系统内的各种故障都经由该系统进行报告,系统将故障及时、准确地通知到网络科运维人员及各种设备、软件的外包商,并跟踪故障解决的全过程。
这套系统不但可以记录了设备的使用状态,完成设备配置管理的功能,为设备维修、报废、更新提供依据;也可以快速统计解决故障的时效以及各种设备发生故障的频率,提供常见故障的解决方法等。在周龙看来,最重要的是让部门完善了系统故障分级报告制度。
伴随着浦东机场第二座候机楼在2008年的投入使用,网络管理系统将在网络监控的基础上进行大规模的扩展。“在网络管理系统建设的过程中,我们会延续已经贯彻多年的稳步推进的策略。”周龙说。