北京银行自1996年建行初期便开始了信息化方面的工作。迄今为止,银行内部虚机/物理机数量已达2000-3000台,业务系统约为260个左右。虽然与行业内同规模银行的布局比较类似,但是北京银行内部的应用系统及服务器的数量相较于其他行更多,数据库和系统中间件的类型也更为复杂。
基于以上背景,北京银行在此前也进行了一系列针对应用层、系统层、网络安全层等方面的监控工具建设。整体来看,无论是监控数量还是力度都是比较大的,但由于各个层面的监控产品不尽相同,也难以有效联通协作,实际监控中依旧面临着非常大的挑战。
打通数据孤岛,提升业务系统高可用性
北京银行从2016年开始进行整体的运维规划布局与实施工作,包括但不仅限于监控工具以及其他IT软件、系统均来自不同产商,这些软件从界面到使用习惯均各有特点,如何将其各自效能发挥出来,成为了现如今北京银行运维所面临的最大的挑战。
以监控工具为例,最基本的是能发现问题,这件工作基本都已实现,各类监控产品推陈出新,静态基线、动态阈值、SNMP、网络旁路抓包等等。但是真的出现故障时,就会出现井喷式的报警信息。
具体来讲,我认为可以分为三个层次:一是在整个业务流程的链路上,某个节点系统出现不稳定情况,导致很多的业务系统处理时间、成功率等异常。需要明确哪个系统是根源;二是一个业务系统中,包含负载均衡、应用、数据库、通讯、加密甚至各层级的网络安全设备。明确了业务链条上哪个业务系统是故障根因后,需要明确由于哪个设备的异常导致的业务系统异常;三是在单个设备中,往往重启服务是最快速的解决问题方法。但是当CPU升高、交易时间变长等异常状态同时出现时,依旧需要依靠技术人员横向分析才能判断问题原因,但前提是监控系统详细记录了问题出现的过程和现象,并且在服务重启过程中故障现场的各类数据能够精准的保留下来。
·北京银行系统运行情况分解图·
我们再以最典型的“手机银行购买理财”业务场景作为例子。客户的操作旅程大致为:登录-余额查询-理财查询-购买理财-查询是否购买成功-查询余额等多个操作,而事实上,单纯“购买理财”这一个操作,系统会从手机银行端发起请求至ESB统一平台,然后再发送到理财系统,由理财系统发送至核心系统进行响应。
如果某个时间点该业务场景的任一环节出现迟缓等问题(比如手机端进行秒杀迟缓),在进行问题分析处理的时候就会涉及到各个不同的层面。例如,它可能会涉及到不同客户手机所使用的APP,以及WEB服务器、手机应用、不同数据库以及相关的网络设备、防火墙等等。同时,这一个流程上又会涉及很多设备,每一个也都需要在自己的监控工具上才能拿到相关的数据。
其次,即使就单单一个数据库而言,它也有自己的硬件服务器、盘阵、网络设备,有自己独立的一套操作系统,系统本身还会有备份以及批处理作业,以上所有的设备以及过程一旦发生变动都会对业务处理产生很大的影响。
例如,北京银行内部曾经出现过一次故障,该故障不是在使用其他系统期间出现,表现为整个IT系统突然就变得缓慢,导致大量交易不成功。最后经运维人员层层筛查日志发现,是由于后台程序自动的在某个点发起了一个备份作业,而且鉴于这个备份作业在后台自动发起,非人工操作引起的,运维人员根本不知情。故障发生时,由于没有全方位的监控数据能够显现,问题筛查过程耗费了大量的人力、物力。
从上面的情况中,我们可以看到,即使有了全面的监控,但是如果数据依旧还是散落在各个监控系统内的,管理员在按照时间维度进行横向比对,筛查可能的问题时是非常困难的。再者,后台批处理作业的状态、近期的变更都有可能导致系统的不稳定,因此有必要建立一体化的运维大数据平台,进行全面的业务可视化管理。
构建业务可视化平台,实现数据利用闭环
基于以上原因,北京银行IT运维的当务之急是进行业务可视化平台的建设,以此做到数据的全方位管控与利用,提升运维效率,减少故障。
·可视化监控平台建设目标·
全面掌握数据,保障系统稳定运行
通过可视化的监控平台,将覆盖十几个监控系统的作业数据全面收集,统一纳管,来实现系统运行状况的实时掌握,保证生产系统稳定运行。并在此基础上,保证业务连续性,给业务人员提供稳定的系统环境。
数据质量转换,使其标准化
由于行内各个监控系统的使用习惯、规则等不尽相同,网络之间分歧等原因,来源于不同路径的数据往往在类型、格式上都不太一致,因此在进行统一纳管的时候会非常困难,更别提对他们统一进行分析利用。因此,需要制定指标数据、事件数据的相关规范,将来源于不同系统的指标和事件数据进行数据转换,使其标准化,便于后续利用。
完善数据分析能力,提升系统稳健性
面对庞大的业务量,银行内部的数据增长呈指数级趋势,巨大的数据如果仅仅只是被存储起来,那么将变成累赘的包袱。而运维要想走向最终的“运营”,离不开数据的有效利用。在新的运维模式下,我们将一个生产事件分为三个部分,分别是“事前”、“事中”、“事后”,每一部分的数据都有其不同的角色价值。
在“事前”,将数据分析与业务规划结合起来,做到对流量、容量进行预测,有的放矢。在“事中”,将数据统一规划进行分析,并快速进行对比问题、发现问题并关联问题,最终做到故障告警智能去重,降低运维噪音。在“事后”,及时做好归纳总结,智能提供参考的故障排查路径与解决方案。
进行趋势预测,防患于未然
面对北京银行每天数以亿计的指标数据、事件数据、以及非关系型数据的采集纳管,需要使用大数据技术进行相关的存储和计算。与此同时,建设依赖于CMDB关系数据和二叉决策树算法来判断事件的相关性,再辅助以专家规则进行修正。
以核心业务价值,驱动IT精细化管理
北京银行通过搭建一体化的运维大数据平台,进行全方面的业务可视化管理能力建设,目前平台已经具备统一收集数据、数据转换等功能,并在此基础上,IT系统得以高效、稳定运行。但是,在关于数据兼容性、数据质量等方面,还有待后期建设完善。
·可视化监控平台建设方案·
北京银行业务可视化运维监控平台是以Kafka为基础的数据交换平台,具备数据接入、输出的能力。数据接入来源有:服务器设备指标数据、事件数据数据库、中间件指标数据、事件数据网络、安全设备指标数据、事件数据业务监控指标数据、事件数据关键业务指标数据等不同来源,数据输出包括可视化平台和数据分析的平台,由数据接入来的数据在数据输出处进行分析、处理后,交由数据消费环节,这部分包括有:大屏展现、态势感知、关联事务查询、业务系统看板、事件根因分析等等。
通过实际建设,北京银行可视化监控平台能够实现多种功能,其中包括通过将关键指标(如MQ队列,http延时)可视化进行业务综合概览。并且,可视化平台内设有健康度模型,运维人员能够在后台看到最近七天实时的系统健康程度,还可以通过内置的权重模型,设定业务健康度评估,权重值允许自定义调整,同时支持添加新的指标。与此同时,前期建设的自动化运维平台可以和可视化关联起来,当系统出现故障的时候,实现故障自愈的相关操作。
北京银行期待未来的IT支撑建设能够从“运维”走向“运营”,站在银行布局的战略角度,希望实现的不单是业务数据、IT资源能够有效纳管,确保IT资产、业务数据,能够实现“看得见,管的住”。还应当将统一收集到的有效数据进行高效的数据分析,比如银行卡系统的成交率、理财购买人员的男女比例、年龄架构、资金来源等都能够实现数据化的分析,进而对业务运营、决策做出一些指导意见。