关注智能自动化运维的趋势与难点
智能自动化运维是云数据中心时代尤为重要的趋势。公有云让基础设施资源更集中,企业放弃自建数据中心转而使用公有云,基础设施资源因此集中到了第三方服务商的手中。
这一定程度上使得企业运维轻量化,更注重上层应用的运维,后端较重的基础设施运维转嫁集中到了第三方公有云服务商的身上。基础设施运维的集中化,大体量化为自动化运维提供了良好的生存空间,企业前端的轻量的运维甚至也可以通过大数据以智能可视化的方式呈现出来。
多平台融合的导致故障点监测困难
有业界人士称,相对于传统IT架构,云数据中心运维的管理对象主要分为五大类,分别是:
机房环境基础设施部分,包含风火水电等;各种设备,包括存储、服务器、网络设备、安全设备等硬件资源;系统与数据,包括操作系统、数据库、中间件、应用程序等软件资源及业务数据;管理工具,包括了基础设施监控软件、监控软件、工作流管理平台、报表平台、短信平台等
从中可以看出,一项云数据中心向外界提供服务是多方服务融合的结果。因此,当面临一个故障时,如何在诸多服务中准确追溯到故障点,是运维人员需要关注的另一个问题。
避免人为失误与网络威胁
前不久,中国某大型云厂商因运维人员操作失误启动了一个BUG,导致一些客户访问官网控制台和使用MQ、NAS等多项产品功能出现问题,造成了较大影响.实际上,除了自然灾害等原因,数据中心运维出现的一些安全问题极有可能是人为导致的。
出了要避免人为上的失误,来自网络的威胁也不可小觑。数据中心资源的集中化让我们逐渐感受到,数据中心故障的大型化趋势越来越明显,从网络安全的角度来说一个漏洞被利用,就可能会造成较大的数据丢失甚至设备停机事故。
以上我们对云数据中心时代运维人应该关注的几个问题进行了梳理,但面对这几个方面应该运维人如何去关注和采取措施?
7月24日,“新时代 新动能”数据中心设施论坛将在上海举行,届时中国电子学会及中科仙络将发布国内第一个数据中心团体标准,阿里巴巴将分享他们的运维人才培养之道,而清华大学博士,现南开大学教师张圣林则会探讨用人工智能在设施运维中的机会和挑战。我们以上提到的问题,将由专家作出解答。
作为运维的一员,在运维日这天不要错过这个属于运维人自己的交流时间与平台,赶快动身为2018下半年无故障运维做好准备吧!