扫一扫
关注微信公众号

2022年从传统运维到智能运维,正确的领跑姿势是什么?
2022-02-08   搜狐

  IT有得聊”是机械工业出版社旗下IT专业资讯和服务平台,致力于帮助读者在广义的IT领域里,掌握更专业、更实用的知识与技能,快速提升职场竞争力。点击蓝色微信名可快速关注我们!

  在刚刚过去的2021年,全球发生的科技变革有:

  中国建成全球最大5G网络,5G基站达70万个,占全球比重近七成,连接超过1.8亿个终端。

  MIT(麻省理工学院)与合作团队仅用19个类脑神经元就实现了控制自动驾驶汽车,而常规的深度神经网络需要数百万个神经元。

  中国“祝融”号和美国“毅力”号火星车分别在火星成功着陆,它们将寻找火星上可能存在过的生命迹象。

  2020年全球电动汽车销量较2019年上涨39%,达到310万辆。苹果、百度、小米等互联网科技公司纷纷加入造车新势力,车辆自动驾驶由单车智能迈向车路协同。

  迄今为止,SpaceX已为Starlink发射了1000多颗卫星,预计到2021年年底,Starlink的服务将会覆盖全球大多数客户,并有望在2022年完全覆盖全球。

  上面这些事件只是近期大大小小科技事件中很小一部分,而它们中绝大多数都涉及大数据、人工智能、物联网等新兴技术。这些新技术通过无数软硬件实现万物互联,背后离不开智能运维的辅助。

  智能运维顾名思义是智能+运维。智能运维的概念是全球知名的IT研究与顾问咨询公司GART-ner在2016年提出的。当初提出时的英文全称为AlgorithmicITOperations,意指基于算法的IT运维。随着人工智能技术的发展,近两年该英文全称逐渐演化为ArtificialIntelligenceforIToperations,突出了人工智能算法在IT运维中的应用,现在,这两种英文全称都能在不同文档中见到,同时并存。

  1

  智能运维发展的三个阶段


  在综合各方观点的基础上,笔者认为智能运维的发展分3个大阶段6个小阶段。分别是人工运维、自动化运维、智能运维3大阶段。其智能等级参考TMForum自动驾驶网络从L0-L5逐级递增,如图1所示。

图1.运维发展各阶段示意图(以电信运营商为例)

  1.人工运维阶段

  该阶段分L0手工操作与维护、L1辅助运维两个小阶段。该阶段完全或大部分依靠运维专家的经验规则进行故障定位、根因分析和配置下发等管理任务的制定和执行。进入辅助运维的阶段,通过对重复性典型事件预先在系统中配置触发和调度策略,达到提高运维效率和减少人力成本的作用。

  2.自动化运维阶段

  该阶段分L2部分自治、L3条件自治两个小阶段。在L2部分自治小阶段,业内提出了ITIL(InformationTechnologyInfrastructureLibrary)、Devops等理念,强调流程管理质量和打破开发、运维的边界。在这个阶段业内逐渐达成IT研发和运维一体化的共识,但仍未规模化使用Devops工具,主要依靠在系统中定制编写自动化脚本,实现简单数据分析、可视化、参数配置等初始功能,类似早期BI(商业智能)系统。到L3条件自治小阶段,企业已经认可自动化运维的价值,开始停止自己开发脚本,转而使用市场上开源和付费的Devops工具。从OpenStack时代,再到现在的容器时代,借用工具出现了很多自动化运维的高级模式,如网络可用性工程SRE(SiteReliabilityEngi-neer)、聊天机器人ChatOps等。前者是在保证用户满意度的前提下,平衡系统功能、服务及性能多方因素,是涵盖Devops运维思想、组织架构和具体实践的完整体系ꎮ后者通过插件或脚本实时执行团队成员在会话中输入的每一行命令,将过去成员在各工具输入的命令前端化、透明化,以进一步提升自动化程度。

  3.智能运维阶段

  该阶段分L4高度自治(又称智能运维前期阶段)和L5完全自治(即无人运维阶段)两个阶段。当在某个领域自动化程度达到一定极限时,必然会被人们个性化需求推动着往智能化方向发展。

  L3和L4两个阶段从功能定义上来看,两者必定会在长期共存的状态下进一步演化,预估会共存10-15年,即在此期间内自动化和智能化程度均会逐渐提高。在智能运维早期,AI从单点应用着手,如KPI单指标的异常检测和趋势预测,逐步实现在单点应用上的自主发现问题、诊断问题、解决问题和性能优化。并在各垂直领域中,将专家经验积累成知识库,形成可重复利用的结构化知识点。

  在各单点应用逐渐智能化的前提下,将底层各维度数据打通,建立中间通用和专用能力层,灵活应用于上层服务。在每个应用中都能实现从数据自主采集、自主预处理到自优化,模型上实现自主选择、调参、优化及部署。人们的需求将通过语音、姿态、神情等特征进行控制和调度,系统也会自主发现、诊断和优化问题。

  在时间维度上,由于各行业自动化和智能化发展速度参差不齐,即使自动化运维和Devops概念已提出多年,但自动化运维工具在企业中的使用依然普及率不高,预计到2030年超过50%企业会普及使用Devops工具。同理,即使从2016年开始,已有企业开始尝试在单点应用上借用AI技术,但要大多数企业能达到高度自治的水平,依然至少需要20-30年时间的探索和发展。而要实现无人运维需要研发和搭建以算力网络、数字孪生、千脑感知网络、边缘智能等技术为基础的“运维大脑”,在高度自治的智能运维阶段基础上,至少还需要20-40年时间。

  随着人工智能技术的不断深入,运维管理中,人的角色越来越主动,对数据和工具的掌控力越来越灵活。运维人员收集原始数据后,经过数字孪生和可视化后,再进行打标、模型预训练、结构化知识的提取,最终将专家的经验和数据衍生为应用知识,进而实现工具的自动化和智能化升级,如图2所示。

图2.不同运维阶段中人、数据、工具

  3种角色功能和关系演化图

  2

  实现智能运维的必要条件

  无论是从已经进入AIOps阶段的企业技术架构图(如图3所示)中,还是从Gartner的定义中,都可以清晰地看出:数据是智能运维的基础。准确地说,具备数据能力是一家企业进入智能运维的必要条件。

  根据Gartner的定义,AIOps产品或平台主要包括以下5类技术要素。

  •数据源:来自各IT基础设施的底层记录数据。

  •大数据平台:用于处理、分析静态和动态实时数据。

  •计算与分析:数据预处理、数据标准化等清洗工作。

  •算法:用于计算和分析,以产生IT运维场景所需的结果。

  •机器学习:包括无监督、有监督和半监督学习。

  数据是企业的核心资产,随着数据量、数据维度的爆发式增长,现有的监测分析工具在处理这类数据时压力很大,且现有的BI或数据分析工具只能满足简单的数据分析和可视化功能,如Tableau其无法自动化地在企业跨越多种数据类型采集、洞察数据,进而给出决策。

  目前所有的AIOps平台需能够提取静态数据(历史数据)和动态数据(实时、流式传输数据)。这些平台允许事件数据、用户数据、日志数据以及图形和文档数据的提取、索引和存储。

  数据能力,具体包括数据采集、数据存储、数据治理、数据服务4项核心能力,即以数据中台/大数据平台/数据湖等形式存在的数据底座,至于这几种数据底座的名称之间的细微差别,读者可暂时理解为同一事物。


图3.某企业AIOps技术架构图

  每天数据量在1TB以上、底层平台超过5个以上的企业,建立一个可用的数据底座至少需要3年时间。而且这3年中需要一边建设数据底座一边将其与运维业务紧密结合,在试错中建设。构建统一监控平台,实现IT资源的统一管控。利用大数据的手段,采集、分析基础设施、网络、日志等IT监控数据,通过海量IT数据的实时处理分析,消除数据孤岛,实现统一的告警,提升运维管理效率。

  由于采集的数据集依然是按照业务逻辑从各平台取出后按表存储的,与后期各类运维场景使用的数据结构相差甚远,因此,需要在数据底座上针对每种运维场景(当然场景的数量是慢慢积累的),建立企业自身运维的数据标准,并通过自动化程序和配置采集程序来采集标准数据。在数据底座上建立一个个标准化的数据模型,每种运维场景需要的数据可以是一个数据模型中的数据,也可以是多个数据模型组合的数据ꎮ这种数据模型后期将在无人运维阶段,通过数据孪生技术从大数据平台中自动生成。数据将通过统一接口服务于智能运维。

  3

  智能运维未来发展趋势


  智能运维最终必然会进化为无人运维,类似汽车、飞机的无人驾驶,只有在人为需求变更条件下主动干预才会影响机器的正常决策。要想实现无人运维,背后一定需要类似人脑的“运维大脑”的实时支撑。

  从图4所示的基于无人运维技术体系架构来看,首先需要解决数据来源安全、分布式算力整合调度、人机智能融合、智能免疫系统、信任体系价值网络和脑机操作接口等重大难题,进而实现主动任务求解、自适应强化学习、虚拟场景重建、认知整合、数据应用闭环统一和价值交互模式。


图4.基于无人运维技术体系架构

  要解决上述难题,实现“运维大脑”,提升其知识泛化能力,很可能是以区块链技术建立分布式可信价值网络生态,加上联邦学习,实现从数据提取、算法选择、算力和存储资源的使用,到数据在使用方的分析应用和优化,在每一次反馈中不断积累价值,形成知识。基于区块链技术运维大脑数据计算流程示意图如图5所示。


图5.基于区块链技术运维大脑数据计算流程示意图

  要实现上述目的,在可预见的未来至少需要以下核心技术

  •数据聚合和价值交换:数据多方计算与隐私保护。

  •数据的关联与重构:数字孪生与注意力机制。

  •千脑感知网络:算力网络、边缘智能、分布式决策。

  •认知整合:知识图谱、基于场景的模仿学习。

  •面向任务的自动机器学习(Auto-ML):自动超参优化编码学习、大规模图卷积学习。

  •认知智能混合技术:基于自动特征工程的认知特征提取、基于深度学习的视觉问答VQA(VisualQuestionAnswering)技术。

  •基于强化学习的决策智能:基于图的决策智能推理。

  •数字化场景重建:基于GAN的视频压缩和重建。

  •人机协同与脑机接口。

  •安全免疫机制。

  •多方协同智能:区块链价值网络。

  实现“运维大脑”涉及的领域和基础技术如下。

  •大数据平台。

  •AI赋能平台。

  •区块链数据多方计算。

  •数字孪生技术。

  •容器云平台。

  •图数据库引擎。

  •大规模图关联模型。

  •算力网络。

  •混合现实技术。

  •自动机器学习。

  •知识图谱。

  •价值网络。

  •自然语言处理。

热词搜索:

上一篇: IT领导者计划如何克服远程工作的安全挑战?
下一篇:进阶高级运维需要具备哪些技能?

分享到: 收藏