根据世界经济论坛的估计,到2025年,全球每天将产生463EB的数据。为了应对不断增加的数据洪流,数据中心运营商正在寻找新方法来实现四个关键目标:最大限度地延长正常运行时间、优化能源使用、检测潜在风险以及防御网络攻击。利用机器学习(ML)技术是一个重要的潜在解决方案。
采用机器学习和人工智能可能看起来很简单,但企业高管有理由谨慎行事。其面临的挑战包括投资回报的不确定性、围绕数据共享的复杂政策以及缺乏高层管理人员的意识和支持。然而,考虑到企业对数据的依赖程度,技术领导者不能忽视机器学习和其他人工智能应用程序的重要性,尤其是在保持正常运行时间方面。
企业为停机时间付出高昂的代价
数据中心计划外停机带来的损失范围很广,从每小时14万美元到54万美元不等,这取决于企业的规模和所在的行业。英国航空公司在2017年遭遇一次重大数据中心故障,导致该公司损失7500多万美元。由于机器学习和更智能的基础设施的进步,当今的数据中心能够极大地简化正常运行时间的操作。
据市场研究机构InternationalDataCorp公司的预测,到2022年,数据中心中超过50%的技术可以使用嵌入式人工智能和机器学习功能自主运行。以下是机器学习可用于加强数据中心运营的四种方式:
(1)最大限度地提高能源效率
全球数据中心的能耗占到全球能源使用量的1%。这听起来可能是一个很小的数字,但即使是运营效率的适度提高,也会节约显著的成本,并阻止数以百万吨计的二氧化碳排放到大气中。好消息是能源管理是最容易实施机器学习的领域之一。例如,谷歌公司使用DeepMind节省了约30%的能源,显著减少了管理费用。
(2)准确的容量规划
为了满足日益增长的工作量,数据中心管理人员必须提前准确预测对计算资源的需求。这些预测需要实时更新,以反映环境条件的任何变化。使用高级机器学习算法构建的预测模型可以处理PB级的大量数据,并智能地预测容量和性能利用率。这一规划有助于数据中心避免任何可能导致停机和影响运营的资源短缺。
(3)更快的风险分析
机器学习可以被训练成比人类更快更准确地检测异常。数据中心工作人员可能会花费很长时间来发现某些东西,更糟糕的情况是完全忽略了异常情况。例如,一些数据中心管理即服务(DMaaS)程序可以分析来自关键数据中心设备(如电源管理和冷却系统)的性能数据,并预测它们何时可能发生故障。通过提前通知数据中心设备管理人员即将发生的故障,机器学习技术可以将停机时间降至最低。
(4)抵御网络攻击的能力
防御分布式拒绝服务(DDoS)攻击需要快速检测和低误报率。这些检测方法大致分为两类:基于特征的和基于异常的。基于特征的检测在一般流量中具有已知特征,并被广泛实施和使用。基于异常的检测超出正常流量模式。机器学习回归模型可用于识别流量异常的类型,有助于最大程度地减少误报。
克服挑战
一些数据中心正在开展人工智能和机器学习试点项目,但有些数据中心难以全面部署。这是因为试点项目将使用较小的数据集并在实验室条件下运行。例如,在现实世界中,可能需要在几分钟内处理几TB的数据。因此,将人工智能从实验室扩展到现场是数据中心必须克服的重大挑战。其他挑战包括难以访问高质量数据来训练模型、实现准确性的实施时间长,以及遵守有关数据共享的复杂法律政策。
那么,数据中心如何克服这些挑战呢?并没有一个万能的解决方案。企业需要从人工智能路线图开始。这似乎令人惊讶,但许多企业忽略了这一步。企业需要创建一个全面的数据策略,重点关注数据的可用性和获取以及数据的准确标记。
接下来,使用具有企业级性能的机器学习模型,以便机器学习易于扩展。使用数据中心基础设施进行自动化和容器化的算法训练。同样,这变得易于扩展。关注数据质量并建立卓越的测试中心或为人工智能试点建立类似的结构。这需要考虑企业的相关技术技能、专业知识和能力。帮助将试点扩展到更广泛的应用程序将会产生更大的影响。
数据中心需要重新规划如何在不断变化的环境中运行。在当今互联的社会中,数据中心将需要不断突破机器学习的界限,以避免在竞争中落后或不堪重负。