扫一扫
关注微信公众号

CrowdStrike大瘫痪启示录:超54亿美元损失背后的全球供应链信任危机
2025-04-07   企业网D1Net

  2024年夏天,CrowdStrike的一次错误软件更新导致数百万台电脑瘫痪,造成数十亿美元的损失,并突显出公司仍然无法管理第三方风险,或无法快速有效地应对中断。

  “这是一个有趣的全球网络影响案例研究,”Mitre的CTO Charles Clancy说道。

  根据Adaptavist于1月底发布的一项调查,为应对此次故障,84%的公司正在考虑或已经开始分散其软件和服务提供商。

  对于那些一直在使用CrowdStrike的公司来说,更换供应商似乎是一个显而易见的解决方案。

  “但是,你应该使用什么终端检测和响应平台来代替它呢?”Clancy问道,“如果它是市场上最好的产品,那么抛弃它并不是答案。”

  事件经过

  在CrowdStrike自己的根本原因分析中,这家网络安全公司的Falcon系统会在用户机器上部署一个传感器来监测潜在危险。2024年7月19日,CrowdStrike发布了一次更新,导致用户机器崩溃。

  该公司78分钟后发布了修复程序,但要求用户手动访问受影响的设备,在安全模式下重新启动,并删除一个恶意文件。直到三天后,才发布了自动化修复程序。

  总共有850万台电脑受到影响。由于此次故障,全球数千个航班被取消,数万个航班延误。多家医院取消了手术,银行、机场、公共交通系统、911中心以及包括国土安全部在内的多个政府机构也遭受了中断。

  据Parametrix的分析,仅对财富500强企业而言,整体损失就估计高达54亿美元,而网络保险风险平台Cyberwrite的首席执行官Nir Perry告诉路透社,总经济损失可能达到数百亿美元。相比之下,此前最昂贵的停机事故是2017年的AWS故障,估计给客户造成了1.5亿美元的损失。

  仅达美航空就因运营瘫痪、数千个航班取消和延误而损失了5亿多美元。在去年10月提起的诉讼中,达美航空声称该错误更新是以不安全的方式推出的,CrowdStrike应该赔偿损失。在反诉中,CrowdStrike指责达美航空自身的问题,称其他航空公司能够更快地恢复,而且两家公司之间的合同意味着达美航空无权因损失而提起诉讼。

  总体而言,CrowdStrike的股价从故障前一天的343美元跌至8月2日的218美元低点,损失超过300亿美元,即超过其总市值的三分之一。

  但截至1月28日,该公司的股价已涨至400美元以上,创历史新高,这得益于其在勒索软件检测行业测试中获得的满分,以及CrowdStrike在故障后对质量控制流程的改进,包括在该问题后增加了特定问题的检查,以及其他测试、部署层和检查。客户还获得了对如何部署更新有了更多的控制权。

  此外,CrowdStrike聘请了两家独立的软件安全供应商来审查Falcon传感器代码、其质量控制和发布流程,并改变了其更新的发布方式:更逐步地,向“越来越多的部署环节”发布,CrowdStrike负责对抗对手运营的副总裁Adam Meyers说道。“这使我们能够在受控环境中监测问题,并主动在更广泛的用户群体受到影响之前回滚更改,”他在9月向国会小组介绍道。

  然而,虽然CrowdStrike做出了改变,但世界各地的公司都在重新评估他们对供应商的信任程度,审查他们的软件安全流程,并重新关注韧性。

  要信任,但也要验证。再想一想,不要信任……

  内容交付公司Akamai的CIO兼高级副总裁Kate Prouty表示,此次故障对Akamai来说是一个警钟。“这提醒了我们世界是多么地相互关联,”她说道。

  Akamai本身不是CrowdStrike的客户,但确实使用了外部供应商提供的类似服务来帮助保护其系统。

  “我们做的第一件事是审核我们拥有的所有解决方案,这些解决方案都有一个驻留在机器上并可以访问操作系统的代理,以确保它们中没有自动更新,”她说道。“当你有一个第三方供应商自动向系统推送更新时,你就失去了控制权。”

  但是,对于一些公司来说,关闭自动更新可能会成为一个问题。如果有一个紧急的安全补丁该怎么办?在推出之前测试每个补丁以确保其有效可能需要时间——而这段时间可能会被恶意行为者利用。

  如果存在安全威胁和潜在漏洞,你必须尽快完成测试过程,Prouty说道。“如果不确定补丁是否会对你的环境造成损害,那么修补安全漏洞就没有意义,”她补充道。

  Akamai建立了一个结构,使其能够快速进行测试,其中涉及自动化和人工干预。“值得多做一步谨慎操作,因为这可以在以后为你省去麻烦,”她说道。测试完成后,更新将分阶段推出。“这并不能完全消除风险,但确实降低了大规模影响的风险,”她补充道。

  如果可能的话,Akamai会避免使用需要代理的工具,尽管在某些领域(包括网络安全)中,它们是必不可少的,而且利大于弊。“但是,我们没有很多需要审核的代理,而且我们没有发现任何配置错误,”Prouty说道。

  Akamai还采取了其他措施来降低第三方软件引发问题的风险,包括微分段和基于身份的身份验证和访问控制。

  合同、审计和软件物料清单(SBOM)

  除了保护企业架构免受危险更新和一般危险软件的侵害之外,公司还可以采取其他措施来保障其软件供应链的安全,从选择供应商和签订合同开始。“我作为首席信息官处于一个令人羡慕的位置,因为我们销售的安全解决方案非常有效,”Prouty说道。“我们的法律团队在谈判合同时完全知道需要提出什么要求。如果一家公司不愿意为我们提供保持公司安全所需的东西,那么我们就不会与他们做生意。”

  根据网络安全和基础设施安全局的说法,如果客户没有提出要求,供应商就很难在安全上投资。这意味着,除了在软件公司内部建立安全设计的理念之外,该行业还需要在买方一侧建立按需安全的理念。

  为此,CISA于8月为政府企业客户发布了一份软件采购指南,该指南也可为一般企业所用。

  该指南涉及软件所有权的四个阶段:软件供应链、开发实践、部署和漏洞管理,并表示它们有助于购买软件的企业更好地了解其软件制造商的网络安全方法,并确保安全设计是一个核心考虑因素。

  在CrowdStrike事件之后,Akamai开始审查其所有供应商协议,以确保合同中具有所有必要的保护措施。“我们仍在审查所有内容,”Prouty说道。

  而且,仅仅相信供应商说他们是安全的是不够的。例如,Akamai使用工具来审计云软件解决方案的配置,并运行其他安全检查。“它们不会消除风险,但会显著降低风险,”她说道。

  企业越来越多地采用的另一种做法是,要求供应商提供软件物料清单(SBOM)。Anchore在11月发布的一项调查显示,78%的企业计划在未来18个月内增加对SBOM的使用。

  构建韧性

  不幸的是,无论采取多少预防措施,都只能降低风险,而无法完全消除风险。因此,Akamai也制定了最坏情况下的应对方案,并进行了演练,以评估其快速响应的能力,并找出需要改进的领域。例如,在CrowdStrike服务中断事件发生后,Akamai立即进行了桌面演练。

  “如果这种事情发生在我们身上,会是什么情况?”普劳蒂问道。演练甚至还包括了运行CrowdStrike的修复流程。她说,这次演练取得了成效,如果错误的更新通过了检查,Akamai也能够恢复。

  米特尔的克兰西说,更多公司应该进行这种准备演练。“你需要了解你的事件响应计划、你的沟通计划,不仅要写下来,还要进行演练,让这些技能保持熟练。”他说。

  此外,重要的是,这些演练不能仅仅涉及安全团队。“当发生事件时,整个业务都会受到影响,”他补充道,“首席信息官需要让这些业务高管也参与这些演练和灾难响应计划。在现实中,拍板的是他们,而不是下面三级的某个事件响应经理。”

  韧性尤为重要,因为企业不可能总是测试所有第三方软件。“独立审计每个软件更新并不实际,”克兰西说,“最好的做法是制定应急方案,以便在发生类似事件时进行响应和恢复。”但根据Adaptavist的调查,CrowdStrike服务中断事件发生前,84%的企业没有制定充分的事件响应计划。而在那些制定了计划的企业中,只有16%认为这些计划在危机期间是有效的。不过,幸运的是,现在这种情况可能正在改变。

  服务中断事件发生后,54%的企业表示,他们正在实施事件响应计划,或加大对现有计划的投入。此外,大约一半的企业表示,将在未来12个月内引入或增加对各种测试措施以及监控和观察技术的投资。

  下一步

  Coro Cybersecurity的CEO兼联合创始人盖伊·莫斯科维茨说,大问题在于,供应商优先考虑的是速度和利润,而不是最佳实践。“CrowdStrike每天推送大约十几个更新,”他说,“出错的机会很多。” “我希望看到出台立法,建议甚至要求所有网络安全公司立即在其软件升级发布过程中实施分阶段环境保障措施,”他补充道,“这样,他们就可以在广泛的客户发布更新之前,在一个安全的环境中捕捉到任何失误。”

  希望看到政府采取行动的不止他一个人。在Adaptavist的调查中,47%的受访者表示,他们现在比以前更支持有关网络安全和韧性的法规,48%的人更支持有关软件质量保证的法规。此外,49%的人支持强制性的事件报告要求。

  8月,美国计算机协会技术政策委员会发布了一份声明,呼吁对这一事件进行彻底调查,以便私营企业和监管机构能够更好地加强网络基础设施,改进事件响应计划和修复流程,改善国际协调和合作,并开发此类事件的索赔流程。

  美国计算机协会技术政策委员会副主席乔迪·维斯特比说:“犯错可能会很严重——而这是一起非常严重的事件。企业不得不重置系统,并且花了数周时间才从这次事件中恢复过来。”

  但她说,个人客户能做的有限。

  “大供应商不会与5000个不同的客户签订5000份不同的合同,”她说,“在某些情况下,我们可以推动合同条款,比如说,‘你每年都会向我们发送SOC 2报告,并证明你拥有所有这些控制措施。’他们可能会签字同意,但你真正了解的却有限。尽职调查能做的也只有这么多。”

  她说,CrowdStrike事件凸显了政府援助的必要性。

  美国计算机协会表示,已经有一个企业似乎非常适合对这一事件进行调查并公布结果:美国网络安全与基础设施安全局(CISA)的网络安全审查委员会。在声明中,美国计算机协会敦促美国政府为该委员会提供必要的资源,以便其开展这项调查。本来这是件好事,但美国国土安全部却解散了该委员会,理由是“滥用资源”。同时被解散的还有AI安全与保障委员会。这尤其是个问题,因为就像CrowdStrike一样,企业对少数供应商的依赖程度越来越高。安全公司F5的现场首席信息安全官查克·赫林说,OpenAI的ChatGPT、Anthropic的Claude、谷歌的Gemini和Meta的Llama几乎是所有企业AI应用的基础。

  “我们在急于采用AI的同时,却没有相应地在安全和韧性方面进行投资,这表明我们正在为自己设置潜在的灾难性故障,而这些故障可能会让CrowdStrike事件显得微不足道,”他说,“CrowdStrike事件需要物理访问受影响的系统进行恢复,但现在企业正在创建如此深的AI依赖,以至于可能无法进行手动干预。”

热词搜索:供应链 AI 网络安全

上一篇:CISO推荐的10大漏洞管理最佳实践
下一篇:最后一页

分享到: 收藏