思想领袖

自愈数据中心:人工智能如何改变IT运营

mm

“如果你能给我运营团队每天多30分钟的时间,那将是一个胜利。” 一位CIO的谦逊请求反映了今天的IT运营团队的现实——被动地应对故障,精疲力竭。 但是,这些3点的警报风暴和争分夺秒的恢复时刻,这些定义了传统的IT运营,正在变得过时。

自愈数据中心——曾经看似未来主义的——正在通过代理人工智能系统的出现而变得现实,这些系统可以在人类操作员收到第一个警报之前检测、诊断和解决问题。 这不是理论;这是正在发生的,根本改变了企业基础设施管理和重新定义了IT运营团队的角色。

IT环境已经超过了人类可以合理地监控和管理的范围。 组织正在处理复杂的混合基础设施,涵盖了传统系统、专有云、多个公有云提供商和边缘计算环境。 当问题出现时,它们会迅速蔓延。 一个小的数据库性能下降会触发应用程序超时,导致重试风暴和广泛的服务退化。 为昨天的更简单的架构设计的传统工具无法跟上——它们在信息孤岛中运行,缺乏跨平台的可见性,并生成成千上万个不相关的警报,这些警报甚至会让最有经验的运营团队感到不知所措。

这种复杂性为人工智能提供了一个机会,以前所未有的方式提供价值。 人工智能在处理系统生成的问题和确定性结果时表现出色。 系统故障不是模糊的;它们遵循模式——人工智能可以识别、分析和最终在没有人类干预的情况下解决这些模式。 代理人工智能系统通过压缩多达95%的警报来展示这种能力,同时主动检测和解决问题,防止它们升级为服务中断。

超越警报分类:自愈如何真正发挥作用

自愈能力始于相关性。 人类只能看到不相关的警报,而人工智能代理则识别模式,将技术栈中的信息整合为连贯的见解。 一家全球托管服务提供商处理每月140万个事件,部署了代理人工智能,并通过智能相关性和自动化将服务事件减少了70%。

接下来是根本原因分析和补救计划。 人工智能系统不仅仅识别出了什么正在发生,还找出了原因,然后建议或实施解决方案。 在去年的重大软件发布期间,具有先进人工智能监控的组织捕获了早期的红旗,并控制了影响,而竞争对手则在努力控制损害。

自动补救是这一转变的核心。 当代自主人工智能可以在适当的人类监督下采取行动。 当您的VPN性能下降时,人工智能可以检测到问题,找出原因,实施解决方案,并在之后通知您:“我注意到您的VPN性能下降,因此我优化了配置。现在它运行得很好。” 这是区别于不断灭火和确保火灾永远不会开始的关键。

人工智能赋能的弹性三大支柱

实施自愈能力的组织必须建立三个关键支柱:

第一个支柱是意识。 IT事件必须直接与业务成果相关。 先进的人工智能系统提供了上下文仪表盘,概述了系统故障时的具体财务影响,从而使恢复计划能够优先考虑最关键的技术。

第二个支柱是快速检测。 IT事件可以在不到两分钟内从一台服务器传播到60,000台。 自主人工智能系统识别和消除威胁,通过立即隔离受影响的服务器、运行诊断并部署补丁来减少响应时间。

第三个支柱是优化。 自愈系统知道什么是正常的,什么是不正常的。 通过识别典型的环境行为,它们将安全团队的注意力集中在关键问题上,同时自动解决常规问题,防止升级。

弥合技能差距和提升团队

但也许自愈技术带来的最大影响并不是技术方面的,而是人力方面的。 具有机构知识的经验丰富的三级工程师——他们能够诊断奇怪的边缘故障——正在变得越来越稀缺。 人工智能弥合了这一技能差距。 有了代理系统,三级工程师可以有效地运作,具有三级能力,而经验丰富的专家终于可以专注于战略计划。

一家医疗服务提供者在实施自愈人工智能后,将其整个一级支持团队改造,不是通过裁员,而是通过将团队成员提升到更具挑战性的工作。 他们报告称,警报噪音减少了80%,事件票减少了显著。 一家拥有数百个地点的零售组织经历了90%的警报量减少,并将其团队从维护转移到创新。

从概念到实施

自愈并不是即插即用。 它需要有条不紊的推出和正确的文化心态。 组织应该从明确定义的用例开始,建立平衡自主性与监督的治理框架,并投资于能够与人工智能系统有效合作的团队。

目标不是取代人类;而是停止浪费他们的时间。 通过自动化常规任务并提供上下文化智能,自愈系统颠倒了传统的IT运营帕累托原则——团队不再将80%的资源投入到维护中,将20%投入到创新中,而是可以逆转这一比例,推动战略计划。

自愈数据中心代表了IT运营几十年的发展成果,从基本监控到复杂的自动化,再到真正的自治系统。 虽然我们永远无法消除每个人的错误或智胜每个复杂的威胁,但自愈技术为组织提供了检测问题的能力,防止它们蔓延,并在不可避免的中断中最小化损害。 这不仅仅是一个运营上的增强;这是在今天的数字经济中运营的组织的竞争必备条件。

有了自愈系统,我们不仅仅是在夺回时间——我们正在重写工作描述。 中断被防止,而不是被管理。 工程师们在构建,而不是在照顾。 IT不再在防御,而是开始推动业务向前发展。

卡西克是LogicMonitor的AI总经理。在领导全球产品组织近20年的经验中,他曾领导过高增长的初创公司,如Aisera,并在大型上市公司如SAP任职。他的专长在于为企业打造、执行和扩展AI优先的产品。在他的任期内,他孵化和扩展了多个从零到一的产品到收入,并在AI和自动化领域获得了多项专利。