人工智能

Agentic SRE:如何通过自愈基础设施重新定义企业AIOps

mm
Agentic SRE: How Self-Healing Infrastructure Is Redefining Enterprise AIOps in 2026

企业IT系统已经发展到人类中心的运营无法跟上。微服务、边缘计算和5G已经增加了依赖关系和故障模式,因此,每个用户交互都可能跨越数十个服务。因此,系统在几秒钟内就会生成大量的日志、指标和跟踪数据。因此,工程师经常面临一个监控墙,其中解决一个警报后会立即被数百个其他警报淹没。

2024年和2025年,遥测数据的增长挑战了传统的站点可靠性工程(SRE)实践。警报疲劳变得普遍,平均恢复时间(MTTR)改进放缓,团队面临一个悖论,即完整的可见性并没有带来更好的控制。此外,手动干预、静态脚本和基于票据的工作流程无法处理现代系统日益复杂的性质。故障现在遵循不可预测的模式,微服务动态交互,边缘节点不断改变状态。

硬件上的突破,如NVIDIA的Rubin架构,现在使得大规模的推理密集型代理成为可能。企业正在采用Agentic SRE,在2026年,智能代理负责可靠性结果。这些代理不断分析系统状态,执行补救措施,并验证结果。此外,人类工程师专注于定义策略,设置防护栏,并建立商业意图。因此,这种方法创建了真正的自愈基础设施,并重塑了企业AIOps在大规模、始终在线环境中可以提供的内容。

什么是Agentic SRE:从脚本自动化到推理代理

在检查现有实践的局限性之前,需要澄清Agentic SRE与传统的自动化模型有什么区别,这些模型在企业环境中被使用。

为什么经典的站点可靠性工程原则不再足够

传统的SRE依赖于服务级别目标和预定义的运行手册来维护系统可靠性。当指标超过定义的阈值时,人类工程师会干预。在某些情况下,脚本会执行预定义的纠正操作。此方法在系统行为随时间保持稳定和可预测的环境中有效地发挥作用。

然而,企业系统已经发生了显著的变化。微服务在分布式平台上动态交互。依赖关系经常演化。因此,系统行为变得更难预测。故障经常出现,没有先前的模式。因此,静态自动化难以有效地响应。预定义的脚本只能解决已知的条件,无法适应当事件偏离预期场景时的情况。

除了技术复杂性,操作工作流程还引入了进一步的约束。基于票据的流程需要人类对基本的补救措施进行批准。当团队等待重启服务或调整容量时,恢复速度变慢。因此,MTTR增加,运营成本上升。人类瓶颈成为一个限制因素,不是因为工程师缺乏技能,而是因为手动决策无法与系统的速度和体积相匹配。

在站点可靠性工程背景下定义Agentic

鉴于这些局限性,Agentic SRE引入了一个不同的操作模型。与其对单个警报做出反应,智能代理推理整个系统上下文。这些代理应用推理链到日志、指标和历史事件数据。因此,补救措施的决策来自分析,而不是预定义的规则。

此外,Agentic SRE通过协调的多代理结构来运作。在这种模型中,责任分配在具有不同角色的代理之间。一个代理检测异常。另一个评估可能的根本原因。第三个执行补救措施。第四个验证恢复结果与定义的可靠性目标相符。此协调流程模仿了人类的运营团队,但消除了手动交接和批准造成的延迟。

因此,工程师的角色发生了显著的变化。人类在环上的模型用监督和治理取代了直接的运营执行。工程师定义策略,指定可接受的操作,并编码商业意图。他们评估结果,而不是执行重复的干预。因此,运营工作从反应性事件处理转移到系统设计、弹性规划和长期可靠性管理。

Agentic SRE与传统AIOps:有什么区别

为什么传统AIOps无法解决现代事件响应

传统的AIOps,或者说AIOps 1.0,专注于模式识别和警报分组。它减少了噪音,提高了可见性,但人类团队仍然负责补救。这些系统可以识别故障并突出可能的原因,但它们无法自行解决事件。工程师仍然需要解释建议并采取行动,这使得他们的反应仍然是反应性的。

局限性变得更加明显,因为系统变得更加复杂。现代事件跨越多个服务和依赖关系。仅仅检测到数据库瓶颈或内存问题并不能恢复服务。没有自动的纠正措施,洞察力并不能减少恢复时间。这就产生了一个建议缺口,即理解问题并不能带来更快的解决方案。

Agentic AIOps:关闭执行循环

Agentic AIOps通过将分析与执行相结合,克服了传统系统的局限性。智能代理在验证的信号上采取行动,而不是停止在建议上。使用大型操作模型,它们在应用程序和基础设施上执行结构化的补救措施,将观察转化为受控的行动。

例如,代理可以检测到异常的内存行为,追踪到特定的代码更改,并在暂存环境中部署一个更正后的容器。然后,它验证系统行为是否符合定义的目标,然后将修复推广到生产环境。每一步都遵循策略和安全约束,人类工程师观察和审查结果,而不是执行命令。

因此,事件响应变得确定性,而不是反应性的。恢复不再依赖于人类的可用性。停机时间减少,连续性提高,AIOps从一个建议工具演变成一个运营系统,使得企业规模的自愈基础设施成为可能。

为什么自愈基础设施正在获得动力

自愈基础设施的采用正在加速,这是由于技术进步和组织需求的综合作用。硬件改进使得在大型企业系统上运行推理密集型的AI代理变得更加廉价和快速。此外,专用的AI芯片使得代理能够分析复杂的数据流并实时采取行动,这在以前是不切实际的。此外,市场因素鼓励采用。熟练的SRE人才有限,运营成本正在上升,组织面临着维持可靠性同时减少人类疲劳的日益增长的压力。

人类依赖的运营会产生延迟并增加错误的可能性。团队经常花费更多的时间来响应警报,而不是预防停机。因此,事件需要更长的时间来解决,运营的一致性也会受到影响。Agentic SRE系统通过使得智能代理能够持续监控系统、执行根因分析、执行补救措施和验证结果来解决这些挑战。因此,人类工程师可以专注于定义策略、设置防护栏和指导商业意图,而不是执行重复的运营任务。

此外,人类瓶颈的成本超出了响应时间。工程师的倦怠和流失会降低组织的弹性,并限制管理复杂基础设施的能力。因此,自愈系统可以缓解运营压力,提高可靠性,并使得工程师能够将精力投入到战略工作中,例如弹性规划和长期可靠性管理。因此,技术进步和运营激励因素的结合使得代理驱动的、自主的IT运营成为现代企业的实际和必要解决方案。

Agentic SRE背后的技术栈

Agentic SRE系统将遥测、推理和受控自动化结合到一个闭环管道中。该管道可以检测、诊断和补救问题,尽量减少人类干预。该管道通常依赖三个核心层:统一数据平面、推理层和操作层。每个层在严格的策略和防护栏内运作,以确保安全和可靠的执行。

使用OpenTelemetry的统一遥测

自愈开始于一致且高质量的可观察性数据。来自微服务、Kubernetes集群、网络和云平台的日志、指标、跟踪和事件被收集和标准化。OpenTelemetry提供了一个框架来导出这些数据,然后将其聚合到一个集中式的可观察性和AIOps平台中。

使用统一的流,Agentic SRE系统可以在整个堆栈中关联信号。因此,盲点和误解(当每个工具只能看到系统的一部分时),显著减少。另外,全面可见性使得代理能够准确地对异常和系统变化做出反应,实时进行响应。

使用RAG和依赖图的上下文感知推理

推理层使得代理能够超越简单的模式匹配。 检索增强生成(RAG)管道从内部知识库中检索相关的历史事件、运行手册、配置数据和事后分析。因此,代理的决策基于实际的操作历史和策略,而不是一般的模型记忆。

服务映射和依赖图,通常使用图数据库或拓扑模型实现,捕获上游和下游关系。因此,代理可以评估潜在的操作影响,评估爆炸半径,并找出最安全的干预点。历史背景和依赖分析的结合使得代理能够像经验丰富的工程师一样精确地运作。

大型操作模型和基于策略的执行

操作层将决策转化为安全和可审计的生产环境中的变化。大型操作模型或工具增强的代理与基础设施API(如Kubernetes、云提供商SDK、CI/CD系统和基础设施即代码平台)接口。因此,它们可以自动执行操作,如重启、回滚、流量路由和配置更新。

这些操作始终在基于策略的代码防护栏内执行。类似于Open Policy Agent的框架定义了严格的操作边界,因此代理只执行批准的任务。因此,每个操作都是可审计的、可追溯的,并且与组织标准保持一致。人类工程师不再需要执行常规的干预。相反,他们监督结果,设置策略,并审查代理的操作,以确保可靠性和合规性,而不需要不断的手动参与。

自愈基础设施的核心能力

自愈基础设施提供了三个核心能力,它们共同作用以最小化人类干预来维持系统可靠性。首先,预测性检测可以在它们升级为完全停机之前识别灰色故障。这些微妙的问题,例如轻微的性能下降或资源竞争,通常会被传统的基于阈值的警报忽略。通过持续分析服务的遥测数据,代理可以检测到可能预示潜在问题的模式。因此,团队可以在事件影响用户之前预防它们。

此外,自主的根因分析使得代理能够在系统的多个层次上跟踪异常,并将它们与最近的代码更改、配置更新或基础设施修改联系起来。这种实时关联减少了对手动调查的需求,并加速了事件解决。因此,根因被快速识别,并且可以精确地应用纠正措施。

此外,自动验证和回滚确保所有补救措施都是安全和有效的。代理验证修复结果是否符合定义的服务级别目标,以确认系统性能符合可靠性标准。如果更改失败或引入不稳定性,系统会自动回滚到稳定状态。因此,运营风险降低,停机时间最小化,整个系统的可靠性得到提高。这些能力共同形成一个闭环周期,其中检测、诊断和补救措施相互强化,创建真正的自愈企业基础设施。

Agentic SRE中的信任和安全问题

在站点可靠性工程中引入完全的自动化为企业带来了新的挑战。随着智能代理承担检测、诊断和补救事件的责任,错误的可能性也增加了。例如,代理可能会误解遥测信号并执行可能破坏服务的操作。因此,组织必须实施严格的保障措施来有效地管理这种风险。

一种关键的方法是设计具有最小特权的代理。每个代理都被赋予明确的操作边界,确保它只能执行批准的任务。此外,企业使用基于策略的代码框架,例如开放策略代理,来一致地执行这些边界。这种组合确保,即使代理行为不正确,其影响也是有限和受控的。

此外,一些关键的操作仍然需要人类的监督。例如,完全自动化可以扩展Web pod,但任务如全局DNS更改需要人类的批准。这种分层的控制平衡了效率和安全性。透明的日志记录和审计跟踪进一步增强了问责制,为每个代理操作提供了可见性。因此,企业可以在知道运营风险被控制和系统可靠性得到保护的情况下采用自愈系统。

结论

部署自动化系统带来了巨大的好处,但也需要仔细的风险管理。通过将最小特权的代理与明确的操作边界相结合,企业可以防止意外的操作。此外,维持人类的监督对于关键任务可以确保高影响力的变化被验证。透明的日志记录和审计跟踪提供了持续的可见性,强化了整个系统的问责制。因此,在自愈基础设施中对自动化的信任不仅仅是去掉人类,而是设计控制,使得自动化变得可预测、安全和可审计。这种谨慎的平衡使得组织能够自信地依赖智能代理,同时保护运营和业务成果。

阿萨德·阿巴斯博士(Dr. Assad Abbas)是巴基斯坦伊斯兰堡COMSATS大学的终身副教授,他在美国北达科他州立大学获得了博士学位。他的研究重点是包括云计算、雾计算、边缘计算、大数据分析和人工智能在内的先进技术。阿巴斯博士在著名的科学期刊和会议上发表了大量的论文,并做出了重要的贡献。他也是 MyFastingBuddy 的创始人。