人工智能
主动性SRE:如何自愈基础设施重新定义企业AIOps在2026年

企业IT系统已经达到了一个人类中心的运营无法跟上的地步。微服务、边缘计算和5G已经使依赖关系和故障模式增加,从而导致每个用户交互都可能跨越数十个服务。因此,系统在几秒钟内就会生成大量的日志、指标和跟踪。因此,工程师们经常面临一个监控墙,其中解决一个警报后会立即有数百个警报要求关注。
通过2024年和2025年,遥测数据的增长挑战了传统的站点可靠性工程(SRE)实践。警报疲劳变得普遍,平均恢复时间(MTTR)改进放缓,团队面临着一个悖论,即完整的可见性并没有带来更好的控制。此外,手动干预、静态脚本和基于票据的工作流程无法处理现代系统日益增长的复杂性。故障现在遵循不可预测的模式,微服务动态交互,而边缘节点不断改变状态。
硬件突破,如NVIDIA的Rubin架构,现在使得推理密集型代理在大规模上可行。企业正在采用主动性SRE,在2026年,智能代理负责可靠性结果。这些代理不断分析系统状态,执行补救措施,并验证结果。此外,人类工程师专注于定义策略,设置防护栏,并建立业务意图。因此,这种方法创建了真正的自愈基础设施,并重塑了企业AIOps可以在大规模、始终在线的环境中交付的内容。
什么是主动性SRE 从脚本自动化到推理代理
在检查现有实践的局限性之前,必须澄清主动性SRE与传统的企业环境中使用的自动化模型有什么区别。
为什么经典的站点可靠性工程原则不再足够
传统的SRE依赖于服务级别目标和预定义的运行手册来维护系统可靠性。当一个指标超过定义的阈值时,人类工程师会干预。在某些情况下,脚本执行预定义的纠正操作。这种方法在系统行为随时间保持稳定和可预测的环境中有效。
然而,企业系统已经发生了显著的变化。微服务在分布式平台上动态交互。依赖关系频繁演变。因此,系统行为变得更难预测。故障经常出现,没有先前的模式。因此,静态自动化难以有效响应。预定义的脚本只能解决已知的条件,当事件偏离预期场景时,它们无法适应。
除了技术复杂性外,运营工作流程还引入了进一步的约束。基于票据的流程需要人类批准基本的补救操作。当团队等待重启服务或调整容量时,恢复会变慢。因此,MTTR增加,运营成本上升。人类瓶颈成为一个限制因素,不是因为工程师缺乏技能,而是因为手动决策无法跟上系统的速度和体积。
定义主动性在站点可靠性工程的背景下
鉴于这些限制,主动性SRE引入了一个不同的运营模型。代理不再对单个警报做出反应,而是对整个系统上下文进行推理。这些代理应用推理链来分析日志、指标和历史事件数据。因此,补救决策来自分析,而不是预定义的规则。
此外,主动性SRE通过协调的多代理结构来运作。在这种模型中,责任分配在具有不同角色的代理之间。一个代理检测异常。另一个评估可能的根本原因。第三个执行补救操作。第四个验证恢复结果与定义的可靠性目标。这种协调的流程模仿了人类运营团队,但消除了手工交接和批准造成的延迟。
因此,工程师的角色发生了显著的变化。人类在环路模型取代了直接的运营执行,转而进行监督和治理。工程师定义策略,指定可接受的操作,并编码业务意图。他们评估结果,而不是执行重复的干预。因此,运营努力转向系统设计、弹性规划和长期可靠性管理。
主动性SRE与传统AIOps:有什么区别
为什么传统AIOps无法解决现代事件响应
传统的AIOps,即AIOps 1.0,专注于模式识别和警报分组。它减少了噪音,提高了可见性,但人类团队仍然负责补救。这些系统可以识别故障和可能的原因,但它们无法自行解决事件。工程师仍然需要解释建议并采取行动,这使得他们的响应保持被动。
局限性变得更加明显,因为系统变得更加复杂。现代事件跨越多个服务和依赖关系。检测数据库瓶颈或内存问题并不意味着恢复服务。没有自动的纠正操作,洞察力并不一定能减少恢复时间。这造成了一个建议差距,即了解问题并不一定能带来更快的解决。
主动性AIOps:关闭执行循环
主动性AIOps通过将分析与执行相结合,克服了传统系统的局限性。智能代理根据验证的信号采取行动,而不是仅仅提出建议。使用大型操作模型,它们在应用程序和基础设施上执行结构化的补救措施,将观察转化为受控的行动。
例如,代理可以检测异常的内存行为,追踪到特定的代码更改,并在暂存环境中部署更正后的容器。然后,它验证系统行为是否符合定义的目标,然后将修复推广到生产环境。每个步骤都遵循策略和安全约束,而人类工程师观察和审查结果,而不是执行命令。
因此,事件响应变得确定,而不是被动。恢复不再依赖于人类的可用性。停机时间减少,连贯性提高,AIOps从建议工具演变为一个运营系统,使企业规模的自愈基础设施成为可能。
为什么自愈基础设施正在获得动力
自愈基础设施的采用正在加速,这是由于技术进步和组织需求的综合作用。硬件改进使得在较低的成本和更快的响应速度下,可以在大型企业系统上运行推理密集型的AI代理。此外,专用AI芯片使代理能够实时分析复杂的数据流并采取行动,这以前是不切实际的。此外,市场因素鼓励采用。熟练的SRE人才有限,运营成本上升,组织面临着维持可靠性同时减少人类疲劳的压力。
人类依赖的运营创建延迟并增加错误的可能性。团队经常花费更多的时间响应警报,而不是预防停机。因此,事件需要更长的时间来解决,运营的一致性受到影响。主动性SRE系统通过使智能代理能够持续监控系统、执行根因分析、执行补救和验证结果来解决这些挑战。因此,人类工程师可以专注于定义策略、设置防护栏和指导业务意图,而不是执行重复的运营任务。
此外,人类瓶颈的成本超出了响应时间。工程师的倦怠和流失降低了组织的弹性,并限制了管理复杂基础设施的能力。因此,自愈系统缓解运营压力,提高可靠性,并使工程师能够专注于战略工作,例如弹性规划和长期可靠性管理。因此,技术进步和运营激励正在共同使代理驱动的自治IT运营成为现代企业的实际和必要解决方案。
主动性SRE背后的技术栈
主动性SRE系统将遥测、推理和受控自动化结合到一个闭环管道中。该管道检测、诊断和补救问题,需要最少的人类干预。该系统通常依赖三个核心层:统一数据平面、推理层和操作层。每个层在严格的策略和防护栏内运行,以确保安全和可靠的执行。
使用OpenTelemetry的统一遥测
自愈开始于一致且高质量的可观察性数据。来自微服务、Kubernetes集群、网络和云平台的日志、指标、跟踪和事件被收集和标准化。OpenTelemetry提供了一个框架来导出这些数据,然后将其聚合到一个集中式的可观察性和AIOps平台中。
使用统一的流,主动性SRE系统可以在整个堆栈中关联信号。因此,盲点和误解(当每个工具只能看到系统的一部分时),显著减少。另外,全面可见性使代理能够准确地响应异常和系统变化。
使用RAG和依赖图的上下文感知推理
推理层使代理能够超越简单的模式匹配。 检索增强生成(RAG)管道从内部知识库中检索相关的历史事件、运行手册、配置数据和事后分析。因此,代理基于实际的运营历史和策略做出决策,而不是一般的模型记忆。
服务映射和依赖图,通常使用图数据库或拓扑模型实现,捕获上游和下游关系。因此,代理可以评估潜在操作的影响,评估爆炸半径,并确定最安全的干预点。这种历史背景和依赖分析的结合使代理能够像经验丰富的工程师一样精确地运行。
大型操作模型和基于策略的执行
操作层将决策转化为生产中的安全和可审计的更改。大型操作模型或工具增强的代理与基础设施API(如Kubernetes、云提供商SDK、CI/CD系统和基础设施即代码平台)接口。因此,它们可以自动执行操作,如重启、回滚、流量路由和配置更新。
这些操作始终在策略即代码防护栏内运行。类似Open Policy Agent的框架定义了严格的运营边界,因此代理只执行批准的任务。因此,每个更改都是可审计的、可跟踪的,并且符合组织标准。人类工程师不再需要执行常规干预。相反,他们监督结果,设置策略并审查代理的操作,确保可靠性和合规性,而无需不断的人类干预。
自愈基础设施的核心能力
自愈基础设施提供了三个核心能力,它们共同合作,以最少的人类干预来维持系统可靠性。首先,预测性检测在故障升级为完全停机之前识别灰色故障。这些微妙的问题,例如轻微的性能退化或资源竞争,通常被传统的基于阈值的警报忽略。通过持续分析整个服务的遥测数据,代理检测到可能表明潜在问题的模式。因此,团队可以在影响用户之前预防事件。
此外,自主根因分析使代理能够跨系统的多个层次跟踪异常,并将其与最近的代码更改、配置更新或基础设施修改联系起来。这种实时关联减少了手动调查的需求,并加速了事件解决。因此,根因被快速识别,并且可以精确地应用纠正措施。
此外,自动验证和回滚确保所有补救措施都是安全和有效的。代理根据定义的服务级别目标验证修复结果,以确认系统性能符合可靠性标准。如果更改失败或引入不稳定性,系统会自动回滚到稳定状态。因此,运营风险降低,停机时间最小化,系统可靠性提高。这些能力共同形成一个闭环周期,检测、诊断和补救相互强化,创建真正的自愈企业基础设施。
主动性SRE中的信任和安全问题
在站点可靠性工程中引入完全的自治性为企业带来了新的挑战。随着智能代理承担检测、诊断和补救事件的责任,错误的可能性也增加了。例如,代理可能会误解遥测信号并执行破坏服务的操作。因此,组织必须实施严格的保障措施来有效地管理这种风险。
一种关键的方法是设计具有最小权限的代理。每个代理都被赋予明确的运营边界,确保它只能执行批准的任务。此外,企业使用策略即代码框架,例如Open Policy Agent,来一致地执行这些边界。这种组合确保即使代理行为不正确,其影响也是有限和受控的。
此外,某些关键操作仍然需要人类的监督。例如,完全自动化网页容器的扩展,但任务如全局DNS更改需要人类批准。这种分层控制平衡了效率和安全性。透明的日志记录和审计跟踪进一步增强了问责制,提供了对每个代理操作的可见性。因此,企业可以在信心十足地采用自愈系统的同时,知道运营风险是受控的,系统可靠性是保持的。
结论
部署自治系统带来了巨大的好处,但也需要仔细的风险管理。通过将最小权限的代理与明确的运营边界相结合,企业可以防止意外的操作。此外,保持人类的监督对于关键任务至关重要,以确保高影响力的更改始终得到验证。透明的日志记录和审计跟踪提供了持续的可见性,强化了整个系统的问责制。因此,自愈基础设施的信任来自于设计控制,使自动化变得可预测、安全和可审计,而不是完全消除人类。这种仔细的平衡使组织能够自信地依赖智能代理,同时保护运营和业务结果。












