Alex Cruz Farmer 拥有近 20 年的经验,专注于从初创阶段到 IPO 和收购的 SaaS 和基础设施平台的建设和扩展。他此前曾在 Cloudflare 和 Cisco ThousandEyes 担任产品领导角色,推动收入增长、新的产品和 AI 驱动的能力,现在他在 Kentik 领导产品,专注于网络智能和服务提供商解决方案。
现代网络与几年前的网络相比已经发生了巨大的变化,尤其是在远程工作和人工智能、软件即服务(SaaS)快速采用时代的到来。曾经集中式和相对可预测的网络,如今已经变成了一个复杂的云平台、边缘设备、分支办公室和家庭互联网以及本地系统的网络。传统的网络运营中心(NOC)并不是为这种新的网络环境而设计的。大多数监控工具仍然需要手动地在不同的系统之间进行数据关联,这使得维持可视性变得更加困难,并且当工程师需要快速做出决定和排除故障时,他们会面临大量的冲突警报。服务提供商和企业IT团队也面临着类似的压力。利润率很低,团队也变得更加精简,但是客户获取周期的标准并没有改变。当合同需要8到10个月才能变得有利可图时,客户留存和高质量的客户体验的赌注就变得非常高。总的来说,Agentic NOC的舞台已经准备就绪。构建Agentic NOC根据Gartner的说法,尽管只有17%的组织目前部署了Agentic AI,但60%的组织预计在未来两年内部署Agentic AI。这继续了自从该技术开始获得关注以来其采用曲线的快速增长,主要是因为其能够主动地对数据进行推理,而不仅仅是被动地自动化定义的任务。对于NOC来说,Agentic AI是区别于碎片化或沮丧、更快的解决时间、减少停机时间和更全面地理解环境的关键。然而,要实现这些好处,Agentic NOC必须以人工智能和人类操作员之间的协作为基础。速度永远不如准确性和可靠性重要,因此,当人工智能可以增强诊断、根因分析和最终推荐行动时,人类的判断力对于最后的验证仍然至关重要。Agentic NOC还以结构化数据为特征。准确的库存、一致的标签和命名约定以及网络范围内的流量、路由和性能的可见性都描绘了当前发生的情况、网络应该如何表现以及以前如何解决问题的图景。没有这种视图,任何分析都将是不完整的,操作员无法自动化他们无法看到或理解的内容。部落知识的捕获也属于这一范畴。NOC最大的资源是其工程师的大脑。多年来诊断和解决网络问题积累的经验和直觉,即使是最先进的人工智能模型也无法在没有帮助的情况下复制。这就是为什么这种部落知识需要被记录和转换成可以被人工智能摄取和重用的格式。精细的运行手册和集中式学习循环也发挥着重要作用,为人类和机器行为提供了一个基准,以更有效地确定改进领域。真正的好处IT和网络问题是2024年最具影响力的中断事件的23%的原因,根据Uptime Institute的分析。同样的分析发现,在过去的三年中,几乎40%的组织由于人为错误而经历了重大中断。这种中断率从任何角度来看都是不可持续的,包括商业、工程师和消费者。然而,它确实说明了为什么Agentic NOC如此至关重要。Agentic NOC的承诺不是为了自主而存在,而是为了更快、更自信的运营,这些运营建立在真正的网络可视性基础上。当问题发生在网络上,最大的延迟往往不是检测,而是理解发生了什么变化、什么受到影响以及下一步该怎么做。Agentic系统有助于压缩这一时间线,首先是通过加速根因分析。在几分钟内而不是几小时甚至几天内识别问题的根因之间的区别是巨大的。根据ITIC的最近研究,仅中型至大型企业的一小时网络停机时间的平均成本就超过了300,000美元。事实上,41%的企业报告称每小时的停机成本在1百万美元至5百万美元之间。然而,当操作员被要求手动搜索数据时,现实往往更接近后者。另一方面,Agentic AI工具可以在几秒钟内发现潜在原因和受影响的服务,并推荐下一步骤。当经济利益如此高时,快速的根因分析和更安全的补救措施已经成为必不可少的。除了增强战术任务外,Agentic NOC还作为知识共享的促进者,将整个组织的工程师的专业知识结合成一个共享资源。从长远来看,这个过程创造了一个持续的学习循环,其中每个事件的成功和挑战都为人工智能的推荐提供信息和改进,当新事件发生时。例如,假设一家公司一直在处理网络性能问题,并决定实施新设备来提高效率,但更新需要配置更改。在此过程中,出了问题,触发了停机。在Agentic NOC时代,人工智能系统可以关联遥测、拓扑、设备状态和最近的更改,最终将操作员引向可能的根因,只需一小部分时间。Agentic系统对网络运营的积极影响是明显的,数据也支持这一点。麦肯锡最近发现,网络运营中的自主问题解决和维修减少了多达70%的故障单,并将运营成本降低了55-80%,同时将维修时间提高了30-40%。需要注意的挑战组织最常见的错误之一是没有建立必要的基础就全力以赴地采用人工智能。根据KPMG的说法,70%的工人渴望人工智能的好处,但没有可靠的数据和文档化的流程,这些系统的价值就会受到影响。相反,人工智能应该被逐渐引入。构建Agentic NOC是一个旅程。最终,系统应该开始拥有更高级和更主动的用例,例如检测温度激增的模式或识别设备重启的趋势——这些都是即将发生的中断的信号。在开始时,然而,专注于较小的任务,如帮助诊断,留出空间让系统学习和改进。另一个错误是认为每个操作都可以从自动化中受益。一个好的经验法则是,当人类解决同一个问题时,这个任务就是一个好的自动化候选项。采取这种渐进的方法也可以在建立信任和信心方面起到很大作用。自2025年2月以来,美国员工对人工智能的信任已经下降了33%,根据德勤的说法,而麦肯锡2026年人工智能信任指数发现,输出不准确仍然是大多数美国企业(74%)对人工智能的首要担忧,其次是网络安全问题(72%)。记住KPMG报告发现美国工人渴望接受人工智能吗?该报告还发现,只有41%的工人愿意信任它。预防人工智能犹豫的方法是治理和可解释性。明确的运营护栏和审计跟踪为工程师提供了人工智能代理如何得出最终推荐的清晰洞察,以及捕获和解决错误的机制,以免在错误扩散之前造成损害。信任、治理和人类验证是区分有用Agentic操作和冒险自动化的关键,这就是为什么Agentic NOC的目标永远不应该是去除人类监督,而是增强它。现代网络要求今天的操作员做很多事情。为了跟上节奏,人类的努力需要从重复的故障排除转向政策、验证、治理和新颖或高风险的案例。Agentic AI有助于使这种转变成为可能,通过更早地识别和解决问题、更有效地跨团队共享知识以及使决策更加一致。网络监控和维护的持续演进和改进根植于Agentic AI。