Connect with us

思想领袖

超越上下:在复杂基础设施中定义“正常”的更好方法

mm

我们已经走过了很长一段路,从简单的上下监控到现在。从工厂车间到现代企业基础设施,IT 管理员现在需要比简单的上下状态更多的信息来确定网站或应用程序是否能够为用户提供服务。当然,看到基本的“上”或“下”状态是有帮助的,但这并不能告诉我们整个故事,即技术如何提供预期的业务价值。进一步来说,随着 IT 和 OT 环境的融合和生态系统变得更加动态和短暂,这些警报并不能准确地建立或反映基准。

了解什么是正常的,学习性能模式,并防止昂贵的停机时间是在今天的复杂基础设施中至关重要的功能。这在威胁行为者使用越来越复杂的工具来做更多事情和现代相互连接的基础设施创建新的漏洞时尤其如此。

在这种情况下,AI 驱动的监控 通过提供对什么是和什么不是正常行为的洞察力来改变基础设施管理,从而消除不良的基准和警报疲劳。让我们探讨如何从反应性消防到主动预防的转变标志着监控的演进。

发现新的正常

什么是正常的?这是基础设施团队在几十年来一直在问的问题,原因是定义“正常”在动态和日益分布式的环境中是复杂和容易出错的,需要监控多样化的系统。找到答案将取决于您的特定业务模式和技术。此外,它还取决于您的监控技术和配置,因为设置静态阈值不能捕获许多问题。相反,它将给您一个很好的想法,当您预期的事情发生时,但它不会帮助捕获您不预期的问题,从而导致假阳性、警报疲劳和可见性差。

考虑一个制造设施,突然在周二下午 2 点流量激增。传统的监控可能会触发警报,因为它超过了预设的阈值,但这实际上是一个问题吗?没有更深入的数据和诊断就无法确定。流量激增可能表明合法的业务活动,例如新的班次安排或为了满足截止日期而增加的生产。或者,它可能表明严重的安全威胁,例如数据泄露或系统向命令和控制服务器发出信号。

这是 AI 驱动的 异常检测 增强基础设施监控的智能的地方。这一新兴方法不断分析历史数据以创建智能基准,这些基准会自动调整以适应不断变化的条件。这种方法允许更主动的警报,从而为 IT 管理员和 DevOps 团队提供额外的时间来介入和减轻问题之前的影响。

网络流量监控是一个很好的例子。基础设施监控系统收集各种信号,包括日志和指标。日志是由系统生成的事件,而指标是衡量标准。随着时间的推移,这些衡量标准被收集并以时间序列的形式表示,类似于一天中测量温度。用于监控网络条件的数据包括指标,例如传入和传出广播数据包速率、丢弃和错误的数量以及总流量吞吐量。如果与正常性能相比有什么异常,智能监控可以确保引发正确的警报并避免假阳性。

因此,基础设施团队可以专注于提供业务价值,而不是不断地调整警报设置和解决可能不存在的问题。

避免警报重复

监控的重复可能会引入额外的挑战,导致更多的警报。随着团队为新项目添加跟踪或在故障排除或测试时创建额外的监控,监控可能会随着时间的推移变得混乱。很快,最初看起来干净和简单的监控设置可能会变成一个充满虚假或冗余警报的迷宫,这些警报会掩盖而不是照亮问题。

例如,IT 团队可能会收到来自同一个过载服务器的高 CPU 使用率、慢应用程序响应时间和网络拥塞的警报。没有理解相关性,团队可能会调查三个单独的问题,而不是单个的根本原因。

现代 AI 技术,当与监控结合时,再次通过自动检测类似的监控配置来改变这一问题。使用模糊数学和启发式等技术,这种方法分析行为模式并揭示类似监控之间的相关性,从而揭示隐藏的相互连接。

这很重要,主要有两个原因。首先,它减少了警报噪音。团队不再收到三个单独的警报,而是收到一个警报,并清楚地了解需要关注什么以及为什么。其次,它消除了冗余的监控。这有助于创建一个更易于管理的设置,简化仪表板并减少认知负担。

智能监控的未来

其他网络和网络安全发展也支持增加监控的理由,因为复杂性继续呈指数级增长。曾经分离的、空气隔离的工业网络现在与企业系统相互连接,创建了混合环境,其中一个网络问题可能会影响生产线和业务应用程序。并且 我们正在看到这种趋势 跨越现代堆栈。

工业 IoT 传感器、边缘网关和 OT 设备现在与标准 IT 协议一起通信。当这些多样化的系统出现问题时,管理员需要能够理解整个生态系统内的关系的监控,而不是将每个系统视为单独的隔离区。警惕性是不可协商的,因为一次成功的入侵可能会停止生产线、损坏昂贵的设备并造成安全隐患。事实上,计划外停机现在 成为 Fortune Global 500 公司每年收入的 11%,强调智能监控的成本远远低于手动故障排除和失去生产力的费用。

同时,很明显,黑客在网络安全方面使用这项技术作为生产力突破来进行大规模攻击。免费或廉价的生成式 AI 大型语言模型(LLM)使黑客能够以最低的成本生成和修改攻击。随着时间的推移,很明显,恶意行为者越来越多地将 AI 视为游戏规则的改变者。今天,7 分之 3 的黑客认为这项技术及其各种工具增强了黑客攻击,高于 2023 年的 2 分之 1。

如今的异常检测算法基于几十年前就已经确立的数学和统计学。这种技术是有效的,但将 AI 和 LLM 应用于指标监控是一个游戏规则的改变者。我们正在看到第一批基于时间序列的 LLM 出现,并且可以预计这将在接下来的两年内改变异常检测。其中一些新模型显示出卓越的准确性和进步。

现在选择权在于 IT 和运营团队,如何最佳地监督他们的生态系统和应对威胁。好消息是自动异常检测和基准监控可以帮助更好地保护资产,同时学习、适应和优化,从而实现更有效的容量规划和资源优化。基本的上下检查仍然有价值,但当一个问题可以跨 IT、OT 和 IoT 系统传播时,我们需要在基础上添加智能上下文。基础设施防御者可以通过相应地扩大他们的可见性来应对这一时刻。

Jonah Kowall 是 Paessler 的产品和设计高级副总裁。作为一个拥有超过 20 年经验的从业者和管理者, Jonah 在基础设施和运营、安全和性能工程方面拥有丰富的经验。 在 Paessler,Jonah 正在监督引入 PRTG 的预测和主动 AI 功能自动优化能力