Connect with us

Líderes de pensamento

Além de Acima/Abaixo: Há uma Melhor Maneira de Definir ‘Normal’ em Infraestrutura Complexa

mm

Temos vindo longe desde o monitoramento up/down. Desde as salas de fábrica até a infraestrutura de empresa moderna, os administradores de TI agora exigem muito mais informações do que um simples verificação para determinar se um site ou aplicativo está apto a atender aos usuários. Claro, é útil ver um status básico “up” ou “down”, mas isso não conta toda a história de como a tecnologia está entregando o valor de negócios esperado. Além disso, à medida que os ambientes de TI e OT convergem e os ecossistemas se tornam mais dinâmicos e efêmeros, esses alertas não estabelecem ou refletem com precisão as linhas de base.

Entender o que é normal, aprender padrões de desempenho e prevenir paradas caras são funções vitais na infraestrutura complexa de hoje. Isso é particularmente verdadeiro à medida que os atores de ameaças usam ferramentas cada vez mais sofisticadas para fazer mais com menos e a infraestrutura interconectada moderna cria novas vulnerabilidades.

É nesse cenário que o monitoramento impulsionado por IA transforma a gestão de infraestrutura, oferecendo insights sobre o que é e o que não é comportamento normal, eliminando assim linhas de base pobres e fadiga de alertas. Vamos explorar como essa mudança de combate a incêndios reativos para prevenção proativa marca uma evolução de monitoramento muito necessária.

Descobrindo o novo normal

O que é normal, afinal? Essa é uma pergunta que as equipes de infraestrutura que supervisionam servidores, dispositivos de rede, aplicativos e bancos de dados vêm fazendo por décadas. Por quê? Porque definir ‘normal’ é complexo e propenso a erros em ambientes dinâmicos e cada vez mais distribuídos com sistemas diversificados para monitorar. Encontrar a resposta dependerá dos seus padrões de negócios e tecnologias específicas. Além disso, dependerá da sua tecnologia e configuração de monitoramento, pois definir limites estáticos não captura muitos problemas. Em vez disso, dará uma boa ideia de quando algo está acontecendo que você espera, mas não ajudará a capturar problemas que você não espera, levando a falsos positivos, fadiga de alertas e lacunas de visibilidade.

Considere uma fábrica de manufatura onde o tráfego aumenta repentinamente às 14h de uma terça-feira. O monitoramento tradicional pode disparar um alerta porque excede um limite pré-definido, mas isso é realmente um problema? Não há como saber sem dados e diagnósticos mais profundos. O aumento pode indicar atividade de negócios legítima, como um novo cronograma de turnos ou aumento da produção para atender a um prazo. Alternativamente, pode sinalizar uma ameaça de segurança grave, como exfiltração de dados ou um sistema comprometido sinalizando para servidores de comando e controle.

É aqui que a detecção de anomalias impulsionada por IA aprimora a inteligência do monitoramento de infraestrutura. Esse método emergente analisa continuamente dados históricos para criar linhas de base inteligentes que se ajustam automaticamente às condições em mudança. Essa abordagem permite um alerta mais proativo, que fornece tempo extra para que as equipes de TI e DevOps intervenham e mitiguem o problema antes que tenham impactos significativos.

O monitoramento do tráfego de rede é um bom exemplo disso em ação. Os sistemas de monitoramento de infraestrutura coletam vários sinais, incluindo logs e métricas. Um log é um evento gerado por um sistema, enquanto uma métrica é uma medida. Com o tempo, essas medidas são coletadas e representadas como uma série temporal, semelhante à temperatura sendo medida ao longo do dia. Os dados coletados para monitorar as condições da rede incluem métricas como taxas de pacotes de broadcast de entrada e saída, número de descartes e erros e taxa total de tráfego. Se algo estiver errado em comparação com o desempenho regular, o monitoramento inteligente pode garantir que os alarmes certos sejam acionados e os falsos positivos sejam evitados.

Como resultado, as equipes de infraestrutura podem se concentrar em entregar valor de negócios em vez de ajustar constantemente as configurações de alerta e combater problemas que podem não existir.

Evitando a duplicação de alertas

Duplicar o monitoramento pode introduzir desafios adicionais, criando mais alertas. O monitoramento pode se tornar confuso com o tempo à medida que as equipes adicionam rastreamento para novos projetos ou criam monitoramento adicional ao solucionar problemas ou testar. Antes que se perceba, o que parecia uma configuração de monitoramento limpa e simples pode se transformar em um labirinto sobrecarregado de alertas espúrios ou redundantes que obscurecem em vez de iluminar os problemas.

Por exemplo, as equipes de TI às vezes recebem alertas para uso intensivo de CPU, tempos de resposta de aplicativos lentos e congestionamento de rede do mesmo servidor sobrecarregado. Sem entender a correlação, as equipes podem investigar três problemas separados em vez de uma única causa raiz.

As tecnologias de IA modernas, quando acopladas ao monitoramento, transformam novamente esse problema por meio da detecção automática de configurações de monitoramento semelhantes. Empregando técnicas como matemática difusa e heurísticas, essa abordagem analisa padrões de comportamento e descobre correlações entre monitoramentos semelhantes para revelar interconexões ocultas.

Isso importa por dois motivos principais. Primeiro, reduz o ruído de alertas. Em vez de receber três alertas separados para um problema, as equipes recebem um único alerta com uma compreensão clara do que precisa de atenção e por quê. Segundo, elimina o monitoramento redundante. Isso ajuda a criar uma configuração mais gerenciável que simplifica os painéis e reduz a carga cognitiva.

O futuro do monitoramento inteligente

Outros desenvolvimentos de rede e cibersegurança também apoiam o caso para um monitoramento aumentado à medida que a complexidade continua a crescer exponencialmente. O que eram redes industriais separadas e isoladas agora estão interconectadas com sistemas de empresa, criando ambientes híbridos onde um problema de rede pode impactar tanto as linhas de produção quanto os aplicativos de negócios. E estamos vendo essa convergência em toda a pilha moderna.

Sensores de IoT industriais, gateways de borda e dispositivos de OT agora se comunicam ao lado de protocolos de TI padrão. Quando esses sistemas diversificados experimentam problemas, os administradores exigem monitoramento que possa entender as relações em todo o ecossistema, em vez de tratar cada um como um silo separado. A vigilância é inegociável, pois uma violação bem-sucedida pode paralisar as linhas de produção, danificar equipamentos caros e representar riscos de segurança. De fato, a parada não planejada agora custa às empresas do Fortune Global 500 11% de sua receita anual, sublinhando que o custo do monitoramento inteligente é significativamente menor do que o custo da solução de problemas manual e da perda de produtividade.

Enquanto isso, não há como escapar do fato de que os hackers do outro lado do livro-razão de cibersegurança estão usando essa tecnologia como uma quebra de produtividade para atacar em escala. Modelos de linguagem grandes (LLMs) de IA generativos gratuitos ou de baixo custo permitem que os hackers gerem e modifiquem ataques a um custo mínimo. E, com o tempo, está claro que os atores mal-intencionados cada vez mais veem a IA como um divisor de águas. Hoje, 7 em cada 10 acreditam que a tecnologia e suas ferramentas variadas criam um novo vetor de ataque, contra apenas dois em cada 10 em 2023.

Os algoritmos de detecção de anomalias de hoje são baseados em matemática e estatística que foram bem estabelecidos por décadas. Essa tecnologia funciona, mas o advento e a aplicação de IA e LLMs ao monitoramento de métricas são um divisor de águas. Estamos vendo alguns dos primeiros modelos de LLMs baseados em séries temporais chegar ao mercado e podemos esperar que isso transforme a detecção de anomalias nos próximos dois anos. Vários desses novos modelos estão mostrando excelente precisão e avanços.

A escolha agora está com as equipes de TI e operações sobre como supervisionar melhor seus ecossistemas e contrariar as ameaças. A boa notícia é que a detecção de anomalias automatizada e o monitoramento de linhas de base podem ajudar a proteger melhor os ativos, aprendendo, adaptando e otimizando, o que por sua vez permite uma capacidade de planejamento e otimização de recursos mais eficazes. As verificações básicas up/down ainda são valiosas, mas – quando um único problema pode se espalhar por sistemas de TI, OT e IoT – precisamos de contexto inteligente além dessa base. Os defensores de infraestrutura podem enfrentar o desafio, escalonando sua visibilidade de acordo.

Jonah Kowall é o Vice-Presidente Sênior de Produto e Design na Paessler. Com mais de 20 anos de experiência como praticante e gerente em startups e grandes empresas, Jonah se concentra em infraestrutura e operações, segurança e engenharia de desempenho. Na Paessler, Jonah está supervisionando a introdução das funcionalidades de IA preditivas e proativas do PRTG e capacidades de otimização automatizada.