Entre em contato

Além de cima/baixo: hå uma maneira melhor de definir "normal" em infraestrutura complexa

LĂ­deres de pensamento

Além de cima/baixo: hå uma maneira melhor de definir "normal" em infraestrutura complexa

mm

Percorremos um longo caminho desde o monitoramento de alta/baixa. Das fĂĄbricas Ă  infraestrutura empresarial moderna, os administradores de TI agora exigem muito mais informaçÔes do que uma simples verificação para determinar se um site ou aplicativo Ă© capaz de atender aos usuĂĄrios. Claro, Ă© Ăștil ver um status bĂĄsico de "alta" ou "baixa", mas isso nĂŁo conta toda a histĂłria de como a tecnologia estĂĄ entregando o valor comercial esperado. AlĂ©m disso, Ă  medida que os ambientes de TI e TO convergem e os ecossistemas se tornam mais dinĂąmicos e efĂȘmeros, esses alertas nĂŁo estabelecem ou refletem com precisĂŁo as linhas de base.

Entender o que é normal, aprender padrÔes de desempenho e prevenir períodos de inatividade dispendiosos são funçÔes vitais na infraestrutura complexa atual. Isso é particularmente verdadeiro à medida que os agentes de ameaças usam ferramentas cada vez mais sofisticadas para fazer mais com menos e a infraestrutura interconectada moderna cria novas vulnerabilidades.

É nesta paisagem que Monitoramento baseado em IA Transforma a gestĂŁo de infraestrutura, oferecendo insights sobre o que Ă© e o que nĂŁo Ă© comportamento normal, eliminando assim linhas de base ruins e a fadiga de alertas. Vamos explorar como essa mudança do combate reativo a incĂȘndios para a prevenção proativa marca uma evolução de monitoramento muito necessĂĄria.

Descobrindo o novo normal

O que Ă© normal, afinal? Esta Ă© uma pergunta que as equipes de infraestrutura que supervisionam servidores, dispositivos de rede, aplicativos e bancos de dados vĂȘm se fazendo hĂĄ dĂ©cadas. Por quĂȘ? Porque definir "normal" Ă© complexo e propenso a erros em ambientes dinĂąmicos e cada vez mais distribuĂ­dos, com diversos sistemas para monitorar. Encontrar a resposta dependerĂĄ dos seus padrĂ”es e tecnologias de negĂłcios especĂ­ficos. AlĂ©m disso, dependerĂĄ da sua tecnologia e configuração de monitoramento, pois definir limites estĂĄticos nĂŁo detecta muitos problemas. Em vez disso, isso lhe darĂĄ uma boa ideia quando algo que vocĂȘ espera estĂĄ acontecendo, mas nĂŁo ajuda a detectar problemas inesperados, levando a falsos positivos, fadiga de alertas e lacunas na visibilidade.

Considere uma fåbrica onde o tråfego aumenta repentinamente às 2h de uma terça-feira. O monitoramento tradicional pode disparar um alerta caso o limite exceda um limite predefinido, mas isso é realmente um problema? Não hå como saber sem dados e diagnósticos mais aprofundados. O pico pode indicar atividade comercial legítima, como um novo turno ou aumento de produção para cumprir um prazo. Alternativamente, pode sinalizar uma séria ameaça à segurança, como vazamento de dados ou um sistema comprometido transmitindo sinais para servidores de comando e controle.

É aqui que a IA impulsiona detecção de anomalia aprimora a inteligĂȘncia do monitoramento de infraestrutura. Este mĂ©todo emergente analisa continuamente dados histĂłricos para criar linhas de base inteligentes que se ajustam automaticamente Ă s mudanças nas condiçÔes. Essa abordagem permite alertas mais proativos, o que proporciona tempo extra para que administradores de TI e equipes de DevOps intervenham e mitiguem o problema antes que haja impactos graves.

O monitoramento do trĂĄfego de rede Ă© um bom exemplo disso em ação. Os sistemas de monitoramento de infraestrutura coletam diversos sinais, incluindo logs e mĂ©tricas. Um log Ă© um evento gerado por um sistema, enquanto uma mĂ©trica Ă© uma medida. Ao longo do tempo, essas medidas sĂŁo coletadas e representadas como uma sĂ©rie temporal, semelhante Ă  temperatura medida ao longo do dia. Os dados coletados para monitorar as condiçÔes da rede incluem mĂ©tricas como taxas de pacotes de transmissĂŁo de entrada e saĂ­da, nĂșmero de descartes e erros e taxa de transferĂȘncia total de trĂĄfego. Se algo estiver fora do normal em relação ao desempenho normal, o monitoramento inteligente pode garantir que os alarmes corretos sejam acionados e que falsos positivos sejam evitados.

Como resultado, as equipes de infraestrutura podem se concentrar em fornecer valor comercial em vez de ajustar constantemente as configuraçÔes de alerta e combater problemas que podem não existir.

Evitando duplicação de alertas

Duplicar o monitoramento pode trazer desafios adicionais, criando mais alertas. O monitoramento pode se tornar confuso com o tempo, Ă  medida que as equipes adicionam rastreamento para novos projetos ou criam monitoramento adicional para solução de problemas ou testes. Em pouco tempo, o que parecia uma configuração de monitoramento limpa e simples pode se transformar em um labirinto sobrecarregado de alertas espĂșrios ou redundantes que obscurecem, em vez de esclarecer, os problemas.

Por exemplo, equipes de TI Ă s vezes recebem alertas sobre alto uso de CPU, tempos de resposta lentos de aplicativos e congestionamento de rede do mesmo servidor sobrecarregado. Sem entender a correlação, as equipes podem investigar trĂȘs problemas distintos em vez da causa raiz Ășnica.

As tecnologias modernas de IA, quando combinadas com o monitoramento, transformam novamente essa questão por meio da detecção automåtica de configuraçÔes de monitoramento semelhantes. Empregando técnicas como matemåtica fuzzy e heurística, essa abordagem analisa padrÔes comportamentais e descobre correlaçÔes entre monitoramentos semelhantes para revelar interconexÔes ocultas.

Isso Ă© importante por dois motivos principais. Primeiro, reduz o ruĂ­do de alerta. Em vez de receber trĂȘs alertas separados para um problema, as equipes recebem um Ășnico alerta com uma compreensĂŁo clara do que precisa de atenção e por quĂȘ. Segundo, elimina o monitoramento redundante. Isso ajuda a criar uma configuração mais gerenciĂĄvel que otimiza os painĂ©is e reduz a carga cognitiva.

O futuro do monitoramento inteligente

Outros desenvolvimentos em redes e segurança cibernĂ©tica tambĂ©m justificam o aumento do monitoramento, Ă  medida que a complexidade continua a crescer exponencialmente. O que antes eram redes industriais separadas e isoladas agora estĂŁo interconectadas com sistemas corporativos, criando ambientes hĂ­bridos onde um problema de rede pode impactar tanto as linhas de produção quanto os aplicativos de negĂłcios. E estamos vendo essa convergĂȘncia na pilha moderna.

Sensores industriais de IoT, gateways de ponta e dispositivos de TO agora se comunicam juntamente com protocolos de TI padrĂŁo. Quando esses diversos sistemas apresentam problemas, os administradores precisam de um monitoramento que possa compreender as relaçÔes em todo o ecossistema, em vez de tratar cada um como um silo separado. A vigilĂąncia Ă© inegociĂĄvel, pois uma violação bem-sucedida pode interromper linhas de produção, danificar equipamentos caros e representar riscos Ă  segurança. De fato, o tempo de inatividade nĂŁo planejado agora custa As empresas da Fortune Global 500 obtĂȘm 11% de sua receita anual, ressaltando que o custo do monitoramento inteligente Ă© significativamente menor do que a despesa com solução de problemas manuais e perda de produtividade.

Enquanto isso, não hå como escapar do fato de que hackers do outro lado do mundo da segurança cibernética estão usando essa tecnologia como um avanço na produtividade para ataques em escala. Modelos de linguagem de IA generativa (LLMs), gratuitos ou baratos, permitem que hackers gerem e modifiquem ataques a um custo mínimo. E, com o tempo, fica claro que os criminosos veem cada vez mais a IA como um divisor de åguas. Hoje, 7 de 10 acreditam que a tecnologia e suas diversas ferramentas aprimoram o hacking, em comparação a apenas duas em cada dez em 10.

Os algoritmos atuais de detecção de anomalias baseiam-se em matemåtica e estatística jå consolidadas hå décadas. Essa tecnologia funciona, mas o advento e a aplicação de IA e LLMs ao monitoramento métrico estão mudando o jogo. Estamos vendo alguns dos primeiros LLMs baseados em séries temporais chegarem ao mercado e podemos esperar que isso transforme a detecção de anomalias nos próximos dois anos. Vårios desses novos modelos estão demonstrando excelente precisão e avanços.

A escolha agora recai sobre as equipes de TI e operaçÔes sobre a melhor forma de supervisionar seus ecossistemas e combater ameaças. A boa notĂ­cia Ă© que a detecção automatizada de anomalias e o monitoramento de linha de base podem ajudar a proteger melhor os ativos enquanto aprendem, se adaptam e otimizam, o que, por sua vez, permite um planejamento de capacidade e otimização de recursos mais eficazes. VerificaçÔes bĂĄsicas de up/down ainda sĂŁo valiosas, mas – quando um Ășnico problema pode se espalhar pelos sistemas de TI, TO e IoT – precisamos de um contexto inteligente sobre essa base. Os defensores da infraestrutura podem aproveitar o momento aumentando sua visibilidade de acordo.

Jonah Kowall Ă© vice-presidente sĂȘnior de produto e design da paesslerCom mais de 20 anos de experiĂȘncia como profissional e gestor em startups e grandes empresas, Jonah concentra-se em infraestrutura e operaçÔes, segurança e engenharia de desempenho. Na Paessler, Jonah supervisiona a introdução de Recursos de IA preditivos e proativos do PRTG e recursos de otimização automatizada.