Entre em contato

As vulnerabilidades de segurança que criamos: agentes de IA e o problema da obediência

Líderes de pensamento

As vulnerabilidades de segurança que criamos: agentes de IA e o problema da obediência

mm

Agentes de IA baseados em LLM estão introduzindo uma nova classe de vulnerabilidades, onde invasores injetam instruções maliciosas em dados, transformando sistemas úteis em cúmplices involuntários.

O Microsoft Copilot não foi hackeado no sentido tradicional. Não havia malware, link de phishing ou código malicioso. Ninguém clicou em nada nem implementou qualquer exploit.

O agente da ameaça simplesmente pediu. O Microsoft 365 Copilot, fazendo exatamente o que foi criado para fazer, obedeceu. No recente Vazamento de eco No ataque de clique zero, o agente de IA foi manipulado por um prompt disfarçado de dados. Ele obedeceu, não porque estava quebrado, mas porque estava funcionando como deveria.

Esta vulnerabilidade não explorava bugs de software. Ela explorava a linguagem. E isso marca uma grande reviravolta na segurança cibernética, onde a superfície de ataque não é mais o código, mas a conversa.

O Novo Problema de Obediência da IA

Agentes AI são projetados para ajudar. Seu propósito é entender a intenção do usuário e agir de acordo com ela de forma eficiente. Essa utilidade traz consigo riscos. Quando incorporados em sistemas de arquivos, plataformas de produtividade ou sistemas operacionais, esses agentes seguem comandos de linguagem natural com resistência mínima.

Os agentes de ameaças estão explorando exatamente essa característica. Com injeções rápidas que parecem inofensivas, eles podem desencadear ações sensíveis. Essas ações podem incluir:

  • Trechos de código multilíngue
  • Formatos de arquivo obscuros e instruções incorporadas
  • Entradas em idiomas diferentes do inglês
  • Comandos multietapas ocultos em linguagem casual

Como os grandes modelos de linguagem (LLMs) são treinados para entender a complexidade e a ambiguidade, o prompt se torna a carga útil.

O Fantasma da Siri e da Alexa

Este padrão não é novo. Nos primeiros dias da Siri e da Alexa, os pesquisadores demonstraram como reproduzir um comando de voz como “Enviar todas as minhas fotos para este e-mail” pode desencadear uma ação sem verificação do usuário.

Agora, a ameaça é maior. Agentes de IA como o Microsoft Copilot estão profundamente integrados ao Office 365, ao Outlook e ao sistema operacional. Eles acessam e-mails, documentos, credenciais e APIs. Os invasores precisam apenas do prompt certo para extrair dados críticos, enquanto se passam por usuários legítimos.

Quando os computadores confundem instruções com dados

Este não é um princípio novo em segurança cibernética. Injeções como Ataques SQL teve sucesso porque os sistemas não conseguiam distinguir entre entrada e instrução. Hoje, essa mesma falha existe, mas na camada da linguagem.

Agentes de IA tratam a linguagem natural como entrada e intenção. Um objeto JSON, uma pergunta ou até mesmo uma frase pode iniciar uma ação. Essa ambiguidade é o que os agentes de ameaças exploram, incorporando comandos em algo que parece ser um conteúdo inofensivo.

Incorporamos a intenção à infraestrutura. Agora, os agentes de ameaças aprenderam como extraí-la para atender às suas vontades.

A adoção da IA ​​está ultrapassando a segurança cibernética

À medida que as empresas correm para integrar LLMs, muitas ignoram uma questão crítica: a que a IA tem acesso?

Quando o Copilot consegue tocar no sistema operacional, o raio de ação se expande muito além da caixa de entrada. De acordo com a Check Point Relatório de Segurança de IA:

  • 62% dos Diretores de Segurança da Informação (CISOs) globais temem ser responsabilizados pessoalmente por violações relacionadas à IA
  • Quase 40% das organizações relatam uso interno não autorizado de IA, muitas vezes sem supervisão de segurança
  • 20% dos grupos criminosos cibernéticos agora incorporam IA em suas operações, inclusive para elaborar phishing e realizar reconhecimento

Este não é apenas um risco emergente. É um risco presente que já está causando danos.

Por que as salvaguardas existentes são insuficientes

Alguns fornecedores utilizam watchdogs — modelos secundários treinados para detectar alertas perigosos ou comportamentos suspeitos. Esses filtros podem detectar ameaças básicas, mas são vulneráveis ​​a técnicas de evasão.

Os agentes de ameaças podem:

  • Filtros de sobrecarga com ruído
  • Dividir a intenção em várias etapas
  • Use frases não óbvias para evitar a detecção

No caso do Echoleak, salvaguardas estavam presentes — e foram contornadas. Isso reflete não apenas uma falha de política, mas também uma falha de arquitetura. Quando um agente tem permissões de alto nível, mas contexto de baixo nível, mesmo boas proteções não funcionam.

Detecção, não perfeição

Prevenir todos os ataques pode ser irrealista. O objetivo deve ser a detecção e a contenção rápidas.

As organizações podem começar por:

  • Monitoramento da atividade do agente de IA em tempo real e manutenção de registros de auditoria imediatos
  • Aplicação de acesso estrito de privilégio mínimo às ferramentas de IA, espelhando controles de nível de administrador
  • Adicionar atrito a operações sensíveis, como exigir confirmações
  • Sinalizar padrões de prompt incomuns ou adversos para revisão

Ataques baseados em linguagem não aparecerão em ambientes tradicionais detecção e resposta de endpoint Ferramentas (EDR). Elas exigem um novo modelo de detecção.

O que as organizações devem fazer agora para se proteger

Antes de implantar agentes de IA, as organizações devem entender como esses sistemas operam e quais riscos eles apresentam.

As principais recomendações incluem:

  1. Audite todo o acesso: saiba o que os agentes podem tocar ou acionar
  2. Limite o escopo: conceda as permissões mínimas necessárias
  3. Rastreie todas as interações: registre prompts, respostas e ações resultantes
  4. Teste de estresse: Simule entradas adversárias internamente e com frequência
  5. Plano de evasão: Assuma que os filtros serão ignorados
  6. Alinhar com a segurança: garantir que os sistemas LLM apoiem, e não comprometam, os objetivos de segurança

A Nova Superfície de Ataque

O Echoleak é uma prévia do que está por vir. À medida que os LLMs evoluem, sua utilidade se torna um problema. Integrados profundamente aos sistemas de negócios, eles oferecem aos invasores uma nova maneira de entrar — por meio de prompts simples e bem elaborados.

Não se trata mais apenas de proteger o código. Trata-se de proteger a linguagem, a intenção e o contexto. O manual precisa mudar agora, antes que seja tarde demais.

E, no entanto, há algumas boas notícias. Há progressos a serem feitos na alavancagem de agentes de IA para defender contra ameaças cibernéticas novas e emergentes. Quando utilizados corretamente, esses agentes autônomos de IA podem responder a ameaças mais rápido do que qualquer ser humano, colaborar em diferentes ambientes e se defender proativamente contra riscos emergentes, aprendendo com uma única tentativa de intrusão.

A IA com agentes pode aprender com cada ataque, adaptar-se em tempo real e prevenir ameaças antes que elas se espalhem. Ela tem o potencial de estabelecer uma nova era de resiliência cibernética, mas somente se aproveitarmos este momento e moldarmos juntos o futuro da segurança cibernética. Se não o fizermos, esta nova era poderá sinalizar um pesadelo em termos de segurança cibernética e privacidade de dados para organizações que já implementaram IA (às vezes até mesmo sem saber, com ferramentas de TI paralelas). Agora é a hora de agir para garantir que os agentes de IA sejam usados ​​em nosso benefício, e não em nossa ruína.

Radoslaw Madej é líder da equipe de pesquisa de vulnerabilidades na Check Point ResearchRadoslaw é um especialista apaixonado em segurança cibernética, com quase duas décadas de experiência técnica em diversas áreas de segurança da informação, adquirida na entrega de projetos para empresas globais com altos requisitos de segurança.