Cibersegurança

As Vulnerabilidades de Segurança que Construímos: Agentes de IA e o Problema da Obediência

Published June 18, 2025

Updated April 26, 2026

Radoslaw Madej, Vulnerability Research Team Lead at Check Point Research

Os agentes de IA baseados em LLM estão introduzindo uma nova classe de vulnerabilidades, onde os atacantes injetam instruções maliciosas nos dados, transformando sistemas úteis em cúmplices involuntários.

O Microsoft Copilot não foi hackeado no sentido tradicional. Não houve malware, nenhum link de phishing, nenhum código malicioso. Ninguém clicou em nada ou implantou qualquer exploit.

O ator ameaçador simplesmente pediu. O Microsoft 365 Copilot, fazendo exatamente o que foi projetado para fazer, cumpriu. No recente Echoleak ataque de zero cliques, o agente de IA foi manipulado por um prompt disfarçado como dados. Ele obedeceu, não porque estava quebrado, mas porque estava funcionando como foi projetado.

Essa vulnerabilidade não explorou bugs de software. Ela explorou a linguagem. E isso marca um ponto de inflexão importante na segurança cibernética, onde a superfície de ataque não é mais o código, mas a conversa.

O Novo Problema de Obediência da IA

Agentes de IA são projetados para ajudar. Seu propósito é entender a intenção do usuário e agir sobre ela de forma eficiente. Essa utilidade vem com riscos. Quando incorporados em sistemas de arquivos, plataformas de produtividade ou sistemas operacionais, esses agentes seguem comandos de linguagem natural com mínima resistência.

Atores ameaçadores estão explorando exatamente esse traço. Com injeções de prompts que parecem inofensivas, eles podem desencadear ações sensíveis. Esses prompts podem incluir:

Trechos de código multilíngues
Formatos de arquivo obscuros e instruções incorporadas
Entradas de idiomas não ingleses
Comandos de múltiplos passos escondidos em linguagem casual

Porque os grandes modelos de linguagem (LLM) são treinados para entender complexidade e ambiguidade, o prompt se torna a carga útil.

O Fantasma de Siri e Alexa

Esse padrão não é novo. Nos primeiros dias de Siri e Alexa, pesquisadores demonstraram como tocar um comando de voz como “Enviar todas as minhas fotos para este e-mail” poderia desencadear uma ação sem verificação do usuário.

Agora a ameaça é maior. Agentes de IA como o Microsoft Copilot são integrados profundamente ao Office 365, Outlook e ao SO. Eles acessam e-mails, documentos, credenciais e APIs. Atacantes precisam apenas do prompt certo para extrair dados críticos, tudo enquanto se passam por usuários legítimos.

Quando Computadores Confundem Instruções com Dados

Esse não é um princípio novo na segurança cibernética. Injeções como ataques SQL tiveram sucesso porque os sistemas não podiam distinguir entre entrada e instrução. Hoje, essa mesma falha existe, mas na camada de linguagem.

Agentes de IA tratam a linguagem natural como entrada e intenção. Um objeto JSON, uma pergunta ou até mesmo uma frase pode iniciar uma ação. Essa ambiguidade é o que os atacantes exploram, incorporando comandos dentro do que parece ser conteúdo inofensivo.

Nós incorporamos intenção na infraestrutura. Agora, atores ameaçadores aprenderam como extrair isso para fazer o que querem.

A Adoção de IA está Ultrapassando a Segurança Cibernética

À medida que as empresas se apressam para integrar LLM, muitas ignoram uma pergunta crítica: o que a IA tem acesso?

Quando o Copilot pode tocar o SO, o raio de ação se expande muito além da caixa de entrada. De acordo com o Relatório de Segurança de IA da Check Point:

62 por cento dos principais oficiais de segurança da informação (CISOs) globais temem que possam ser responsabilizados pessoalmente por violações relacionadas à IA
Quase 40 por cento das organizações relatam uso interno não autorizado de IA, muitas vezes sem supervisão de segurança
20 por cento dos grupos de criminosos cibernéticos agora incorporam IA em suas operações, incluindo para criar phishing e realizar reconhecimento

Isso não é apenas um risco emergente. É um risco presente que já está causando danos.

Por que as Salvaguardas Existentes não São Eficazes

Alguns fornecedores usam cães de guarda — modelos secundários treinados para capturar prompts perigosos ou comportamento suspeito. Esses filtros podem detectar ameaças básicas, mas são vulneráveis a técnicas de evasão.

Atacantes podem:

Sobrecarregar filtros com ruído
Dividir a intenção em várias etapas
Usar frases não óbvias para evitar detecção

No caso do Echoleak, salvaguardas estavam presentes — e foram ultrapassadas. Isso reflete não apenas uma falha de política, mas uma falha de arquitetura. Quando um agente tem permissões de alto nível, mas contexto de baixo nível, mesmo as boas barreiras de segurança falham.

Detecção, não Perfeição

Prevenir todos os ataques pode ser irrealista. O objetivo deve ser a detecção rápida e o contimento rápido.

As organizações podem começar por:

Monitorar a atividade do agente de IA em tempo real e manter logs de auditoria de prompts
Atribuir acesso de mínimo privilégio às ferramentas de IA, espelhando controles de nível de administrador
Adicionar atrito a operações sensíveis, como exigir confirmações
Marcar padrões de prompts incomuns ou adversários para revisão

Ataques baseados em linguagem não aparecerão em ferramentas tradicionais de detecção e resposta de endpoint (EDR). Eles exigem um novo modelo de detecção.

O que as Organizações Devem Fazer Agora para se Proteger

Antes de implantar agentes de IA, as organizações devem entender como esses sistemas operam e quais riscos eles introduzem.

Recomendações-chave incluem:

Auditar todos os acessos: Saiba o que os agentes podem tocar ou acionar
Limitar o escopo: Conceder permissões mínimas necessárias
Registrar todas as interações: Registrar prompts, respostas e ações resultantes
Testar estressantemente: Simular entradas adversárias internamente e com frequência
Planejar para evasão: Supor que os filtros serão ultrapassados
Alinhar com segurança: Certificar-se de que os sistemas de LLM apoiam, e não comprometem, os objetivos de segurança

A Nova Superfície de Ataque

Echoleak é um vislumbre do que está por vir. À medida que os LLM evoluem, sua utilidade se torna uma responsabilidade. Integrados profundamente em sistemas empresariais, eles oferecem aos atacantes uma nova forma de entrada — por meio de prompts simples e bem elaborados.

Isso não é mais apenas sobre segurança de código. É sobre segurança de linguagem, intenção e contexto. O manual deve mudar agora, antes que seja tarde demais.

E, no entanto, há algumas boas notícias. Há progresso sendo feito no uso de agentes de IA para defender contra novas e emergentes ameaças cibernéticas. Quando utilizados corretamente, esses agentes de IA autônomos podem responder a ameaças mais rápido do que qualquer ser humano, colaborar em ambientes e defender proativamente contra riscos emergentes, aprendendo com uma única tentativa de intrusão.

A IA agente pode aprender com cada ataque, adaptar-se em tempo real e prevenir ameaças antes que se espalhem. Ela tem o potencial de estabelecer uma nova era de resiliência cibernética, mas apenas se aproveitarmos este momento e moldarmos o futuro da segurança cibernética juntos. Se não o fizermos, essa nova era pode sinalizar um pesadelo de segurança cibernética e privacidade de dados para as organizações que já implementaram IA (às vezes, até mesmo sem saber, com ferramentas de TI sombra). Agora é a hora de agir para garantir que os agentes de IA sejam usados para o nosso benefício, e não para a nossa ruína.

Radoslaw Madej, Vulnerability Research Team Lead at Check Point Research

Radoslaw Madej é Líder da Equipe de Pesquisa de Vulnerabilidades na Check Point Research. Radoslaw é um especialista em segurança cibernética apaixonado com quase duas décadas de experiência técnica em várias áreas de segurança de informações adquiridas ao entregar projetos para empresas globais com altos requisitos de segurança.