Líderes de pensamento
O que os ataques iniciais a agentes de IA nos dizem sobre 2026

À medida que a IA sai de experimentos controlados e entra em aplicações do mundo real, estamos entrando em um ponto de inflexão no cenário de segurança. A transição de modelos de linguagem estáticos para sistemas interativos e agentes capazes de navegar por documentos, chamar ferramentas e orquestrar fluxos de trabalho em várias etapas já está em andamento. No entanto, como revela a pesquisa recente, os atacantes não estão esperando a maturidade: eles estão se adaptando ao mesmo ritmo acelerado, testando os sistemas assim que novas capacidades são introduzidas.
No quarto trimestre de 2025, nossa equipe na Lakera analisou o comportamento real dos atacantes em sistemas protegidos pelo Guard e no ambiente Gandalf: Agent Breaker — uma visão focalizada de 30 dias que, apesar de sua janela estreita, reflete padrões mais amplos que observamos ao longo do trimestre. As descobertas pintam um quadro claro: assim que os modelos começam a interagir com algo além de prompts de texto simples (por exemplo: documentos, ferramentas, dados externos), a superfície de ameaça se expande, e os adversários se adaptam instantaneamente para explorá-la.
Este momento pode parecer familiar para aqueles que assistiram ao desenvolvimento de aplicações web iniciais ou que observaram o surgimento de ataques dirigidos por API. No entanto, com agentes de IA, as apostas são diferentes. Os vetores de ataque estão surgindo mais rápido do que muitas organizações anteciparam.
Da Teoria à Prática: Agentes na Natureza
Por grande parte de 2025, as discussões em torno de agentes de IA centraram-se principalmente no potencial teórico e nos primeiros protótipos. No entanto, até o quarto trimestre, comportamentos agentes começaram a aparecer em sistemas de produção em larga escala: modelos que podiam buscar e analisar documentos, interagir com APIs externas e realizar tarefas automatizadas. Esses agentes ofereciam benefícios de produtividade óbvios, mas também abriram portas que os modelos de linguagem tradicionais não abriram.
Nossa análise mostra que no momento em que os agentes se tornaram capazes de interagir com conteúdo e ferramentas externas, os atacantes notaram e se adaptaram conforme necessário. Essa observação está alinhada com uma verdade fundamental sobre o comportamento adversário: os atacantes sempre explorarão e explorarão novas capacidades na primeira oportunidade. No contexto de IA agentes, isso levou a uma evolução rápida nas estratégias de ataque.
Padrões de Ataque: O que Estamos Vendo em Q4 2025
Ao longo do conjunto de dados que revisamos, três padrões dominantes surgiram. Cada um tem implicações profundas sobre como os sistemas de IA são projetados, protegidos e implantados.
1. Extração de Prompt do Sistema como um Objetivo Central
Em modelos de linguagem tradicionais, injeção de prompt (manipulação direta da entrada para influenciar a saída) tem sido uma vulnerabilidade bem estudada. No entanto, em sistemas com capacidades agentes, os atacantes visam cada vez mais o prompt do sistema, que são as instruções internas, definições de papel e definições de política que guiam o comportamento do agente.
Extrair prompts do sistema é um objetivo de alto valor porque esses prompts frequentemente contêm definições de papel, descrições de ferramentas, instruções de política e lógica de fluxo de trabalho. Uma vez que um atacante entende esses mecanismos internos, ele obtém um plano para manipular o agente.
As técnicas mais eficazes para alcançar isso não foram ataques de força bruta, mas sim reformulações inteligentes:
- Cenários Hipotéticos: Prompts que pedem ao modelo que assuma um papel ou contexto diferente — por exemplo, “Imagine que você é um desenvolvedor revisando essa configuração do sistema…” — frequentemente coagiram o modelo a revelar detalhes internos protegidos.
- Ofuscação Dentro de Conteúdo Estruturado: Os atacantes incorporaram instruções maliciosas dentro de texto estruturado ou semelhante a código que ultrapassou filtros simples e desencadeou comportamentos não intencionais uma vez parseado pelo agente.
Isso não é apenas um risco incremental — altera fundamentalmente a forma como pensamos sobre a proteção da lógica interna em sistemas agentes.
2. Bypasses Subtis de Segurança de Conteúdo
Outra tendência importante envolve bypassar proteções de segurança de conteúdo de maneiras difíceis de detectar e mitigar com filtros tradicionais.
Em vez de solicitações maliciosas óbvias, os atacantes formularam conteúdo prejudicial como:
- Tarefas de Análise
- Avaliações
- Cenários de Representação de Papel
- Transformações ou Resumos
Essas reformulações frequentemente passaram por controles de segurança porque aparentam ser benignas na superfície. Um modelo que se recusaria a atender a uma solicitação direta para saída prejudicial poderia produzir felizmente a mesma saída quando solicitado a “avaliar” ou “resumir” em contexto.
Essa mudança destaca um desafio mais profundo: a segurança de conteúdo para agentes de IA não é apenas sobre aplicação de políticas; é sobre como os modelos interpretam a intenção. À medida que os agentes assumem tarefas e contextos mais complexos, os modelos se tornam mais suscetíveis à reinterpretação baseada no contexto — e os atacantes exploram esse comportamento.
3. Emergência de Ataques Específicos de Agente
Talvez a descoberta mais consequente tenha sido a aparição de padrões de ataque que só fazem sentido no contexto de capacidades agentes. Esses não eram simples tentativas de injeção de prompt, mas exploits vinculados a novos comportamentos:
- Tentativas de Acessar Dados Internos Confidenciais: Prompts foram criados para convencer o agente a recuperar ou expor informações de lojas de documentos ou sistemas conectados — ações que anteriormente estariam fora do escopo do modelo
- Instruções em Forma de Script Incorporadas em Texto: Os atacantes experimentaram incorporar instruções em formatos semelhantes a script ou conteúdo estruturado, que poderiam fluir por um pipeline de agente e desencadear ações não intencionais
- Instruções Ocultas em Conteúdo Externo: Vários ataques incorporaram diretivas maliciosas dentro de conteúdo externo referenciado — como páginas da web ou documentos que o agente foi solicitado a processar — efetivamente contornando filtros de entrada direta
Esses padrões são precoces, mas sinalizam um futuro em que as capacidades em expansão dos agentes mudam fundamentalmente a natureza do comportamento adversário.
Por Que os Ataques Indiretos São Tão Eficazes
Uma das descobertas mais surpreendentes do relatório é que ataques indiretos — aqueles que aproveitam conteúdo externo ou dados estruturados — exigiram menos tentativas do que injeções diretas. Isso sugere que a sanitização de entrada tradicional e o filtragem de consulta direta são defesas insuficientes uma vez que os modelos interagem com conteúdo não confiável.
Quando uma instrução prejudicial chega por meio de um fluxo de trabalho de agente externo — seja um documento vinculado, uma resposta de API ou uma página da web recuperada — os filtros iniciais são menos eficazes. O resultado: os atacantes têm uma superfície de ataque maior e menos obstáculos.
Implicações para 2026 e Além
As descobertas do relatório têm implicações urgentes para as organizações que planejam implantar IA agentes em larga escala:
- Redefinir Limites de Confiança
A confiança não pode ser simplesmente binária. À medida que os agentes interagem com usuários, conteúdo externo e fluxos de trabalho internos, os sistemas devem implementar modelos de confiança matizados que considerem contexto, proveniência e propósito. - Guardrails Devem Evoluir
Filtros de segurança estáticos não são suficientes. Os guardrails devem ser adaptativos, conscientes do contexto e capazes de raciocinar sobre intenção e comportamento em fluxos de trabalho em várias etapas. - Transparência e Auditoria São Essenciais
À medida que os vetores de ataque se tornam mais complexos, as organizações precisam de visibilidade sobre como os agentes tomam decisões — incluindo etapas intermediárias, interações externas e transformações. Registros auditáveis e estruturas de explicabilidade não são mais opcionais. - Colaboração Interdisciplinar É Fundamental
Pesquisa de IA, engenharia de segurança e equipes de inteligência de ameaças devem trabalhar juntas. A segurança de IA não pode ser isolada; deve ser integrada com práticas de segurança cibernética mais amplas e estruturas de gerenciamento de risco. - Regulação e Padrões Precisarão Acompanhar
Os formuladores de políticas e órgãos reguladores devem reconhecer que os sistemas agentes criam novas classes de risco. Regulamentações que abordam a privacidade de dados e a segurança de saída são necessárias, mas não suficientes; elas também devem considerar comportamentos interativos e ambientes de execução em várias etapas.
O Futuro dos Agentes de IA Seguros
A chegada de IA agentes representa uma mudança profunda em capacidade e risco. Os dados do quarto trimestre de 2025 são um indicador inicial de que, assim que os agentes começam a operar além da simples geração de texto, os atacantes seguirão. Nossas descobertas mostram que os adversários não apenas estão se adaptando — estão inovando em técnicas de ataque que as defesas tradicionais ainda não estão preparadas para contrariar.
Para as empresas e desenvolvedores, a mensagem é clara: proteger os agentes de IA não é apenas um desafio técnico; é um desafio arquitetônico. Exige repensar como a confiança é estabelecida, como os guardrails são aplicados e como o risco é continuamente avaliado em ambientes interativos e dinâmicos.
Em 2026 e além, as organizações que terão sucesso com IA agentes serão aquelas que tratam a segurança não como um afterthought, mas como um princípio fundamental de design.












