Inteligência artificial
O que é Poesia Adversária? Um Novo Método de Jailbreak de IA
A segurança da inteligência artificial (IA) se tornou um jogo constante de gato e rato. À medida que os desenvolvedores adicionam barreiras para bloquear solicitações prejudiciais, os atacantes continuam tentando novas maneiras de contorná-las. Uma das reviravoltas mais estranhas até agora é a poesia adversária. Essa tática envolve disfarçar prompts como versos e usar rimas, metáforas e frases incomuns para fazer com que instruções arriscadas pareçam menos como as coisas que os sistemas de segurança são treinados para capturar.
Na prática, o conteúdo em si não muda muito. É o invólucro que muda, o que pode ser suficiente para confundir filtros baseados em padrões. É um lembrete de que, com os modelos de hoje, como algo é perguntado pode importar quase tanto quanto o que está sendo perguntado.
O que Aconteceu Quando Pesquisadores Usaram Poemas para Quebrar a IA?
No início de 2025, pesquisadores demonstraram que grandes modelos de linguagem (LLMs) poderiam ser instruídos a responder a prompts restritos embrulhando-os em forma poética. Em vez de emitir instruções diretas e de política, os pesquisadores embutiram as mesmas solicitações dentro de rimas, metáforas e versos narrativos.
À primeira vista, os prompts pareciam ser exercícios de escrita criativa, mas por baixo, carregavam a mesma intenção que normalmente seria bloqueada. Em 25 modelos proprietários e de peso aberto, a equipe relatou que a estrutura poética alcançou uma taxa de sucesso de jailbreak média de 62% para poemas feitos à mão e cerca de 43% para “conversão de verso” em massa usando uma meta-solicitação padronizada.
As respostas em si não eram novos tipos de falhas, mas falhas familiares aparecendo por uma porta inesperada. Os modelos foram induzidos a produzir conteúdo que normalmente evitam — como explicações que tocam em atividades ilegais ou prejudiciais — porque a solicitação subjacente foi fragmentada e obscurecida pela estrutura poética.
A principal conclusão do estudo é que a variação estilística sozinha pode ser suficiente para evadir sistemas de segurança ajustados para frases mais literais. Isso revela uma vulnerabilidade que é evidente em todas as famílias de modelos e abordagens de alinhamento.
Como Funciona a Poesia Adversária
Ataques adversários exploram uma realidade simples — os sistemas de aprendizado de máquina não “entendem” a linguagem do mesmo jeito que os humanos. Eles detectam padrões, preveem continuidades prováveis e seguem instruções com base no que suas camadas de treinamento e segurança interpretam como intenção.
Quando um prompt é fraseado de forma direta e literal, é mais fácil para as barreiras reconhecer e bloquear. No entanto, quando o mesmo propósito é disfarçado — dividido, suavizado ou reestruturado — as camadas de proteção podem perder o que realmente está sendo perguntado.
Por Que a Poesia Pode Ser um Veículo Eficaz
A poesia é naturalmente construída para ambiguidade. Ela depende de metáfora, abstração, estrutura incomum e frases indiretas. Esses são exatamente os tipos de características que podem confundir a linha entre “escrita criativa inofensiva” e “uma solicitação que deve ser recusada.”
No mesmo estudo de 2025, os pesquisadores relataram que prompts poéticos provocaram respostas inseguras em uma taxa de sucesso de 90% em uma ampla gama de modelos, indicando que o estilo sozinho pode mudar materialmente os resultados.
Como um Poema Esconde uma Solicitação Real
Considere a solicitação como uma mensagem e o poema como o invólucro. Filtros de segurança frequentemente procuram sinais óbvios, como palavras-chave explícitas, frases diretas ou intenção maliciosa reconhecível.
A poesia pode ocultar essa intenção por meio de linguagem figurativa ou espalhá-la por linhas, tornando-a mais difícil de detectar em isolamento. Enquanto isso, o modelo subjacente ainda reconstrói o significado suficientemente bem para responder porque é otimizado para inferir intenção mesmo quando a linguagem é indireta.
Detectando e Mitigando Jailbreaks
À medida que os métodos de jailbreak se tornam mais criativos, a conversa deve mudar de como funcionam para como são detectados e contidos. Isso é especialmente verdadeiro agora que a IA faz parte das rotinas diárias de muitas pessoas, como 27% relatam usá-la várias vezes ao dia.
À medida que mais pessoas utilizam grandes modelos de linguagem (LLMs), salvaguardas adicionais devem ser testadas e exploradas. Essa tarefa envolve construir defesas em camadas que possam se adaptar a novos estilos de prompts e truques de evasão à medida que surgem.
O Dilema do Desenvolvedor
A parte mais difícil sobre jailbreaks para as equipes de segurança da IA é que eles não vêm como uma ameaça conhecida. Eles mudam continuamente ao longo do tempo. Essa mudança constante ocorre porque um usuário pode reestruturar um prompt, dividi-lo em fragmentos, embrulhá-lo em roleplay ou disfarçá-lo como escrita criativa. Em seguida, cada novo invólucro pode mudar como o sistema interpreta a intenção do prompt.
Esse desafio escala rapidamente quando a IA já está integrada às rotinas diárias, então o uso real cria oportunidades ilimitadas para casos de bordo aparecerem.
É por isso que a segurança da IA hoje parece mais gerenciar riscos ao longo do tempo. O Quadro de Gerenciamento de Riscos de IA do NIST (AI RMF) trata explicitamente o gerenciamento de riscos como um conjunto de atividades contínuas — organizadas em torno de governar, mapear, medir e gerenciar — em vez de como uma lista de verificação estática. O objetivo é criar processos que façam com que seja mais fácil identificar modos de falha emergentes, priorizar reparos e apertar salvaguardas à medida que novos estilos de jailbreak surgem.
Como os Modelos se Protegem
A segurança da IA é composta por várias camadas. A maioria dos sistemas tem mais de uma defesa trabalhando juntos, com cada uma pegando diferentes tipos de comportamento arriscado. Na camada externa, o filtro de entrada e saída atua como um guarda.
Prompts de entrada são digitalizados para violações de política antes de alcançar o modelo central, enquanto respostas de saída são verificadas para garantir que nada escape no caminho de volta ao usuário. Esses sistemas são bons em identificar solicitações diretas ou bandeiras vermelhas familiares, mas também são os mais fáceis de contornar, o que é por que jailbreaks mais enganosos frequentemente os ultrapassam.
A próxima camada de proteção acontece dentro do modelo em si. Quando técnicas de jailbreak são descobertas, elas são frequentemente transformadas em exemplos de treinamento. É aqui que o treinamento adversário e o aprendizado de reforço a partir de feedback humano (RLHF) entram em cena.
Ajustando os modelos com exemplos de interações falhas ou arriscadas, os desenvolvedores efetivamente ensinam o sistema a reconhecer padrões que devem ser recusados, mesmo quando estão embrulhados em linguagem criativa ou indireta. Com o tempo, esse processo ajuda a imunizar o modelo contra classes inteiras de ataques.
O Papel do “Red Team” de IA
Em vez de esperar que um jailbreak ocorra, as empresas usam equipes de “red team” de IA. Essas equipes são grupos encarregados de tentar quebrar os modelos em ambientes controlados. Elas abordam os sistemas do jeito que um atacante poderia, experimentando com frases incomuns, formatos criativos e casos de bordo para descobrir onde as salvaguardas falham.
O “red teaming” agora está se tornando uma parte fundamental do ciclo de vida de desenvolvimento nas estratégias de segurança cibernética de hoje. Quando uma equipe descobre uma nova técnica de jailbreak, os dados resultantes alimentam diretamente os pipelines de treinamento e avaliação. Essas informações são usadas para definir filtros, ajustar políticas e fortalecer o treinamento adversário, de modo que tentativas semelhantes sejam menos prováveis de ter sucesso no futuro. Com o tempo, isso cria um loop contínuo — procura por falhas, aprende com elas e melhora o sistema, então repita.
Quando a Poesia se Torna um Teste de Estresse para a Segurança da IA
A poesia adversária é um lembrete de que as salvaguardas da IA dependem de como um usuário formula perguntas, não apenas do que. À medida que os modelos se tornam mais acessíveis e amplamente usados, os pesquisadores continuarão a explorar as lacunas entre a linguagem criativa e os sistemas de segurança projetados para capturar intenções mais diretas. A conclusão é que a IA mais segura virá de múltiplas defesas que evoluem tão rapidamente quanto os jailbreaks.












