Ângulo de Anderson

Quebrando os Censores de IA por meio de Texto em Imagem

Publicado em 12 de fevereiro de 2026

Atualizado em 16 de maio de 2026

Por

Martin Anderson

AI-generated image featuring the Mona Lisa painting embedded in the wall of a jail cell with the bars smashed and the inmates escaped. Apparently the painting caused all this damage. On the Mona Lisa painting are the words 'Open the cell'. GPT Image 1.5.

Pesquisadores afirmam que as principais edições de imagem de IA podem ser quebradas por meio de texto rasterizado e sinais visuais, permitindo que edições proibidas bypassam filtros de segurança e sejam bem-sucedidas em até 80,9% dos casos.

Por favor, esteja ciente de que este artigo contém imagens potencialmente ofensivas, criadas com IA pelos autores do artigo de pesquisa para ilustrar seu novo método de defesa.

Para evitar exposição legal e danos à reputação, as principais plataformas de IA de edição de imagem instituem uma série de medidas de censura para impedir que os usuários criem imagens “proibidas” em várias categorias, como conteúdo NSFW e/ou difamatório. Mesmo os frameworks mais recalcitrantes – notadamente Grok – tiveram que seguir a linha sob pressão popular ou pressão política.

Conhecido como ‘alinhamento’, tanto os dados de entrada quanto os de saída são verificados para violações das regras de uso. Assim, fazer upload de uma imagem inócua de uma pessoa passará nos testes baseados em imagem – mas pedir ao modelo gerador para transformá-la em um vídeo que progrida para conteúdo não seguro (ou seja, ‘mostre a pessoa se despindo’) seria interceptado no nível de texto.

Os usuários podem bypassar essa medida de segurança usando prompts que não disparam diretamente os filtros de texto, mas que, no entanto, levam logicamente a conteúdo não seguro (ou seja, ‘faça com que eles fiquem de pé’, quando o prompt de imagem é uma pessoa imersa em um banho de espuma). Aqui, os filtros sistema>usuário geralmente intervêm, verificando as próprias respostas do sistema, como imagens, texto, som, vídeo, etc., para qualquer coisa que teria sido banida como entrada.

Destaque-se que essa técnica continua a surgir em diversas e inovadoras novas formas na literatura.

Perfurando o Alinhamento

Um novo artigo da China aplica rigor acadêmico a uma técnica que tem circulado em vários servidores do Discord por algum tempo – o uso de texto em imagem para bypassar filtros de alinhamento:

Os autores do novo artigo – intitulado Quando o Prompt se Torna Visual: Ataques de Jailbreak Visuais para Modelos de Edição de Imagem de Grande Escala – criaram um conjunto de dados chamado IESBench, que contém 1.054 amostras de imagens visuais, com edições que cobrem 116 atributos e 9 tipos de ações. Cada imagem incorpora intenção prejudicial usando apenas sinais visuais, sem entrada de texto.

Os autores relatam taxas de sucesso de ataque (ASR) que alcançam 80,9%.

Método

Ao contrário de modelos anteriores semelhantes, que usavam grandes modelos de linguagem (LLMs) para tarefas de codificação de imagem, editores contemporâneos como Qwen-Image-Edit e LongCat-Image-Edit confiam em Modelos de Linguagem de Visão (VLMs), que já codificam imagem e texto dentro de um único transformador:

Portanto, os autores asseguram que o texto rasterizado e outros indícios visuais incorporados não bypassam as verificações baseadas em texto, mas são redirecionados para o espaço de linguagem.

Métricas

O esquema de avaliação postula um modelo multimodal agindo como um juiz, seguindo o quadro anterior LLM-as-a-Judge. As métricas primárias usadas foram Taxa de Sucesso de Ataque (ASR) e Pontuação de Prejuízo (HS), que medem a frequência com que os salvaguardas do modelo são bypassados e a gravidade do conteúdo prejudicial.

Testes

Os autores usaram o conjunto de dados IESBench para testes, pois, segundo eles, é o único conjunto de dados configurado para ataques de jailbreak visuais contra modelos multimodais de edição de imagem.

Sete modelos de edição de imagem comerciais e de código aberto foram avaliados.

VJA vs. Ataque de Jailbreak Direcionado (TJA)

Os ataques VJA tornaram modelos seguros, como Nano Banana Pro e GPT Image 1.5, significativamente mais vulneráveis, com aumentos de 35,6% e 24,9% na taxa de sucesso de ataque.

Melhor Defesa

Para avaliar como bem seu modelo de defesa se generaliza para condições do mundo real, os autores construíram uma tarefa de classificação binária usando 10% das amostras VJA do IESBench como exemplos positivos e uma porção igual de prompts de fonte benigna como negativos.

Conclusão

Os achados dos autores são mais detalhados e ilustrados do que podemos refletir neste artigo, e encorajamos o leitor a explorar o material de origem e a riqueza de exemplos adicionais nos apêndices:

Os autores concluem que os modelos atuais de edição de imagem de IA são vulneráveis a ataques de jailbreak visuais, e que a técnica de uso de texto em imagem para bypassar filtros de alinhamento é eficaz.

* Eu temo que isso seja minha própria anecdata, desde que a natureza efêmera do conteúdo do Discord torna difícil localizar ou pesquisar posts específicos.

^†Esses são incluídos no apêndice, mas não são adequados para inclusão aqui, principalmente por razões de formatação; portanto, por favor, consulte o artigo de origem.

^††As ênfases dos autores, não minhas.

Publicado pela primeira vez na quinta-feira, 12 de fevereiro de 2026