Connect with us

Ângulo de Anderson

Usando Emojis Pode Bypassar Filtros de Conteúdo em Chatbots de IA

mm
A man with a smiley emoji for a head lights a cigarette from a lit bomb. SDXL, Flux Kontext Dev, Adobe Firefly.

Emojis podem ser usados para bypassar os mecanismos de segurança de grandes modelos de linguagem e desencadear saídas tóxicas que seriam bloqueadas. Por esse meio, os LLMs podem ser feitos para discutir e dar conselhos sobre assuntos proibidos, como fabricação de bombas e assassinato.

 

Uma nova colaboração entre a China e Cingapura encontra evidências convincentes de que emojis podem ser usados não apenas para bypassar os filtros de detecção de conteúdo em grandes modelos de linguagem (LLMs), mas também aumentar o nível de toxicidade durante a interação do usuário com os modelos:

Do novo artigo, uma demonstração ampla das maneiras pelas quais a codificação de um conceito proibido com emojis pode ajudar um usuário a 'jailbreak' um LLM popular. Fonte: https://arxiv.org/pdf/2509.11141

Do novo artigo, uma demonstração ampla das maneiras pelas quais a codificação de um conceito proibido com emojis pode ajudar um usuário a ‘jailbreak’ um LLM popular. Fonte: https://arxiv.org/pdf/2509.11141

No exemplo acima, do novo artigo, vemos que transformar intenções baseadas em palavras que violam regras em uma versão alternativa com emojis pode provocar uma resposta muito mais ‘cooperativa’ de um modelo de linguagem sofisticado, como o ChatGPT-4o (que normalmente sanitiza prompts de entrada e intercepta material de saída que pode violar as regras da empresa).

Efetivamente, nas circunstâncias mais extremas, o uso de emojis pode, portanto, operar como uma técnica de jailbreak, de acordo com os autores do novo trabalho.

Uma questão residual misteriosa afirmada no artigo é a pergunta de por que os modelos de linguagem dão aos emojis tanta liberdade para violar regras e provocar conteúdo tóxico, quando os modelos já entendem que certos emojis têm associações tóxicas fortes.

A sugestão oferecida é que, porque os LLMs são treinados para modelar e reproduzir padrões de seus dados de treinamento, e porque os emojis são encontrados com frequência nesses dados, o modelo aprende que o emoji pertence àquela discurso, e o trata como uma associação estatística, em vez de conteúdo a ser avaliado e filtrado.

Isso significa que o emoji, quando reutilizado em um prompt, ajuda o modelo a prever continuidades tóxicas com mais confiança; mas, em vez de agir como uma bandeira vermelha, o emoji funciona como um cue semântico, que reforça o significado tóxico pretendido, em vez de moderá-lo ou interceptá-lo. Como alinhamento de segurança é aplicado após o fato, e frequentemente em um quadro estreito e literal, prompts com esses emojis podem, portanto, evadir a detecção inteiramente.

Dessa forma, o artigo propõe que o modelo não se torna tolerante apesar da associação tóxica – ele se torna tolerante por causa dela.

Passe Livre

Dito isso, os autores admitem que isso não representa uma teoria conclusiva sobre por que o uso de emojis pode bypassar os filtros de conteúdo em modelos de linguagem tão eficazmente. Eles afirmam:

‘Os modelos podem reconhecer a intenção maliciosa expressa por emojis, mas como isso bypassa os mecanismos de segurança permanece incerto.’

A fraqueza pode decorrer do design centrado em texto dos filtros de conteúdo, que assume entrada de texto literal ou embeddings fielmente convertidos em equivalentes de texto: em ambos os casos, o sistema depende de tokens explícitos que podem ser correspondidos às regras de segurança.

Para ilustrar com um exemplo de edição de imagem baseada em IA: quando um usuário faz upload de uma imagem NSFW para um modelo de linguagem de visão e solicita modificações, sistemas como o Adobe Firefly ou ChatGPT empregam pipelines do tipo CLIP para extrair conceitos textuais da imagem, como um pré-requisito para edição. Uma vez que esses conceitos sejam renderizados em palavras, a presença de termos restritos nesses conceitos extraídos fará com que o filtro seja acionado, fazendo com que o pedido seja rejeitado.

No entanto, por algum motivo, o status de um emoji como nem palavra nem imagem (ou como ambos) parece dar-lhe o poder de transcender a filtragem; claramente, como os autores indicam, mais pesquisas sobre essa curiosa brecha são necessárias.

O novo artigo é intitulado Quando Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs’ Toxicity e vem de nove autores de universidades Tsinghua e Nacional de Cingapura.

(Infelizmente, muitos dos exemplos a que o artigo se refere estão em um apêndice que ainda não foi disponibilizado; embora tenhamos solicitado isso aos autores, o apêndice não foi fornecido no momento da escrita. No entanto, os resultados empíricos no artigo principal ainda são dignos de atenção.)

Três Interpretações Centrais de Emojis

Os autores destacam três traços linguísticos que tornam os emojis eficazes para bypassar filtros. Primeiramente, os significados dos emojis são dependentes do contexto. Por exemplo, o emoji ‘Dinheiro com Asas’ (veja a imagem abaixo) é oficialmente definido como representando transferências de dinheiro ou gastos; no entanto, dependendo do texto circundante, ele também pode implicar atividade legítima ou ilícita:

Em uma ilustração parcial do novo artigo, vemos que um emoji popular pode ter seu significado sequestrado, alterado ou subvertido no uso popular. Isso efetivamente dá ao emoji um passaporte oficial para o espaço semântico e uma carga útil oculta de significado negativo ou tóxico que pode ser explorada uma vez que esteja além dos filtros.

Em uma ilustração parcial do novo artigo, vemos que um emoji popular pode ter seu significado sequestrado, alterado ou subvertido no uso popular. Isso efetivamente dá ao emoji um passaporte oficial para o espaço semântico e uma carga útil oculta de significado negativo ou tóxico que pode ser explorada uma vez que esteja além dos filtros.

Em segundo lugar, os emojis podem alterar o tom de um prompt. Sua presença frequentemente adiciona brincadeira ou ironia, suavizando o registro emocional. Em consultas prejudiciais, isso pode fazer com que o pedido pareça uma piada ou jogo, encorajando o modelo a responder em vez de rejeitar:

O efeito de aliviar dos emojis pode desintoxicar o tom sem desintoxicar a intenção.

O efeito de aliviar dos emojis pode desintoxicar o tom sem desintoxicar a intenção.

Em terceiro lugar, o artigo afirma que os emojis são independentes de linguagem: um único emoji pode carregar o mesmo sentimento em inglês, chinês, francês e outros idiomas. Isso os torna ideais para prompts multilíngues, preservando o significado mesmo quando o texto circundante é traduzido:

O emoji de coração partido transmite uma mensagem universal, talvez não menos porque representa um caso de base na condição humana, relativamente imune a variações nacionais ou culturais.

O emoji de coração partido transmite uma mensagem universal, talvez não menos porque representa um caso de base na condição humana, relativamente imune a variações nacionais ou culturais.

Abordagem, Dados e Testes*

Os pesquisadores criaram uma versão modificada do conjunto de dados AdvBench, reescrevendo prompts prejudiciais para incluir emojis, seja como substitutos para palavras sensíveis ou como disfarce decorativo. O AdvBench cobre 32 tópicos de alto risco, incluindo bombas, hacking e assassinato, entre outros:

Exemplos originais do AdvBench, ilustrando como um único prompt adversarial pode bypassar salvaguardas em vários chatbots importantes, provocando instruções prejudiciais apesar do treinamento de alinhamento. Fonte: https://arxiv.org/pdf/2307.15043

Exemplos originais do AdvBench, ilustrando como um único prompt adversarial pode bypassar salvaguardas em vários chatbots importantes, provocando instruções prejudiciais apesar do treinamento de alinhamento. Fonte: https://arxiv.org/pdf/2307.15043

Todos os 520 casos originais do AdvBench foram alterados dessa forma, com os 50 prompts tóxicos e não duplicados mais usados em toda a gama de experimentos. Os prompts também foram traduzidos para vários idiomas e testados em sete modelos importantes de código aberto e fechado, e em combinação com as técnicas de jailbreak conhecidas Prompt Automatic Iterative Refinement (PAIR); Tree of Attacks with Pruning (TAP); e DeepInception.

Os modelos de código fechado usados foram Gemini-2.0-flash; GPT-4o (2024-08-06); GPT-4-0613; e Gemini-1.5-pro. Os modelos de código aberto usados foram Llama-3-8B-Instruct; Qwen2.5-7B-Instruct (Equipe 2024b); e Qwen2.5-72B-Instruct (Equipe 2024a), com todos os experimentos repetidos três vezes para levar em conta a chance aleatória.

O estudo primeiro testou se reescrever prompts prejudiciais do AdvBench usando emojis aumentaria a saída tóxica, incluindo em traduções para outros idiomas principais. Além disso, aplicou o mesmo método de edição de emoji para prompts das estratégias de jailbreak conhecidas (PAIR, TAP e DeepInception) para ver se a substituição de emojis poderia melhorar ainda mais o sucesso.

Em ambos os casos, a estrutura dos prompts originais foi preservada, com apenas termos sensíveis trocados por emojis e elementos decorativos adicionados para disfarçar a intenção.

Para métricas de teste, os autores inovaram um sistema de pontuação chamado GPT-Judge. Nesse setup, o GPT-4o não foi o modelo sendo testado, mas sim foi solicitado a agir como um juiz, atribuindo uma pontuação numérica Pontuação de Dano (HS) às respostas geradas por outros modelos.

Cada saída foi classificada de um (inofensiva) a cinco (extremamente prejudicial), e o percentual de respostas que receberam um cinco foi relatado como a Proporção de Prejuízo (HR).

Para evitar que os modelos se desviassem para explicações de emojis em vez de responder explicitamente, os pesquisadores adicionaram uma instrução a cada prompt, dizendo ao modelo para fazer sua resposta breve:

Resultados de prompts baseados em emojis no 'Setting-1', com comparações com variantes de ablação onde os emojis foram substituídos por palavras ou removidos completamente. Os nomes dos modelos são abreviados por falta de espaço.

Resultados de prompts baseados em emojis no ‘Setting-1’, com comparações com variantes de ablação onde os emojis foram substituídos por palavras ou removidos completamente. Os nomes dos modelos são abreviados por falta de espaço.

Na tabela de resultados inicial acima, o lado esquerdo da tabela indica que prompts prejudiciais substituídos com emojis alcançaram pontuações HS e HR significativamente mais altas do que as variantes de ablação (ou seja, versões onde o emoji foi traduzido de volta para texto, expondo-o diretamente aos filtros de conteúdo).

Os autores observamque a abordagem de substituição de emojis supera os métodos de jailbreak anteriores, como delineado na tabela de resultados adicional abaixo:

Resultados da Proporção de Prejuízo para prompts de jailbreak com emojis no 'Setting-2', com os nomes dos modelos mostrados em forma abreviada.

Resultados da Proporção de Prejuízo para prompts de jailbreak com emojis no ‘Setting-2’, com os nomes dos modelos mostrados em forma abreviada.

A primeira das duas tabelas mostradas acima, os autores afirmam, também indica que o efeito dos emojis se estende por idiomas. Quando os componentes textuais dos prompts de emojis foram traduzidos para chinês, francês, espanhol e russo, as saídas prejudiciais permaneceram altas; porque esses são todos idiomas de alto recurso, os resultados sugerem que o risco não se limita ao inglês, mas se aplica amplamente a principais grupos de usuários, com os emojis funcionando como um canal transferível para a geração de conteúdo tóxico.

Em direção à conclusão do artigo, os pesquisadores sugerem que o efeito dos emojis não é simplesmente acidental, mas enraizado na forma como os modelos processam-nos, observando que os modelos aparentemente podem reconhecer o significado prejudicial dos emojis – mas as respostas de rejeição são suprimidas quando os emojis estão presentes.

Estudos de tokenização indicam ainda que os emojis são geralmente quebrados em fragmentos raros ou irregulares com pouca sobreposição com seus equivalentes textuais, efetivamente criando um canal alternativo para semântica prejudicial.

Olhando além da mecânica do modelo, o artigo examina ainda os dados de pré-treinamento, encontrando que muitos emojis frequentemente usados aparecem em contextos tóxicos, como pornografia, golpes ou jogos de azar. Os autores argumentam que essa exposição repetida pode normalizar a associação entre os emojis e o conteúdo prejudicial, encorajando os modelos a atender a prompts tóxicos em vez de bloqueá-los.

Juntos, esses achados sugerem que tanto as peculiaridades internas de processamento quanto os dados de pré-treinamento tendenciosos contribuem para a surpreendente eficácia dos emojis em bypassar as medidas de segurança.

Conclusão

Não é incomum usar métodos de entrada alternativos para tentar jailbreak LLMs. Nos últimos anos, por exemplo, codificação hexadecimal foi usada para bypassar os filtros do ChatGPT. O problema parece residir no uso plano de linguagem baseada em texto para qualificar solicitações de entrada e saída.

No caso dos emojis, um locus oculto de significado que viola regras pode aparentemente ser introduzido no discurso sem penalidade ou intervenção, porque o método de transmissão é não convencional. Alguém poderia pensar que a transliteração baseada em CLIP interviria em todas as uploads de imagens, de modo que o material ofensivo ou infringente acabaria como texto sinalizável.

Evidentemente, isso não é o caso, pelo menos onde os principais LLMs estudados estão concernidos; suas barreiras linguísticas parecem ser frágeis e centradas em texto. Alguém pode imaginar que uma interpretação mais extensa do conteúdo (por exemplo, estudando ativações de heatmap) carrega um custo de processamento e/ou de banda que pode tornar tais abordagens impraticavelmente caras, entre outras possíveis limitações e considerações.

 

* O layout deste artigo é caótico em comparação com a maioria, com metodologia e testes não claramente delineados. Portanto, fizemos o nosso melhor para representar o valor central do trabalho o mais claramente possível nessas circunstâncias.

Em um tratamento admitidamente quase ininteligível e confuso dos resultados.

Publicado pela primeira vez na quarta-feira, 17 de setembro de 2025

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.