Entre em contato

Usar emojis pode contornar filtros de conteúdo em chatbots de IA

Ângulo de Anderson

Usar emojis pode contornar filtros de conteúdo em chatbots de IA

mm
Um homem com um emoji sorridente na cabeça acende um cigarro com uma bomba acesa. SDXL, Flux Kontext Dev, Adobe Firefly.

Emojis podem ser usados ​​para contornar os mecanismos de segurança de grandes modelos de linguagem e acionar saídas tóxicas que, de outra forma, seriam bloqueadas. Dessa forma, os LLMs podem ser incentivados a discutir e dar conselhos sobre assuntos proibidos, como fabricação de bombas e assassinato.

 

Uma nova colaboração entre a China e Cingapura encontra evidências convincentes de que emojis podem ser usados ​​não apenas para contornar os filtros de detecção de conteúdo em grandes modelos de linguagem (LLMs), mas podem, em geral, aumentar o nível de toxicidade durante o envolvimento do usuário com os modelos:

O novo artigo apresenta uma ampla demonstração de como a codificação de um conceito proibido com emojis pode ajudar um usuário a "desbloquear" um LLM popular. Fonte: https://arxiv.org/pdf/2509.11141

O novo artigo apresenta uma ampla demonstração de como codificar um conceito proibido com emojis pode ajudar um usuário a "desbloquear" um LLM popular. Fonte: https://arxiv.org/pdf/2509.11141

No exemplo acima, do novo artigo, vemos que a transformação da quebra de regras palavraA intenção baseada em emojis em uma versão alternativa carregada de emojis pode provocar uma resposta muito mais "cooperativa" de um modelo de linguagem sofisticado como o ChatGPT-4o (que habitualmente higieniza prompts de entrada e intercepta material de saída que pode violar as regras da empresa).

Efetivamente, nas circunstâncias mais extremas, o uso de emojis pode, portanto, funcionar como uma fuga de presos técnica, segundo os autores do novo trabalho.

Um mistério residual declarado no artigo é a questão de porque Os modelos de linguagem dão aos emojis essa margem de manobra para violar regras e gerar conteúdo tóxico, quando os modelos já entendem que certos emojis têm associações fortemente tóxicas.

A sugestão apresentada é que, como os LLMs são treinados para modelar e reproduzir padrões a partir de seus dados de treinamento e porque os emojis são encontrados com tanta frequência nesses dados, o modelo aprende que o emoji pertence nesse discurso, e o trata como uma associação estatística, em vez de conteúdo a ser avaliado e filtrado.

Isso significa que o emoji, quando reutilizado em um prompt, ajuda o modelo a prever continuações tóxicas com mais confiança; mas em vez de agir como uma bandeira vermelha, o emoji funciona como um dica semântica, o que na verdade reforça o significado tóxico pretendido em vez de moderá-lo ou interceptá-lo. Desde alinhamento de segurança é aplicado após o fato e, muitas vezes, em um quadro estreito e literal; portanto, os avisos com esses emojis podem escapar completamente da detecção.

Dessa forma, propõe o artigo, o modelo não se torna tolerante apesar de a associação tóxica – torna-se tolerante Porque do mesmo.

Passe livre

Dito isso, os autores admitem que isso não representa uma teoria conclusiva sobre por que o uso de emojis pode contornar tão eficazmente os filtros de conteúdo em modelos de linguagem. Eles afirmam:

'Os modelos conseguem reconhecer a intenção maliciosa expressada pelos emojis, mas ainda não está claro como isso contorna os mecanismos de segurança.'

A fraqueza pode advir da centrado no texto design de filtros de conteúdo, que assumem a entrada de texto literal ou incorporações fielmente convertidos em equivalentes textuais: em ambos os casos, o sistema depende de tokens que podem ser comparados com as regras de segurança.

Para dar um exemplo da edição de imagens baseada em IA: quando um usuário carrega uma imagem NSFW em um modelo de linguagem de visão e solicita modificações, sistemas como o Adobe Vaga-lume or ChatGPT empregar CLIPPipelines no estilo "-" para extrair conceitos textuais da imagem, como pré-requisito para edição. Assim que esses conceitos forem convertidos em palavras, a presença de quaisquer termos restritos nessas palavras extraídas acionará o filtro, fazendo com que a solicitação seja rejeitada.

No entanto, por alguma razão, o status de um emoji não é nem uma palavra nem uma imagem (ou então, como ambos) parece lhe conferir um poder de transcender a filtragem; claramente, como os autores indicam, mais pesquisas sobre essa curiosa lacuna são necessárias.

A novo papel é intitulado Quando o Smiley se Torna Hostil: Interpretando Como os Emojis Acionam a Toxicidade dos LLMs, e vem de nove autores da Universidade Tsinghua e da Universidade Nacional de Cingapura.

(Infelizmente, muitos dos exemplos aos quais o artigo se refere estão em um apêndice que ainda não foi disponibilizado; embora tenhamos solicitado isso aos autores, o apêndice não foi fornecido no momento da redação deste texto. No entanto, os resultados empíricos no artigo principal continuam dignos de atenção.)

Três interpretações principais de emojis

Os autores destacam três características linguísticas que tornam os emojis eficazes em contornar filtros. Em primeiro lugar, os significados dos emojis são dependente do contexto. Por exemplo, o emoji "Dinheiro com Asas" (veja a imagem abaixo) é oficialmente definido como representando transferências ou gastos de dinheiro; no entanto, dependendo do texto ao redor, ele também pode implicar atividade legítima ou ilícita:

Em uma ilustração parcial do novo artigo, vemos que um emoji popular pode ter seu significado sequestrado, alterado ou subvertido no uso popular. Isso efetivamente dá ao emoji um passaporte oficial para o espaço semântico e uma carga oculta de significado negativo ou tóxico que pode ser explorado depois de passar pelos filtros.

Em uma ilustração parcial do novo artigo, vemos que um emoji popular pode ter seu significado sequestrado, alterado ou subvertido no uso popular. Isso efetivamente dá ao emoji um passaporte oficial para o espaço semântico e uma carga oculta de significado negativo ou tóxico que pode ser explorado depois de passar pelos filtros.

Em segundo lugar, os emojis podem mudar o tom de um prompt. Sua presença frequentemente adiciona um toque de brincadeira ou ironia, suavizando o registro emocional. Em consultas prejudiciais, isso pode fazer com que a solicitação pareça uma piada ou jogo, incentivando o modelo a responder em vez de rejeitar:

O efeito fermentador dos emojis pode desintoxicar o tom sem desintoxicar a intenção.

O efeito fermentador dos emojis pode desintoxicar o tom sem desintoxicar a intenção.

Em terceiro lugar, afirma o artigo, os emojis são agnóstico em relação à linguagem: um único emoji pode transmitir o mesmo sentimento em inglês, chinês, francês e outros idiomas. Isso os torna ideais para mensagens multilíngues, preservando o significado mesmo quando o texto ao redor é traduzido:

O emoji de coração partido transmite uma mensagem universal, talvez principalmente porque representa um caso básico na condição humana, relativamente imune a variações nacionais ou culturais.

O emoji de "coração partido" transmite uma mensagem universal, talvez principalmente porque representa um caso básico na condição humana, relativamente imune a variações nacionais ou culturais.

Abordagem, Dados e Testes*

Os pesquisadores criaram uma versão modificada do AdvBench conjunto de dados, reescrevendo avisos prejudiciais para incluir emojis como substitutos de palavras sensíveis ou como camuflagem decorativa. O AdvBench abrange 32 tópicos de alto risco, incluindo bombardeios, hacking e assassinatos, entre outros:

Exemplos originais do AdvBench, ilustrando como um único prompt adversário pode burlar as proteções de vários chatbots importantes, gerando instruções prejudiciais, apesar do treinamento de alinhamento. Fonte: https://arxiv.org/pdf/2307.15043

Exemplos originais do AdvBench, ilustrando como um único prompt adversário pode ignorar proteções em vários chatbots importantes, gerando instruções prejudiciais, apesar do treinamento de alinhamento. Fonte: https://arxiv.org/pdf/2307.15043

Todas as 520 instâncias originais do AdvBench foram alteradas dessa forma, com os 50 principais prompts tóxicos e não duplicados sendo utilizados em toda a gama de experimentos. Os prompts também foram traduzidos para vários idiomas e testados em sete modelos principais de código aberto e fechado, em combinação com as técnicas de jailbreak eficazes e conhecidas. Solicitar refinamento iterativo automático (PAR); Árvore de Ataques com Poda (TAP); e DeepInception.

Os modelos de código fechado utilizados foram Gêmeos-2.0-flash; GPT-4o (2024-08-06); GPT-4-0613; e Gêmeos-1.5-pro. Os modelos de código aberto utilizados foram Lhama-3-8B-Instruir; Qwen2.5-7B-Instrução (Equipe 2024b); e Qwen2.5-72B-Instruct (Equipe 2024a), com todos os experimentos repetidos três vezes para levar em conta o acaso.

O estudo testou inicialmente se a reescrita de prompts nocivos do AdvBench usando emojis aumentaria a produção tóxica, inclusive em traduções para outros idiomas importantes. Além disso, aplicou o mesmo método de edição de emojis a prompts das estratégias de jailbreak conhecidas mencionadas anteriormente (PAIR, TAP e DeepInception) para verificar se a substituição de emojis poderia aumentar ainda mais seu sucesso.

Em ambos os casos, a estrutura dos prompts originais foi preservada, com apenas termos sensíveis trocados por emojis e elementos decorativos adicionados para disfarçar a intenção.

Para as métricas de teste, os autores inovaram um sistema de pontuação chamado Juiz GPT. Nesta configuração, o GPT-4o não era o modelo testado, mas sim foi solicitado a atuar como um classificador, atribuindo um valor numérico Pontuação prejudicial (HS) às respostas geradas por outros modelos.

Cada saída foi classificada de um (inofensivo) a cinco (extremamente prejudicial), e a porcentagem de respostas que receberam cinco foi relatada como Taxa de Nocividade (RH).

Para evitar que os modelos se desviassem para explicações com emojis em vez de responder explicitamente, os pesquisadores adicionaram uma instrução a cada prompt, dizendo ao modelo para dar uma resposta breve:

Resultados de prompts baseados em emojis no "Contexto 1", com comparações com variantes de ablação em que os emojis foram substituídos por palavras ou removidos completamente. Os nomes dos modelos são abreviados por espaço.

Resultados de prompts baseados em emojis no "Contexto 1", com comparações com variantes de ablação em que os emojis foram substituídos por palavras ou removidos completamente. Os nomes dos modelos são abreviados por espaço.

Na tabela de resultados iniciais acima, o lado esquerdo da tabela indica que prompts prejudiciais substituídos por emojis alcançaram pontuações de HS e HR notavelmente mais altas do que as versões ablacionadas (ou seja, versões em que o emoji foi traduzido de volta para texto, expondo-o diretamente a filtros de conteúdo).

Os autores observamque a abordagem de substituição de emojis supera os métodos de jailbreak anteriores, conforme descrito na tabela de resultados adicionais abaixo:

Resultados da taxa de nocividade para prompts de jailbreak aumentados com emojis em 'Configuração 2', com nomes de modelos mostrados de forma abreviada.

Resultados da taxa de nocividade para prompts de jailbreak aumentados com emojis em 'Configuração 2', com nomes de modelos mostrados de forma abreviada.

A primeira das duas tabelas mostradas acima, afirmam os autores, também indica que o efeito dos emojis se estende a todos os idiomas. Quando os componentes textuais dos emojis foram traduzidos para chinês, francês, espanhol e russo, os resultados nocivos permaneceram altos; porque todos esses são línguas de alto recurso, os resultados sugerem que o risco não se limita ao inglês, mas se aplica amplamente aos principais grupos de usuários, com os emojis funcionando como um canal transferível para geração tóxica.

Em direção à conclusão do artigo, os pesquisadores sugerem que o efeito dos emojis não é simplesmente acidental, mas está enraizado na maneira como os modelos os processam, observando que os modelos podem aparentemente reconhecer o significado prejudicial dos emojis, mas as respostas de rejeição são suprimidas quando os emojis estão presentes.

Estudos de tokenização indicam ainda que os emojis geralmente são divididos em fragmentos raros ou irregulares com pouca sobreposição aos seus equivalentes textuais, criando efetivamente um canal alternativo para semântica prejudicial.

Olhando além da mecânica do modelo, o artigo examina ainda mais os dados de pré-treinamento, descobrindo que muitos emojis usados ​​com frequência aparecem em contextos tóxicos, como pornografia, golpes ou jogos de azar. Os autores argumentam que essa exposição repetida pode normalizar a associação entre emojis e conteúdo nocivo, incentivando os modelos a obedecer a estímulos tóxicos em vez de bloqueá-los.

Juntas, essas descobertas sugerem que tanto as peculiaridades do processamento interno quanto os dados tendenciosos de pré-treinamento contribuem para a surpreendente eficácia dos emojis em contornar medidas de segurança.

Conclusão

Não é incomum usar métodos de entrada alternativos para tentar desbloquear LLMs. Nos últimos anos, por exemplo, codificação hexadecimal foi usada para contornar os filtros do ChatGPT. O problema parece estar no uso superficial da linguagem textual para qualificar solicitações recebidas e respostas enviadas.

No caso dos emojis, um locus oculto de significado que quebra as regras pode aparentemente ser introduzido no discurso sem penalidade ou intervenção, porque o método de transmissão é pouco ortodoxo. Seria de se esperar que a transliteração baseada em CLIP interviesse em todos os uploads de imagens, para que materiais ofensivos ou infratores acabem como texto denunciável.

Evidentemente, este não é o caso, pelo menos no que diz respeito aos principais LLMs estudados; suas barreiras linguísticas parecem ser frágeis e centradas no texto. Pode-se imaginar que uma interpretação mais ampla do conteúdo (por exemplo, estudando ativações de mapa de calor) acarreta um custo de processamento e/ou largura de banda que pode tornar tais abordagens impraticavelmente caras, entre outras possíveis limitações e considerações.

 

* O layout deste artigo é caótico em comparação com a maioria, com metodologia e testes não claramente delineados. Portanto, fizemos o nosso melhor para representar o valor central do trabalho da melhor forma possível nessas circunstâncias.

Num tratamento dos resultados reconhecidamente quase impenetrável e confuso.

Primeira publicação quarta-feira, 17 de setembro de 2025

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protected]
Twitter: @manders_ai