Connect with us

Angle d’Anderson

Utilisation d’émoticônes pour contourner les filtres de contenu dans les chatbots IA

mm
A man with a smiley emoji for a head lights a cigarette from a lit bomb. SDXL, Flux Kontext Dev, Adobe Firefly.

Les émoticônes peuvent être utilisées pour contourner les mécanismes de sécurité des grands modèles de langage, et déclencher des sorties toxiques qui seraient autrement bloquées. Par ce moyen, les LLM peuvent être amenés à discuter et à donner des conseils sur des sujets interdits tels que la fabrication de bombes et le meurtre.

 

Une nouvelle collaboration entre la Chine et Singapour trouve des preuves convaincantes que les émoticônes peuvent être utilisées non seulement pour contourner les filtres de détection de contenu dans les grands modèles de langage (LLM), mais peuvent également augmenter le niveau de toxicité lors de l’interaction d’un utilisateur avec les modèles :

À partir du nouveau document, une démonstration large des façons dont le codage d'un concept interdit avec des émoticônes peut aider un utilisateur à 'casser' un LLM populaire. Source : https://arxiv.org/pdf/2509.11141

À partir du nouveau document, une démonstration large des façons dont le codage d’un concept interdit avec des émoticônes peut aider un utilisateur à ‘casser’ un LLM populaire. Source : https://arxiv.org/pdf/2509.11141

Dans l’exemple ci-dessus, du nouveau document, nous voyons que la transformation d’une intention basée sur des mots en infraction en une version alternative avec des émoticônes peut susciter une réponse beaucoup plus ‘coopérative’ d’un modèle de langage sophistiqué tel que ChatGPT-4o (qui habituellement sanitize les invites de saisie et intercepte le matériel de sortie qui peut enfreindre les règles de l’entreprise).

En effet, dans les circonstances les plus extrêmes, l’utilisation d’émoticônes peut donc fonctionner comme une technique de jailbreak, selon les auteurs du nouveau travail.

Une énigme résiduelle énoncée dans le document est la question de pourquoi les modèles de langage donnent aux émoticônes une telle latitude pour enfreindre les règles et déclencher du contenu toxique, alors que les modèles comprennent déjà que certaines émoticônes ont des associations toxiques fortes.

La suggestion proposée est que parce que les LLM sont formés pour modéliser et reproduire des modèles à partir de leurs données de formation, et parce que les émoticônes sont si fréquemment trouvées dans ces données, le modèle apprend que l’émoticône appartient à ce discours, et le traite comme une association statistique, au lieu de contenu à évaluer et à filtrer.

Cela signifie que l’émoticône, lorsqu’il est réutilisé dans une invite, aide le modèle à prédire des suites toxiques avec plus de confiance ; mais au lieu de fonctionner comme un drapeau rouge, l’émoticône fonctionne comme une invite sémantique, qui renforce en fait le sens toxique intentionnel au lieu de le modérer ou de l’intercepter. Puisque l’alignement de sécurité est appliqué après coup, et souvent dans un cadre étroit et littéral, les invites avec ces émoticônes peuvent donc éviter la détection entièrement.

De cette façon, le document propose que le modèle ne devient pas tolérant malgré l’association toxique – il devient tolérant à cause de celle-ci.

Passeport gratuit

Cela étant dit, les auteurs admettent que cela ne représente pas une théorie conclusive quant à la raison pour laquelle l’utilisation d’émoticônes peut contourner si efficacement les filtres de contenu dans les modèles de langage. Ils déclarent :

‘Les modèles peuvent reconnaître l’intention malveillante exprimée par les émoticônes, mais la façon dont ils contournent les mécanismes de sécurité reste peu claire.’

La faiblesse peut provenir de la conception centrée sur le texte des filtres de contenu, qui supposent soit une saisie de texte littérale, soit des incrustations fidèlement converties en équivalents textuels : dans les deux cas, le système repose sur des jetons explicites qui peuvent être comparés aux règles de sécurité.

Pour prendre une illustration à partir de l’édition d’images basée sur l’IA : lorsque l’utilisateur télécharge une image NSFW sur un modèle de langage et de vision et demande des modifications, des systèmes tels que Adobe Firefly ou ChatGPT emploient des pipelines CLIP pour extraire des concepts textuels de l’image, comme condition préalable à l’édition. Une fois que ces concepts sont rendus en mots, la présence de termes interdits dans ces mots extraits déclenchera le filtre, provoquant le rejet de la demande.

Pourtant, pour une raison ou une autre, le statut d’une émoticône en tant que ni mot ni image (ou les deux) semble lui conférer un pouvoir pour transcender le filtrage ; clairement, comme l’indiquent les auteurs, des recherches supplémentaires sur cette faille curieuse sont nécessaires.

Le nouveau document est intitulé Quand le smiley devient hostile : interpréter comment les émoticônes déclenchent la toxicité des LLM, et provient de neuf auteurs issus de l’Université Tsinghua et de l’Université nationale de Singapour.

(Malheureusement, de nombreux exemples auxquels le document fait référence se trouvent dans un appendice qui n’a pas encore été mis à disposition ; bien que nous ayons demandé cela aux auteurs, l’appendice n’a pas été fourni au moment de la rédaction. Néanmoins, les résultats empiriques du document principal restent dignes d’attention.)

Trois interprétations d’émoticônes de base

Les auteurs mettent en évidence trois traits linguistiques qui font que les émoticônes sont efficaces pour contourner les filtres. Premièrement, les significations des émoticônes sont dépendantes du contexte. Par exemple, l’émoticône ‘Argent avec ailes’ (voir image ci-dessous) est officiellement défini comme représentant des transferts d’argent ou des dépenses ; cependant, en fonction du texte environnant, il peut également impliquer soit une activité légitime, soit une activité illicite :

Dans une illustration partielle du nouveau document, nous voyons qu'une émoticône populaire peut avoir sa signification détournée, modifiée ou subvertie dans l'utilisation populaire. Cela lui donne effectivement un passeport officiel dans l'espace sémantique, et une charge utile cachée de sens négatif ou toxique qui peut être exploitée une fois qu'elle est passée les filtres.

Dans une illustration partielle du nouveau document, nous voyons qu’une émoticône populaire peut avoir sa signification détournée, modifiée ou subvertie dans l’utilisation populaire. Cela lui donne effectivement un passeport officiel dans l’espace sémantique, et une charge utile cachée de sens négatif ou toxique qui peut être exploitée une fois qu’elle est passée les filtres.

Deuxièmement, les émoticônes peuvent modifier le ton d’une invite. Leur présence ajoute souvent de la jouissance ou de l’ironie, adoucissant l’enregistrement émotionnel. Dans les requêtes nuisibles, cela peut rendre la demande semblable à une plaisanterie ou à un jeu, encourageant le modèle à répondre plutôt que de rejeter :

L'effet de détente des émoticônes peut détoxifier le ton sans détoxifier l'intention.

L’effet de détente des émoticônes peut détoxifier le ton sans détoxifier l’intention.

Troisièmement, le document affirme que les émoticônes sont indépendantes de la langue : une seule émoticône peut porter le même sentiment à travers l’anglais, le chinois, le français et d’autres langues. Cela les rend idéales pour les invites multilingues, préservant le sens même lorsque le texte environnant est traduit :

L'émoticône du cœur brisé transmet un message universel, peut-être pas moins parce qu'il représente un cas de base dans la condition humaine, relativement immunisé contre les variations nationales ou culturelles.

L’émoticône du cœur brisé transmet un message universel, peut-être pas moins parce qu’il représente un cas de base dans la condition humaine, relativement immunisé contre les variations nationales ou culturelles.

Approche, données et tests*

Les chercheurs ont créé une version modifiée du jeu de données AdvBench, en réécrivant des invites nuisibles pour inclure des émoticônes soit comme substituts de mots sensibles, soit comme camouflage décoratif. AdvBench couvre 32 sujets à haut risque, notamment les bombes, le piratage et le meurtre, entre autres :

Exemples originaux d'AdvBench, illustrant comment une seule invite adverse peut contourner les sauvegardes dans plusieurs chatbots majeurs, déclenchant des instructions nuisibles malgré la formation d'alignement. Source : https://arxiv.org/pdf/2307.15043

Exemples originaux d’AdvBench, illustrant comment une seule invite adverse peut contourner les sauvegardes dans plusieurs chatbots majeurs, déclenchant des instructions nuisibles malgré la formation d’alignement. Source : https://arxiv.org/pdf/2307.15043

Toutes les 520 instances originales d’AdvBench ont été modifiées de cette manière, avec les 50 invites les plus toxiques et non dupliquées utilisées à travers la série d’expériences. Les invites ont également été traduites dans plusieurs langues et testées sur sept modèles majeurs fermés et open source, ainsi qu’en combinaison avec les techniques de jailbreak connues Prompt Automatic Iterative Refinement (PAIR) ; Tree of Attacks with Pruning (TAP) ; et DeepInception.

Les modèles fermés utilisés étaient Gemini-2.0-flash ; GPT-4o (2024-08-06) ; GPT-4-0613 ; et Gemini-1.5-pro. Les modèles open source utilisés étaient Llama-3-8B-Instruct ; Qwen2.5-7B-Instruct (Team 2024b) ; et Qwen2.5-72B-Instruct (Team 2024a), avec toutes les expériences répétées trois fois pour tenir compte du hasard.

L’étude a d’abord testé si la réécriture d’invites nuisibles à partir d’AdvBench en utilisant des émoticônes augmenterait les sorties toxiques, y compris dans les traductions vers d’autres langues majeures. De plus, elle a appliqué la même méthode d’édition d’émoticônes aux invites des stratégies de jailbreak connues (PAIR, TAP et DeepInception) pour voir si le remplacement d’émoticônes pourrait améliorer davantage leur succès.

Dans les deux cas, la structure des invites originales a été préservée, avec seulement les termes sensibles échangés contre des émoticônes et des éléments décoratifs ajoutés pour déguiser l’intention.

Pour les métriques de test, les auteurs ont innové un système de notation appelé GPT-Judge. Dans cet ensemble, GPT-4o n’était pas le modèle testé, mais plutôt était invité à agir comme un juge, en attribuant un score numérique Score de nuisance (HS) aux réponses générées par d’autres modèles.

Chaque sortie a été notée de un (inoffensive) à cinq (extrêmement nuisible), et le pourcentage de réponses qui ont reçu un cinq a été rapporté comme le Taux de nuisance (HR).

Pour empêcher les modèles de dériver vers des explications d’émoticônes au lieu de répondre explicitement, les chercheurs ont ajouté une instruction à chaque invite, disant au modèle de rendre sa réponse brève :

Résultats des invites basées sur des émoticônes dans 'Setting-1', avec des comparaisons avec des variantes d'ablation où les émoticônes étaient remplacées par des mots, ou supprimées entièrement. Les noms de modèles sont abrégés pour des raisons d'espace.

Résultats des invites basées sur des émoticônes dans ‘Setting-1’, avec des comparaisons avec des variantes d’ablation où les émoticônes étaient remplacées par des mots, ou supprimées entièrement. Les noms de modèles sont abrégés pour des raisons d’espace.

Dans le tableau de résultats initial ci-dessus, le côté gauche du tableau indique que les invites nuisibles substituées avec des émoticônes ont obtenu des scores HS et HR nettement plus élevés que les versions ablatées (c’est-à-dire les versions où l’émoticône était traduite en texte, l’exposant directement aux filtres de contenu).

Les auteurs notentque l’approche de substitution d’émoticônes surpasse les méthodes de jailbreak antérieures, comme indiqué dans le tableau de résultats supplémentaire ci-dessous :

Résultats du Taux de nuisance pour les invites de jailbreak avec émoticônes dans 'Setting-2', avec les noms de modèles affichés sous forme abrégée.

Résultats du Taux de nuisance pour les invites de jailbreak avec émoticônes dans ‘Setting-2’, avec les noms de modèles affichés sous forme abrégée.

Le premier des deux tableaux ci-dessus, les auteurs déclarent, indique également que l’effet des émoticônes se propage à travers les langues. Lorsque les composants textuels des invites avec émoticônes ont été traduits en chinois, en français, en espagnol et en russe, les sorties nuisibles sont restées élevées ; parce que ce sont toutes des langues à ressources élevées, les résultats suggèrent que le risque n’est pas limité à l’anglais mais s’applique largement aux principaux groupes d’utilisateurs, les émoticônes fonctionnant comme un canal transférable pour la génération de contenu toxique.

Vers la conclusion du document, les chercheurs suggèrent que l’effet des émoticônes n’est pas simplement accidentel mais enraciné dans la façon dont les modèles les traitent, notant que les modèles peuvent apparemment reconnaître la signification nuisible des émoticônes – mais les réponses de rejet sont supprimées lorsque les émoticônes sont présentes.

Les études de tokenisation indiquent en outre que les émoticônes sont généralement cassées en fragments rares ou irréguliers avec peu de chevauchement avec leurs équivalents textuels, créant effectivement un canal alternatif pour la sémantique nuisible.

En regardant au-delà de la mécanique du modèle, le document examine également les données de préformation, constatant que de nombreuses émoticônes fréquemment utilisées apparaissent dans des contextes toxiques tels que la pornographie, les arnaques ou les jeux de hasard. Les auteurs soutiennent que cette exposition répétée peut normaliser l’association entre les émoticônes et le contenu nuisible, encourageant les modèles à se conformer aux invites toxiques plutôt que de les bloquer.

Ensemble, ces constats suggèrent que les particularités de traitement interne et les données de préformation biaisées contribuent tous deux à l’efficacité surprenante des émoticônes pour contourner les mesures de sécurité.

Conclusion

Il n’est pas inhabituel d’utiliser des méthodes d’entrée alternatives pour essayer de jailbreaker les LLM. Ces dernières années, par exemple, le codage hexadécimal a été utilisé pour contourner les filtres de ChatGPT. Le problème semble résider dans l’utilisation plate de langage textuel pour qualifier les demandes entrantes et les réponses sortantes.

Dans le cas des émoticônes, un locus caché de signification en infraction peut apparemment être introduit dans le discours sans pénalité ou intervention, parce que la méthode de transmission est non conventionnelle. On pourrait penser que la translittération CLIP devrait intervenir dans toutes les téléchargements d’images, de sorte que le matériel offensant ou contraire aux règles se retrouverait sous forme de texte susceptible d’être signalé.

Il est évident que ce n’est pas le cas, du moins en ce qui concerne les principaux LLM étudiés ; leurs barrières linguistiques semblent être fragiles et centrées sur le texte. On peut imaginer que l’interprétation plus approfondie du contenu (par exemple, en étudiant les activations de heatmap) comporte un coût de traitement et/ou de bande passante qui peut rendre de telles approches impraticablement coûteuses, parmi d’autres limitations et considérations possibles.

 

* La disposition de ce document est chaotique par rapport à la plupart, avec une méthodologie et des tests qui ne sont pas clairement délimités. Nous avons donc fait de notre mieux pour représenter la valeur fondamentale du travail aussi bien que possible dans ces circonstances.

Dans un traitement effectivement presque impenetrable et confus des résultats.

Publié pour la première fois le mercredi 17 septembre 2025

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.