Intelligence artificielle

Le ‘langage absurde’ qui pourrait contourner les systèmes de modération de la synthèse d’images

Published August 9, 2022

Updated April 26, 2026

Martin Anderson

DALL-E 2: 'a man in a state of exaspenttausacion' . https://labs.openai.com/s/PHCrZh2i5FC2N814U8pbxuug

Une nouvelle recherche de l’université de Columbia suggère que les garanties qui empêchent les modèles de synthèse d’images tels que DALL-E 2, Imagen et Parti de produire des images nuisibles ou controversées sont susceptibles à une sorte d’attaque adverse qui implique des ‘mots inventés’.

L’auteur a développé deux approches qui peuvent potentiellement outrepasser les mesures de modération de contenu dans un système de synthèse d’images, et a constaté qu’elles sont remarquablement robustes même à travers différentes architectures, indiquant que la faiblesse est plus que juste systémique, et peut reposer sur certains des principes les plus fondamentaux de la synthèse d’images à partir de texte.

La première, et la plus forte des deux, est appelée macaronic prompting. Le terme ‘macaronic’ à l’origine fait référence à un mélange de plusieurs langues, comme on le trouve en esperanto ou Unwinese. Peut-être que l’exemple le plus diffusé culturellement serait urdu-anglais, un type de ‘mélange de code’ courant au Pakistan, qui mélange librement les noms anglais et les suffixes ourdou.

Compositional macaronic prompting dans DALL-E 2. Source : https://arxiv.org/pdf/2208.04135.pdf

Dans certains des exemples ci-dessus, des fractions de mots significatifs ont été collées ensemble, en utilisant l’anglais comme ‘échafaudage’. D’autres exemples dans le document utilisent plusieurs langues à travers une seule invite.

Le système répondra de manière sémantiquement significative en raison du manque relatif de curation dans les sources Web sur lesquelles le système a été formé. De telles sources seront très souvent arrivées complètes avec des étiquettes multilingues (c’est-à-dire à partir de jeux de données non spécifiquement conçus pour une tâche de synthèse d’images), et chaque mot ingéré, dans quelle que langue que ce soit, deviendra un ‘jeton’ ; mais de même, des parties de ces mots deviendront des ‘sous-mots’ ou des jetons fractionnaires. Dans le traitement automatique des langues (TAL), ce type de ‘racinisation’ aide à distinguer l’étymologie de mots dérivés plus longs qui peuvent surgir dans des opérations de transformation, mais crée également un énorme ‘jeu de Lego’ lexical que des invites ‘créatives’ peuvent exploiter.

Les mots portemanteau monolingues sont également efficaces pour obtenir des images par le biais d’un langage indirect ou non prosaïque, avec des résultats souvent très similaires obtenus à travers différentes architectures, telles que DALL-E 2 et DALL-E Mini (Craiyon).

Dans la deuxième approche, appelée evocative prompting, certains des mots conjoints sont similaires en ton à la branche plus juvénile du ‘latin scolaire’ démontré dans La Vie de Brian de Monty Python (1979).

Ce n’est pas une plaisanterie – le faux latin réussit souvent à évoquer une réponse significative de DALL-E 2.

L’auteur déclare :

‘Une préoccupation évidente avec cette méthode est la contournement des filtres de contenu basés sur des invites interdites. En principe, la macaronic prompting pourrait fournir un moyen facile et apparemment fiable pour contourner de tels filtres afin de générer du contenu nuisible, offensant, illégal ou autrement sensible, y compris des images violentes, haineuses, racistes, sexistes ou pornographiques, et peut-être des images portant atteinte aux droits de propriété intellectuelle ou représentant des personnes réelles.

‘Les entreprises qui offrent la génération d’images en tant que service ont mis beaucoup de soin à prévenir la génération de tels résultats conformément à leur politique de contenu. Par conséquent, la macaronic prompting devrait être systématiquement étudiée comme une menace pour les protocoles de sécurité utilisés pour la génération d’images commerciales.’

L’auteur suggère un certain nombre de remèdes contre cette vulnérabilité, dont certains qu’il admet pourrait être considérés comme trop restrictifs.

La première solution possible est la plus coûteuse : curer les images sources de formation plus soigneusement, avec plus de surveillance humaine et moins algorithmique. Cependant, le document concède que cela n’empêcherait pas le système de synthèse d’images de créer une conjonction offensive entre deux concepts d’images qui sont par eux-mêmes potentiellement inoffensifs.

Deuxièmement, le document suggère que les systèmes de synthèse d’images pourraient exécuter leur sortie réelle à travers un système de filtres, interceptant toute association problématique avant qu’elle ne soit servie à l’utilisateur. Il est possible que DALL-E 2 fonctionne actuellement un tel filtre, bien que OpenAI n’ait pas divulgué exactement comment fonctionne la modération de contenu de DALL-E 2.

Enfin, l’auteur considère la possibilité d’un ‘dictionnaire de liste blanche’, qui n’autoriserait que des mots vérifiés et approuvés pour récupérer et rendre des concepts, mais concède que cela pourrait représenter une restriction excessivement sévère sur l’utilité du système.

Bien que le chercheur n’ait expérimenté que cinq langues (anglais, allemand, français, espagnol et italien) pour créer des assemblages d’invites, il croit que ce type d’attaque adverse pourrait devenir encore plus ‘cryptique’ et difficile à détecter en étendant le nombre de langues, étant donné que les modèles hyperscale tels que DALL-E 2 sont formés sur plusieurs langues (simplement parce qu’il est plus facile d’utiliser des entrées légèrement filtrées ou ‘brutes’ que de considérer le coût énorme de les curer, et parce que la dimensionnalité supplémentaire est susceptible d’ajouter à l’utilité du système).

Le document est intitulé Attaques adverses sur la génération d’images avec des mots inventés, et provient de Raphaël Millièr à l’université de Columbia.

Langage cryptique dans DALL-E 2

Il a été suggéré précédemment que le jargon que DALL-E 2 produit chaque fois qu’il tente de dépeindre le langage écrit pourrait en soi être un ‘vocabulaire caché’. Cependant, les recherches précédentes sur ce langage mystérieux n’ont pas offert de moyen de développer des chaînes de nonce qui peuvent invoquer des images spécifiques.

Sur les travaux précédents, le document déclare :

‘[Il] n’offre pas une méthode fiable pour trouver des chaînes de nonce qui évoquent des images spécifiques. La plupart du texte jargon inclus par DALL-E 2 dans les images ne semble pas être associé de manière fiable à des concepts visuels spécifiques lorsqu’il est transcrit et utilisé comme invite. Cela limite la viabilité de cette approche en tant que moyen de contourner la modération de contenu nuisible ou offensant ; en tant que tel, ce n’est pas un risque particulièrement préoccupant pour l’utilisation abusive des modèles de génération d’images guidés par du texte.’

Au lieu de cela, les deux méthodes de l’auteur sont élaborées comme des moyens par lesquels le non-sens peut invoquer des images liées et significatives tout en contournant l’étiquette conventionnelle qui se développe actuellement en ingénierie d’invites.

Par exemple, l’auteur considère le mot pour ‘oiseaux’ dans les cinq langues qui sont dans le cadre du document : Vögel en allemand, uccelli en italien, oiseaux en français, et pájaros en espagnol.

Avec le codage par paires de bytes (BPE) utilisé par la mise en œuvre de CLIP qui est intégré dans DALL-E 2 , les mots sont tokenisés en anglais non accentué, et peuvent être ‘créativement combinés’ pour former des mots de nonce qui semblent être des absurdités pour nous, mais retiennent leur sens collé pour DALL-E 2, permettant au système d’exprimer l’intention perçue :

Dans l’exemple ci-dessus, deux des ‘mots étrangers’ pour oiseau sont collés ensemble dans une chaîne de nonce. Grâce au poids fractionnaire des sous-mots, le sens est retenu.

L’auteur souligne que des résultats significatifs peuvent également être obtenus sans adhérer aux limites de la segmentation des sous-mots, probablement parce que DALL-E 2 (l’objet d’étude principal du document) a généralisé suffisamment pour laisser les limites des sous-mots se brouiller sans détruire leur sens.

Pour démontrer davantage les approches développées, le document propose des exemples de macaronic prompting à travers différents domaines, en utilisant la liste de mots de jetons illustrée ci-dessous (avec des mots hybrides de nonsense à droite).

L’auteur déclare que les exemples suivants de DALL-E 2 ne sont pas ‘triés sur le volet’ :

Lingua Franca

Le document observe également que plusieurs de ces exemples fonctionnent également très bien, ou au moins de manière très similaire, à la fois sur DALL-E 2 et DALL-E Mini (maintenant Craiyon), et que cela est surprenant, puisque DALL-E 2 est un modèle de diffusion et que DALL-E Mini ne l’est pas ; les deux systèmes sont formés sur des jeux de données différents ; et DALL-E Mini utilise un BART au lieu du tokenizer CLIP favorisé par DALL-E 2.

Résultats remarquablement similaires de DALL-E Mini, par rapport à l’image précédente, qui présentait des résultats de la même ‘entrée de nonsense’ de DALL-E 2.

Comme on le voit dans la première des images ci-dessus, la macaronic prompting peut également être assemblée en phrases syntaxiquement saines pour générer des scènes plus complexes. Cependant, cela nécessite d’utiliser l’anglais comme ‘échafaudage’ pour assembler les concepts, ce qui rend la procédure plus susceptible d’être interceptée par les systèmes de censure standard dans un cadre de synthèse d’images.

Le document observe que l’hybridation lexicale, le ‘collage’ de mots pour évoquer du contenu lié à partir d’un système de synthèse d’images, peut également être réalisée dans une seule langue, en utilisant des mots portemanteau.

Evocative Prompting

L’approche d’invocation évoquée dans le document dépend de l’évocation d’une réponse plus large du système avec des mots qui ne sont pas strictement basés sur des sous-mots ou des sous-jetons ou des étiquettes partagées.

Un type d’invocation évoquée est le pseudolatin, qui peut, entre autres usages, générer des images de médicaments fictifs, même sans spécification que DALL-E 2 doit récupérer le concept de ‘médicament’ :

L’invocation évoquée fonctionne également particulièrement bien avec des invites de nonsense qui se rapportent largement à des emplacements géographiques possibles, et fonctionne de manière assez fiable à travers les différentes architectures de DALL-E 2 et DALL-E Mini :

Les mots utilisés pour ces invites à DALL-E 2 et DALL-E Mini sont résonants de noms réels, mais sont en eux-mêmes des absurdités. Néanmoins, les systèmes ont ‘capturé l’atmosphère’ des mots.

Il semble y avoir un certain chevauchement entre la macaronic prompting et l’invocation évoquée. Le document déclare :

‘Il semble que les différences dans les données de formation, la taille du modèle et l’architecture du modèle puissent causer des différences dans la façon dont les modèles analysent les invites comme voiscellpajaraux et eidelucertlagarzard, soit de manière ‘macaronique’ soit de manière ‘évoquée’, même lorsque ces modèles sont prouvés pour être sensibles aux deux méthodes d’invocation.’

Le document conclut :

‘Alors que diverses propriétés de ces modèles – y compris la taille, l’architecture, la procédure de tokenization et les données de formation – peuvent influencer leur vulnérabilité aux attaques adverses basées sur le texte, les preuves préliminaires discutées dans ce travail suggèrent que certaines de ces attaques peuvent néanmoins fonctionner de manière assez fiable à travers les modèles.’

L’obstacle le plus important à la véritable expérimentation autour de ces méthodes est le risque d’être signalé et banni par le système hôte. DALL-E 2 nécessite un numéro de téléphone associé à chaque compte utilisateur, limitant le nombre de ‘comptes jetables’ qui seraient probablement nécessaires pour véritablement tester les limites de ce type de piratage lexical, en termes de contournement des méthodes de modération existantes. Actuellement, la principale garantie de DALL-E 2 reste la volatilité de l’accès.

Publié pour la première fois le 9 août 2022.