Intelligence Artificielle
Le «langage absurde» qui pourrait subvertir les systèmes de modération de synthèse d'images

Une nouvelle étude de l'Université de Columbia suggère que les protections qui empêchent les modèles de synthèse d'images tels que DALL-E 2, Imagen et Parti de produire des images préjudiciables ou controversées sont susceptibles d'être victimes d'une sorte d'attaque adverse impliquant des mots « inventés ».
L'auteur a développé deux approches qui peuvent potentiellement remplacer les mesures de modération de contenu dans un système de synthèse d'images, et a constaté qu'elles sont remarquablement robustes même sur différentes architectures, ce qui indique que la faiblesse est plus que systémique et peut toucher certains des principe le plus fondamental de la synthèse texte-image.
Le premier, et le plus fort des deux, s'appelle incitation macaroniqueLe terme « macaronique » initialement fait référence à un mélange de plusieurs langues, comme en espéranto ou Sans vin. L'exemple le plus répandu sur le plan culturel serait peut-être ourdou-anglais, un type de « mélange de codes » courant au Pakistan, qui mélange assez librement des noms anglais et des suffixes ourdous.

Incitation macaronique compositionnelle dans DALL-E 2. Source : https://arxiv.org/pdf/2208.04135.pdf
Dans certains des exemples ci-dessus, des fractions de mots significatifs ont été collées ensemble, en utilisant l'anglais comme « échafaudage ». D'autres exemples de l'article utilisent plusieurs langues pour une même question.
Le système répondra de manière sémantiquement significative en raison du manque relatif de curation des sources web sur lesquelles il a été entraîné. Ces sources arriveront très souvent avec des étiquettes multilingues (c'est-à-dire issues d'ensembles de données non spécifiquement conçus pour une tâche de synthèse d'images), et chaque mot ingéré, quelle que soit la langue, deviendra un « token » ; mais de même, des parties de ces mots deviendront des « sous-mots » ou des tokens fractionnaires. En traitement automatique du langage naturel (TALN), ce type de « racinisation » permet de distinguer l'étymologie de mots dérivés plus longs pouvant apparaître lors d'opérations de transformation, mais crée également un important « jeu de Lego » lexical que les suggestions « créatives » peuvent exploiter.

Les mots-valise monolingues sont également efficaces pour obtenir des images par le biais d'un langage indirect ou non prosaïque, avec des résultats très similaires souvent obtenus sur différentes architectures, telles que DALL-E 2 et DALL-E Mini (Craiyon).
Dans le deuxième type d'approche, appelée incitation évocatriceCertains des mots conjoints ont un ton similaire à celui du latin plus juvénile. démontré in La vie de Brian Python (1979).

Ce n’est pas une blague : le faux latin réussit souvent à susciter une réponse significative de la part de DALL-E 2.
L'auteur déclare :
"Une préoccupation évidente avec cette méthode est le contournement des filtres de contenu basés sur des invites sur liste noire. En principe, l'incitation macaronique pourrait fournir un moyen simple et apparemment fiable de contourner ces filtres afin de générer un contenu préjudiciable, offensant, illégal ou autrement sensible, y compris des images violentes, haineuses, racistes, sexistes ou pornographiques, et peut-être des images portant atteinte à propriété intellectuelle ou représentant des personnes réelles.
Les entreprises proposant la génération d'images en tant que service ont pris toutes les précautions nécessaires pour empêcher la génération de tels résultats, conformément à leur politique de contenu. Par conséquent, les invites macaroniques devraient être systématiquement examinées, car elles constituent une menace pour les protocoles de sécurité utilisés pour la génération d'images commerciales.
L'auteur suggère un certain nombre de remèdes contre cette vulnérabilité, dont certains, admet-il, pourraient être considérés comme trop restrictifs.
La première solution possible est la plus onéreuse : organiser plus soigneusement les images d'entraînement source, avec une surveillance plus humaine et moins algorithmique. Cependant, l'article concède que cela n'empêcherait pas le système de synthèse d'images de créer une conjonction offensive entre deux concepts d'image qui sont en eux-mêmes potentiellement inoffensifs.
Deuxièmement, l'article suggère que les systèmes de synthèse d'images pourraient filtrer leurs résultats afin d'intercepter toute association problématique avant qu'ils ne soient transmis à l'utilisateur. Il est possible que DALL-E 2 utilise actuellement un tel filtre, bien qu'OpenAI n'ait pas révélé précisément le fonctionnement de la modération de contenu de DALL-E 2.
Enfin, l'auteur envisage la possibilité d'une « liste blanche de dictionnaires », qui ne permettrait qu'aux mots vérifiés et approuvés de récupérer et de restituer des concepts, mais admet que cela pourrait représenter une restriction excessivement sévère de l'utilité du système.
Bien que le chercheur n'ait expérimenté que cinq langues (anglais, allemand, français, espagnol et italien) pour créer des assemblages rapides, il pense que ce type d'« attaque adverse » pourrait devenir encore plus « cryptique » et difficile à dissuader en étendant le nombre de langues, étant donné que les modèles hyperscale tels que DALL-E 2 sont formés sur plusieurs langues (simplement parce qu'il est plus facile d'utiliser des entrées légèrement filtrées ou « brutes » que de prendre en compte les dépenses énormes liées à leur conservation, et parce que la dimensionnalité supplémentaire est susceptible d'ajouter à l'utilité du système).
Le papier est intitulé Attaques contradictoires sur la génération d'images avec des mots inventés, et vient de Raphaël Millière à Columbia University.
Langage crypté dans DALL-E 2
Il a été suggéré avant que le charabia que DALL-E 2 produit chaque fois qu'il essaie de décrire le langage écrit pourrait en soi être un « vocabulaire caché ». Cependant, les recherches antérieures sur cette langue mystérieuse n'ont offert aucun moyen de développer cordes nonce qui peut évoquer des images spécifiques.
Du précédent travail, le journal indique :
« [Elle] n'offre pas de méthode fiable pour trouver des chaînes de nonce qui suscitent des images spécifiques. La plupart des textes incompréhensibles inclus par DALL-E 2 dans les images ne semblent pas être associés de manière fiable à des concepts visuels spécifiques lorsqu'ils sont transcrits et utilisés comme invite. Cela limite la viabilité de cette approche comme moyen de contourner la modération des contenus préjudiciables ou offensants ; de ce fait, il ne s'agit pas d'un risque particulièrement préoccupant d'utilisation abusive des modèles de génération d'images guidés par le texte. »
Au lieu de cela, les deux méthodes de l'auteur sont élaborées comme des moyens par lesquels le non-sens peut invoquer des images connexes et significatives tout en contournant l'étiquette conventionnelle qui se développe maintenant en ingénierie rapide.
À titre d’exemple, l’auteur considère le mot pour « oiseaux » dans les cinq langues qui sont dans le champ de l’article : Oiseaux en allemand, oiseaux en italien, oiseaux en français, et oiseaux en espagnol.
Avec la collection codage par paire d'octets (BPE) tokenisation utilisée par la mise en œuvre de CLIP c'est des services dans DALL-E 2, les mots sont tokenisés en anglais non accentué et peuvent être « combinés de manière créative » pour former des mots nonce qui nous semblent être du charabia, mais qui conservent leur signification collée pour DALL-E 2, permettant au système d'exprimer l'intention perçue :
Dans l'exemple ci-dessus, deux des mots « étrangers » pour oiseau sont collés ensemble dans une chaîne de non-sens. Grâce au poids fractionnaire des sous-mots, le sens est conservé.
L'auteur souligne que des résultats significatifs peuvent également être obtenus sans respecter les limites de la segmentation des sous-mots, probablement parce que DALL-E 2 (l'étude principale de l'article) s'est suffisamment généralisé pour laisser les limites des sous-mots s'estomper sans détruire leur signification.
Pour démontrer davantage les approches développées, l'article propose des exemples d'incitations macaroniques dans différents domaines, en utilisant la liste de mots symboliques illustrée ci-dessous (avec des mots hybrides absurdes à l'extrême droite).
L'auteur déclare que les exemples suivants de DALL-E 2 ne sont pas « sélectionnés avec soin » :
Lingua franca
Le document observe également que plusieurs de ces exemples fonctionnent aussi bien, ou du moins de manière très similaire, à la fois sur DALL-E 2 et DALL-E Mini (maintenant crayon), et que cela est surprenant, puisque DALL-E 2 est un modèle de diffusion et que DALL-E Mini ne l'est pas ; les deux systèmes sont entraînés sur des ensembles de données différents ; et DALL-E Mini utilise un BART tokenizer au lieu du tokenizer CLIP préféré par DALL-E 2.

Résultats remarquablement similaires de DALL-E Mini, comparés à l'image précédente, qui présentait les résultats de la même entrée « absurde » de DALL-E 2.
Comme le montre la première image ci-dessus, les incitations macaroniques peuvent également être assemblées en phrases syntaxiquement correctes afin de générer des scènes plus complexes. Cependant, cela nécessite l'utilisation de l'anglais comme « échafaudage » pour assembler les concepts, ce qui rend la procédure plus susceptible d'être interceptée par les systèmes de censure standard dans un cadre de synthèse d'images.
L'article observe que l'hybridation lexicale, le « collage » de mots pour obtenir un contenu connexe à partir d'un système de synthèse d'images, peut également être réalisée dans une seule langue, par l'utilisation de mots-valises.
Invite évocatrice
L'approche de « l'incitation évocatrice » présentée dans l'article repose sur « l'évocation » d'une réponse plus large du système avec des mots qui ne sont pas strictement basés sur des sous-mots ou des sous-jetons ou des étiquettes partiellement partagées.
Un type d'incitation évocatrice est le pseudolatin, qui peut, entre autres utilisations, générer des images de médicaments fictifs, même sans aucune spécification selon laquelle DALL-E 2 devrait récupérer le concept de « médicament » :
Les invites évocatrices fonctionnent également particulièrement bien avec les invites absurdes qui se rapportent largement à des emplacements géographiques possibles, et fonctionnent de manière assez fiable sur les différentes architectures de DALL-E 2 et DALL-E Mini :

Les mots utilisés pour ces invites de DALL-E 2 et DALL-E Mini évoquent des noms réels, mais sont en eux-mêmes totalement absurdes. Néanmoins, les systèmes ont « capté l'atmosphère » de ces mots.
Il semble y avoir un croisement entre les incitations macaroniques et évocatrices. Le papier précise :
« Il semble que les différences dans les données de formation, la taille du modèle et l'architecture du modèle peuvent amener différents modèles à analyser des invites comme voiscellpajaraux et eidelucertlagarzard de manière « macaronique » ou « évocatrice », même lorsque ces modèles se révèlent réactifs aux deux méthodes d'invite. »
Le papier conclut :
« Bien que diverses propriétés de ces modèles – y compris la taille, l'architecture, la procédure de tokenisation et les données de formation – puissent influencer leur vulnérabilité aux attaques adverses basées sur du texte, les preuves préliminaires discutées dans ce travail suggèrent que certaines de ces attaques peuvent néanmoins fonctionner de manière assez fiable sur tous les modèles. »
Le principal obstacle à une véritable expérimentation de ces méthodes est sans doute le risque d'être signalé et banni par le système hôte. DALL-E 2 requiert un numéro de téléphone associé à chaque compte utilisateur, ce qui limite le nombre de comptes « burner » susceptibles d'être nécessaires pour véritablement tester les limites de ce type de piratage lexical et contourner les méthodes de modération existantes. Actuellement, la principale protection de DALL-E 2 reste la volatilité des accès.
Première publication le 9 août 2022.
















