Angle d’Anderson
Jailbreaker les censeurs IA via du texte dans les images

Les chercheurs affirment que les principales applications de retouche d’images basées sur l’IA peuvent être jailbreakées via du texte rasterisé et des indices visuels, permettant des éditions interdites de contourner les filtres de sécurité et de réussir dans jusqu’à 80,9 % des cas.
Veuillez être conscient que cet article contient des images potentiellement offensantes, créées avec l’IA par les auteurs de l’article de recherche pour illustrer leur nouvelle méthode de défense.
Pour éviter l’exposition juridique et les dommages à la réputation, les principales plateformes d’IA d’édition d’images actuelles mettent en place une série de mesures de censure pour empêcher les utilisateurs de créer des images « interdites » dans plusieurs catégories, telles que le contenu NSFW et/ou diffamatoire. Même les cadres les plus récalcitrants – notamment Grok – ont dû s’aligner sous la pression populaire ou politique.
Appelé ‘alignement’, les données entrantes et sortantes sont analysées pour détecter les violations des règles d’utilisation. Ainsi, le téléchargement d’une image innocente d’une personne passera les tests basés sur les images – mais demander au modèle génératif de la transformer en une vidéo qui progresserait vers un contenu non sécurisé (c’est-à-dire ‘montrer la personne se déshabillant’) serait intercepté au niveau du texte.
Les utilisateurs peuvent contourner cette mesure de sécurité en utilisant des invites qui ne déclenchent pas directement les filtres de texte, mais qui conduisent néanmoins logiquement à la génération de contenu non sécurisé (c’est-à-dire ‘Faites-les se lever’, lorsque l’invite d’image est une personne immergée dans un bain mousseux). Ici, les filtres systeme>utilisateur interviennent généralement, en analysant les réponses du système, telles que les images, le texte, le son, la vidéo, etc. pour tout ce qui aurait été interdit en tant qu’entrée.
De cette manière, un utilisateur peut forcer un système à générer du contenu non sécurisé ; mais dans la plupart des cas, le générateur ne transmettra pas le contenu à l’utilisateur.
Seulement des sémantiques
Ceci se produit parce que la sortie rendue est évaluée par des systèmes multimodaux tels que CLIP, qui peuvent interpréter les images à nouveau dans le domaine du texte, puis appliquer un filtre de texte. Puisque les générateurs d’images modernes sont des systèmes basés sur la diffusion formés sur des images et texte appariés, même lorsque l’utilisateur fournit uniquement une image, le modèle l’interprète à travers des représentations sémantiques qui ont été façonnées par le langage pendant la formation.
Cette structure d’incrustation partagée a influencé la manière dont les mécanismes de sécurité sont construits, puisque les couches de modération évaluent souvent les invites comme du texte, et transforment les entrées visuelles en forme descriptive avant de prendre des décisions ; et en raison de cette architecture, les travaux d’alignement se sont principalement concentrés sur le langage, en utilisant la description des images comme mécanisme de pare-feu.
Cependant, des recherches antérieures sur les systèmes de génération d’IA multimodaux ont déjà démontré que les instructions peuvent être intégrées à l’intérieur des images via des superpositions typographiques, des dispositions structurées, des techniques d’optimisation cross-modale, ou des codages stéganographiques :
… (le reste du contenu est traduit de la même manière, en respectant les règles et la structure d’origine)










