Angle d'Anderson

La censure des modèles d'IA ne fonctionne pas bien, révèle une étude

Publié August 22, 2025

Martin Anderson

ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

Les tentatives de censure des générateurs d'images IA en effaçant le contenu interdit (tel que la pornographie, la violence ou les styles protégés par le droit d'auteur) des modèles formés échouent : une nouvelle étude révèle que les méthodes actuelles d'effacement de concepts permettent aux attributs « interdits » de se répandre dans des images sans rapport, et ne parviennent pas non plus à empêcher l'apparition de versions étroitement liées du contenu supposément « effacé ».

Si les entreprises qui produisent des modèles d'IA fondamentaux ne peuvent empêcher leur utilisation abusive pour produire du contenu répréhensible ou illégal, elles risquent d'être poursuivies et/ou fermées. À l'inverse, les fournisseurs qui ne mettent leurs modèles qu'à disposition via une API, comme avec Adobe Luciole moteur génératif, sont en mesure de ne pas s'inquiéter de ce que leurs modèles pourraient créer, puisque l'invite de l'utilisateur et la sortie résultante sont inspectées et nettoyées :

Le système Firefly d'Adobe, utilisé dans des outils comme Photoshop, refuse parfois d'emblée une requête générative en bloquant l'invite avant toute création. D'autres fois, il génère l'image, mais bloque le résultat après vérification. Ce type de refus en cours de processus peut également se produire dans ChatGPT, lorsque le modèle lance une réponse, mais l'interrompt après avoir détecté une violation de politique. Il arrive parfois que l'image interrompue soit brièvement visible pendant ce processus.

Cependant, les filtres de type API de ce type peuvent généralement être neutralisés par les utilisateurs sur des modèles installés localement, y compris les modèles de langage de vision (VLM) que l'utilisateur peut souhaiter personnaliser via une formation locale sur des données personnalisées.

Dans la plupart des cas, la désactivation de telles opérations est triviale, impliquant la mise en commentaire d'un appel de fonction en Python (bien que les hacks de ce type doivent généralement être répétés ou réinventés après les mises à jour du framework).

D'un point de vue commercial, il est difficile de comprendre en quoi cela pourrait poser problème, car une approche API maximise le contrôle de l'entreprise sur le flux de travail de l'utilisateur. Du point de vue de l'utilisateur, cependant, le coût des modèles basés uniquement sur API et le risque de censure erronée ou excessive risquent de le contraindre à télécharger et personnaliser des installations locales d'alternatives open source, du moins lorsque les licences FOSS sont avantageuses.

Le dernier modèle significatif à être publié sans aucune tentative d’autocensure était Stable Diffusion V1.5, il y a presque trois ans. Plus tard, la révélation que ses corpus de formation données CSAM incluses a conduit à des appels croissants pour interdire sa disponibilité, et son enlèvement du référentiel Hugging Face en 2024.

Arrêtez-le !

Les cyniques soutiennent que l'intérêt d'une entreprise à censurer les modèles d'IA génératifs installables localement est basé uniquement sur des préoccupations à propos de l'exposition légale, si leurs cadres sont rendus publics pour avoir facilité la diffusion de contenus illégaux ou répréhensibles.

En effet, certains modèles open source « adaptés aux environnements locaux » ne sont pas si difficiles à décensurer (comme Diffusion stable 1.5 ou DeepSeek R1).

En revanche, la récente sortie de Flux de Black Forest Lab Série de modèles Kontext a été marquée par la engagement notableà simplifier l'ensemble de la gamme Kontext. Ce résultat a été obtenu grâce à une sélection rigoureuse des données et à des actions ciblées. réglage fin après une formation, conçue pour éliminer toute tendance résiduelle vers le contenu NSFW ou interdit.

C'est là que se situe l'action principale de la recherche depuis deux ou trois ans : l'accent est mis sur la correction a posteriori des modèles à partir de données insuffisamment organisées. Parmi les offres de ce type, on peut citer : Édition de concepts unifiés dans les modèles de diffusion (ECU); Effacement fiable et efficace des concepts des modèles de diffusion texte-image (PRIER); Effacement du concept de masse dans les modèles de diffusion (MACE); et concept-Structure semi-perméable injectée sous forme de membrane (SPM):

L'article de 2024 « Unified Concept Editing in Diffusion Models » proposait des modifications détaillées des pondérations d'attention, permettant une édition efficace de plusieurs concepts dans les modèles texte-image. Mais cette méthode résiste-t-elle à un examen approfondi ? Source : https://arxiv.org/pdf/2308.14761

Bien qu’il s’agisse d’une approche efficace (collections à grande échelle telles que LAION (bien que les fichiers soient bien trop volumineux pour être triés manuellement), ce n'est pas nécessairement une méthode efficace : selon une nouvelle étude américaine, aucune des procédures d'édition susmentionnées - qui représentent l'état de l'art en matière de modification de modèles d'IA post-formation - ne fonctionne réellement très bien.

Les auteurs ont constaté que ces techniques d’effacement de concepts (CET) peuvent généralement être facilement contournées et que même lorsqu’elles sont efficaces, elles ont des effets secondaires considérables :

Effets de l'effacement de concepts sur les modèles texte-image. Chaque colonne présente une invite et le concept marqué pour effacement, ainsi que les sorties générées avant et après modification. Les hiérarchies indiquent les relations parent-enfant entre les concepts. Les exemples mettent en évidence les effets secondaires courants, notamment l'échec de l'effacement des concepts enfants, la suppression des concepts voisins, l'évasion par reformulation et le transfert des attributs effacés vers des objets non liés. Source : https://arxiv.org/pdf/2508.15124

Les auteurs ont constaté que les principales techniques actuelles d’effacement de concepts ne parviennent pas à bloquer invites de composition (par exemple, voiture rouge or petite chaise en bois); laissent souvent passer des sous-classes même après avoir effacé une catégorie parente (comme fournisseur or bus continue d'apparaître après la suppression véhicule.); et introduisent de nouveaux problèmes tels que la fuite d'attributs (où, par exemple, la suppression canapé bleu pourrait amener le modèle à générer des objets non liés tels que chaise bleue).

Dans plus de 80 % des cas de test, l’effacement d’un concept large tel que véhicule. n'a pas empêché le modèle de générer des données plus spécifiques véhicule. des cas tels que des voitures ou des bus.

L'édition, observe le journal, est également à l'origine cartes d'attention (les parties du modèle qui décident où se concentrer dans l'image) se dispersent, affaiblissant la qualité de sortie.

Il est intéressant de noter que l’étude révèle que l’effacement un par un des concepts entraînés apparentés fonctionne mieux que d’essayer de les supprimer tous en même temps – bien que cela ne supprime pas toutes les lacunes des méthodes d’édition étudiées :

Comparaison des stratégies d'effacement progressif et global. Lorsque toutes les variantes du mot « ours en peluche » sont effacées simultanément, le modèle continue de générer des objets ressemblant à des ours. L'effacement progressif des variantes est plus efficace, permettant au modèle de supprimer le concept cible de manière plus fiable.

Bien que les chercheurs ne puissent actuellement proposer aucune solution aux problèmes décrits dans l'article, ils ont développé un nouvel ensemble de données et une nouvelle référence qui pourraient aider les projets de recherche ultérieurs à comprendre si leurs propres modèles « censurés » fonctionnent comme prévu.

Le papier déclare:

Les évaluations précédentes reposaient uniquement sur un petit ensemble de classes cibles et de classes de préservation ; par exemple, lors de l'effacement de « voiture », seule la capacité du modèle à générer des voitures est testée. Nous démontrons que cette approche est fondamentalement inadéquate et que l'évaluation de l'effacement de concepts devrait être plus complète pour englober tous les sous-concepts associés, tels que « voiture rouge ».

« En introduisant un ensemble de données diversifié avec des variations de composition et en analysant systématiquement les effets tels que l'impact sur les concepts voisins, l'évasion conceptuelle et la fuite d'attributs, nous découvrons des limites et des effets secondaires importants des CET existants.

« Notre benchmark est indépendant du modèle et facilement intégrable et est idéalement adapté pour aider au développement de nouvelles techniques d'effacement de concepts (CET). »

Bien que les CET suppriment le concept cible « oiseau », ils échouent sur la variante compositionnelle « oiseau rouge » (en haut). Après avoir supprimé « canapé bleu », toutes les méthodes perdent également la capacité de générer une chaise bleue (en bas). Les résultats positifs sont indiqués par une coche verte et les échecs par une croix rouge.

Bien que les CET effacent le concept cible « oiseau », ils échouent sur la variante compositionnelle « oiseau rouge » (en haut). Après avoir effacé « canapé bleu », toutes les méthodes perdent également la possibilité de générer une chaise bleue (en bas). Les résultats positifs sont indiqués par une coche verte et les échecs par un « X » rouge.

L'étude offre un aperçu intéressant de l'étendue de l'entrelacement des concepts formés dans le modèle. espace latent, et dans quelle mesure enchevêtrement ne permettra pas facilement un quelconque effacement de concept définitif et véritablement discret.

Les nouveau papier est intitulé Effets secondaires de l'effacement des concepts des modèles de diffusion, et provient de quatre chercheurs de l'Université du Maryland.

Méthode et données

Les auteurs estiment que les travaux antérieurs qui prétendent effacer des concepts des modèles de diffusion ne prouvent pas cette affirmation de manière adéquate, affirmant* :

Les demandes d'effacement nécessitent une évaluation plus rigoureuse et plus complète. Par exemple, si le concept à effacer est « véhicule », des sous-concepts tels que « voiture » et des concepts de composition tels que « voiture rouge » ou « petite voiture » doivent également être effacés.

« Pourtant, cet aspect de la hiérarchie des concepts et de la compositionnalité n'est pas pris en compte dans les protocoles d'évaluation existants, car ils se concentrent uniquement sur l'exactitude du concept unique effacé. [Les auteurs de EraseBench] évaluer l'impact des CET sur des concepts visuellement similaires et paraphrasés (tels que « chat » et « chaton »)[;] cependant, ils ne sondent pas de manière exhaustive la hiérarchie et la compositionnalité des concepts.

Afin de fournir des données de référence pour les projets futurs, les auteurs ont créé le Évaluation des effets secondaires Ensemble de données (SEE) – une vaste collection d’invites textuelles conçues pour tester l’efficacité des méthodes d’effacement de concepts.

Les invites suivent un modèle simple dans lequel un objet est décrit avec des attributs de taille, de couleur et de matériau – par exemple, une image d'une petite voiture en bois rouge.

Les objets ont été dessinés à partir du MS-COCO ensemble de données et organisé en une hiérarchie de superclasses telles que véhicule., et des sous-classes telles que fournisseur or bus, leurs combinaisons d'attributs formant les nœuds feuilles (le niveau le plus spécifique de la hiérarchie). Cette structure permet de tester l'effacement à différents niveaux sémantiques, des catégories générales aux variantes spécifiques.

Pour soutenir l'évaluation automatisée, chaque invite était associée à une question par oui ou par non, telle que Y a-t-il une voiture sur l'image ?, et également utilisé comme étiquette de classe pour les modèles de classification d'images :

Combinaisons rapides dans l'ensemble de données SEE générées en variant les attributs de taille, de couleur et de matériau.

Pour mesurer l’efficacité de chaque méthode d’effacement de concept, les auteurs ont conçu deux méthodes de notation : Précision de la cible, qui suit la fréquence à laquelle les concepts effacés apparaissent encore dans les images générées ; et Préserver l'exactitude, qui permet de savoir si le modèle continue de générer du matériel qui n'était pas censé être effacé.

L'équilibre entre les deux scores vise à révéler si la méthode supprime avec succès le concept interdit sans endommager le résultat plus large du modèle.

Les auteurs ont évalué l'effacement de concepts selon trois modes d'échec : premièrement, une mesure permettant de déterminer si la suppression d'un concept tel que fournisseur perturbe les concepts proches ou non liés, en fonction de la similarité sémantique et des attributs ; deuxièmement, un test pour savoir si l'effacement peut être contourné en incitant des sous-concepts tels que voiture rouge après la suppression véhicule..

Enfin, une vérification a été effectuée pour détecter les fuites d'attributs, où les traits liés à des concepts effacés apparaissent dans des objets sans rapport (par exemple, la suppression canapé pourrait provoquer un autre objet, tel qu'un plante en pot, pour hériter de sa couleur ou de sa matière). L'ensemble de données final contient 5056 invites de composition.

Tests

Les frameworks précédemment testés étaient ceux listés précédemment : UCE, RECE, MACE et SPM. Les chercheurs ont adopté les paramètres par défaut des projets originaux et ont peaufiné tous les modèles sur un GPU NVIDIA RTX 6000 avec 48 Go de VRAM.

Stable Diffusion 1.4, l’un des modèles les plus pérennes de la littérature, a été utilisé pour tous les tests – peut-être notamment parce que les premiers modèles SD avaient peu ou pas de contraintes conceptuelles et, en tant que tels, offrent une ardoise vierge dans ce contexte de recherche particulier.

Chacune des 5056 invites de l'ensemble de données SEE a été exécutée à la fois sur les versions non éditées et éditées du modèle, générant quatre images par invite à l'aide de graines aléatoires, permettant de tester si les effets d'effacement restaient cohérents sur plusieurs sorties. Chaque modèle édité a produit un total de 20,224 XNUMX images.

La présence de concepts préservés a été évaluée selon les méthodes antérieures pour les procédures d'effacement de texte en image, en utilisant les modèles VQA SPOT, QWEN 2.5 VL Florence-2base.

Impact sur les concepts voisins

Le premier test a mesuré si l'effacement d'un concept affectait involontairement les concepts voisins. Par exemple, après suppression fournisseur, le modèle devrait arrêter de générer voiture rouge or grande voiture. mais toujours être capable de générer des concepts connexes tels que bus or camion, et d'autres sans rapport tels que fourche.

L'analyse utilisée CLIP intégration de la similarité et de la distance d'édition basée sur les attributs pour estimer la proximité de chaque concept par rapport à la cible effacée, permettant à l'étude de quantifier l'étendue de la propagation de la perturbation :

Résultats combinés pour la précision de la cible (à gauche) et la précision de la préservation (à droite) représentés en fonction de la similarité sémantique (en haut) et de la distance compositionnelle (en bas). Une méthode idéale d'effacement des concepts présenterait une faible précision de la cible et une précision de la préservation élevée sur toutes les distances ; cependant, les résultats montrent que les techniques actuelles ne parviennent pas à généraliser clairement, les concepts les plus proches étant soit insuffisamment effacés, soit perturbés de manière disproportionnée.

De ces résultats, les auteurs commentent :

« Tous les CET continuent de générer des variantes compositionnelles ou sémantiquement distantes de la cible malgré l'effacement, qui idéalement ne devrait pas se produire. Il est évident que l'UCE atteint systématiquement une précision supérieure à celle des autres méthodes CET sur l'ensemble préservé, ce qui indique un impact involontaire minimal sur les concepts sémantiquement liés. »

« En revanche, SPM atteint la précision la plus faible, ce qui suggère que sa stratégie d’édition est plus sensible à la similarité des concepts. »

Parmi les quatre méthodes testées, la méthode RECE s'est avérée la plus efficace pour bloquer le concept cible. Cependant, comme le montre la partie gauche de l'image ci-dessus, aucune méthode n'a réussi à supprimer les variantes compositionnelles. Après effacement oiseau, le modèle produisait toujours des images d'un oiseau rouge, suggérant que le concept restait partiellement intact.

Cette technologie permet de retirer toutes traces de maquillages ou bactéries. canapé bleu a également empêché le modèle de générer un chaise bleue, indiquant un préjudice aux concepts voisins.

RECE a mieux géré les variantes de composition que les autres, tandis que UCE a fait un meilleur travail de préservation des concepts connexes.

Invasion par effacement

Le test d'évasion d'effacement a évalué si les modèles pouvaient encore générer des concepts de sous-classe après l'effacement de leur superclasse. Par exemple, si véhicule. a été supprimé, le test a vérifié si le modèle pouvait encore produire des sorties telles que vélo or voiture rouge.

Les invites ciblaient à la fois les sous-classes directes et les variantes compositionnelles pour déterminer si l'opération d'effacement du concept avait réellement supprimé la hiérarchie complète ou pouvait être contournée par des descriptions plus spécifiques :

Sur Stable Diffusion v1.4, contournement des superclasses effacées par leurs sous-classes et variantes de composition, avec une précision plus élevée indiquant une plus grande évasion.

Le modèle non édité a conservé une grande précision dans toutes les superclasses, confirmant qu'il avait pas ont supprimé tous les concepts cibles. Parmi les CET, MACE a montré le moins d'évasion, atteignant la plus faible précision de sous-classe dans plus de la moitié des catégories testées. RECE a également obtenu de bons résultats, en particulier dans accessoire, le sport papier groupes.

En revanche, l'UCE et le SPM ont montré une précision de sous-classe plus élevée, indiquant que les concepts effacés étaient plus facilement contournés par des invites liées ou imbriquées.

Les auteurs notent:

[Tous les] CET suppriment avec succès le concept de superclasse cible (« nourriture »). Cependant, lorsqu'elles sont invitées à utiliser des enfants de la hiérarchie alimentaire basés sur des attributs (par exemple, une grande pizza), toutes les méthodes génèrent des aliments.

« De même dans véhicule. catégorie, tous les modèles génèrent des vélos, malgré l'effacement de « véhicule ».

Fuite d'attributs

Le troisième test, la fuite d’attributs, a vérifié si des traits liés à un concept effacé apparaissaient dans d’autres parties de l’image.

Par exemple, après avoir effacé canapéLe modèle ne doit ni générer de canapé ni appliquer ses attributs habituels (comme la couleur ou le matériau) à des objets sans rapport dans la même invite. Ceci a été mesuré en invitant le modèle avec des objets appariés et en vérifiant si les attributs effacés apparaissaient par erreur dans des concepts conservés :

Cartes d'attention pour les jetons d'attribut après effacement du concept. À gauche : Lorsque « banc » est effacé, le jeton « bois » se déplace vers l'oiseau, ce qui donne des oiseaux en bois. À droite : L'effacement de « canapé » ne supprime pas la génération de canapé, tandis que le jeton « grand » est attribué à tort au beignet.

RECE s'est avérée la méthode la plus efficace pour effacer les attributs cibles, mais elle a également introduit le plus de fuites d'attributs dans les invites conservées, surpassant même le modèle non édité. La méthode UCE a moins fuité que les autres méthodes.

Les résultats, suggèrent les auteurs, indiquent la nécessité d’un compromis inhérent, un effacement plus fort augmentant le risque de transfert d’attributs mal dirigé.

Conclusion

L'espace latent d'un modèle ne se remplit pas de manière ordonnée pendant la formation, avec des concepts dérivés déposés soigneusement sur des étagères ou dans des classeurs ; les inclusions formées sont plutôt à la fois le contenu et leurs conteneurs : non séparés par des frontières strictes, mais se fondant plutôt les uns dans les autres d'une manière qui rend le retrait problématique - comme essayer d'extraire une livre de chair sans aucune perte de sang.

Dans les systèmes intelligents et en évolution, les événements fondamentaux – comme se brûler les doigts et traiter ensuite le feu avec respect – sont liés aux comportements et aux associations qu’ils forment plus tard, ce qui rend difficile la production d’un modèle qui aurait pu être laissé avec les corollaires d’un concept central, potentiellement « interdit », mais qui manquerait de ce concept en lui-même.

* Ma conversion des citations en ligne des auteurs en hyperliens.

Première publication le vendredi 22 août 2025

Rubriques connexes:Image IA Génération d'images IA Générateurs d'images IA Jailbreaks IA la censure piratage LVLM modèle de langage de vision

Le mirage du raisonnement de l'IA : pourquoi la chaîne de pensée n'est peut-être pas ce que nous pensons

Ne manquez pas

Pourquoi les concours deviennent la nouvelle norme pour tester l'IA

Martin Anderson

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai