Angle d’Anderson

La censure des modèles d’IA ne fonctionne pas bien, révèle une étude

Published August 22, 2025

Updated April 2, 2026

Martin Anderson

ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

Les tentatives de censure des générateurs d’images d’IA en effaçant le contenu interdit (tels que la pornographie, la violence ou les styles protégés par le droit d’auteur) des modèles formés sont en défaillance : une nouvelle étude constate que les méthodes actuelles d’effacement de concepts permettent aux attributs « interdits » de se répandre dans des images sans rapport et ne parviennent pas à empêcher l’apparition de versions étroitement liées du contenu « effacé ».

Si les entreprises qui produisent des modèles d’IA de base ne peuvent pas empêcher que ceux-ci soient utilisés à mauvais escient pour produire des matériaux injurieux ou illégaux, elles risquent d’être poursuivies et/ou mises hors service. À l’inverse, les fournisseurs qui ne rendent leurs modèles disponibles que via une API, comme le moteur génératif Firefly d’Adobe, sont en mesure de ne pas s’inquiéter de ce que leurs modèles pourraient créer, puisque la requête de l’utilisateur et la sortie résultante sont inspectées et purifiées :

Le système Firefly d’Adobe, utilisé dans des outils comme Photoshop, refuse parfois une requête générative dès le départ en bloquant la requête avant que quoi que ce soit ne soit créé. D’autres fois, il génère l’image mais bloque le résultat après examen. Ce type de refus en cours de processus peut également se produire dans ChatGPT, lorsque le modèle commence une réponse mais l’interrompt après avoir reconnu une violation de politique – et occasionnellement, on peut apercevoir l’image avortée brièvement pendant ce processus.

Cependant, les filtres de type API de ce type peuvent généralement être neutralisés par les utilisateurs sur des modèles installés localement, y compris les modèles vision-langage (VLM) que l’utilisateur peut souhaiter personnaliser grâce à une formation locale sur des données personnalisées.

Dans la plupart des cas, la désactivation de ces opérations est triviale, ce qui implique de commenter une appel de fonction en Python (bien que des hacks de ce type doivent généralement être répétés ou réinventés après les mises à jour de framework).

D’un point de vue commercial, il est difficile de comprendre comment cela pourrait être un problème, puisque l’approche API maximise le contrôle corporatif sur le flux de travail de l’utilisateur. Cependant, du point de vue de l’utilisateur, les coûts des modèles API uniquement et le risque de censure erronée ou excessive sont susceptibles de les inciter à télécharger et à personnaliser des installations locales de solutions open source alternatives – au moins, lorsque la licence FOSS est favorable.

Le dernier modèle important à être publié sans aucune tentative d’incrustation d’auto-censure était Stable Diffusion V1.5, il y a presque trois ans. Plus tard, la révélation que ses corpus de formation comprenaient des données de CSAM a conduit à des appels croissants à interdire sa disponibilité, et à son retrait du référentiel Hugging Face en 2024.

Coupez-le !

Les cyniques soutiennent qu’un intérêt d’une entreprise à censurer les modèles d’IA génératifs installables localement est basé uniquement sur des préoccupations en matière d’exposition juridique, si leurs cadres deviennent publics pour faciliter du contenu illégal ou injurieux.

En effet, certains modèles open source « amicaux pour les locaux » ne sont pas difficiles à décensurer (tels que Stable Diffusion 1.5 et DeepSeek R1).

En revanche, la publication récente de la série de modèles Kontext de Black Forest Lab’s Flux Kontext a été marquée par l’engagement notable de l’entreprise à expurger l’ensemble de la gamme Kontext. Cela a été réalisé à la fois par une curation de données soigneuse et par un affinage ciblé après la formation, conçu pour supprimer toute tendance résiduelle vers le contenu NSFW ou interdit.

C’est là que le lieu d’action a été dans la scène de recherche au cours des 2-3 dernières années : avec un accent sur la réparation après-coup des modèles avec des données sous-curées. Les offres de ce type incluent Unified Concept Editing in Diffusion Models (UCE) ; Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models (RECE) ; Mass Concept Erasure in Diffusion Models (MACE) ; et concept-Semi-Permeable structure is injected as a Membrane (SPM) :

L’article de 2024 « Unified Concept Editing in Diffusion Models » a proposé des éditions de formes fermées aux poids d’attention, permettant une édition efficace de plusieurs concepts dans les modèles d’image à texte. Mais la méthode résiste-t-elle à l’examen ? Source : https://arxiv.org/pdf/2308.14761

Bien que cela soit une approche efficace (les collections hyperscale telles que LAION sont beaucoup trop grandes pour être curées manuellement), elle n’est pas nécessairement efficace : selon une nouvelle étude américaine, aucune des procédures d’édition mentionnées – qui représentent l’état de l’art dans la modification des modèles d’IA après la formation – ne fonctionne vraiment bien.

Les auteurs ont constaté que ces Techniques d’Effacement de Concepts (CET) peuvent généralement être facilement contournées, et que même lorsqu’elles sont efficaces, elles ont des effets secondaires considérables :

Effets de l’effacement de concepts sur les modèles d’image à texte. Chaque colonne montre une requête et le concept marqué pour l’effacement, ainsi que les sorties générées avant et après l’édition. Les hiérarchies indiquent les relations parent-enfant entre les concepts. Les exemples mettent en évidence les effets secondaires courants, notamment l’échec de l’effacement des concepts enfants, la suppression des concepts voisins, l’évasion par rewording et le transfert des attributs effacés à des objets non liés.

Les auteurs ont constaté que les techniques d’effacement de concepts actuelles ne parviennent pas à bloquer les requêtes compositionnelles (par exemple, voiture rouge ou chaise en bois petite) ; qu’elles laissent souvent passer les sous-classes même après avoir effacé une catégorie parente (comme voiture ou bus continuant à apparaître après la suppression de véhicule) ; et introduisent de nouveaux problèmes tels que la fuite d’attributs (où, par exemple, la suppression de canapé bleu pourrait amener le modèle à générer des objets non liés tels qu’un fauteuil bleu).

Dans plus de 80 % des cas de test, l’effacement d’un concept large tel que véhicule n’a pas empêché le modèle de générer des instances de véhicule plus spécifiques telles que des voitures ou des bus.

L’édition, observe l’article, provoque également la dispersion des cartes d’attention (les parties du modèle qui décident où se concentrer dans l’image), affaiblissant ainsi la qualité de la sortie.

Intéressant, l’article constate que l’effacement de concepts liés formés un par un fonctionne mieux que la tentative de les supprimer tous à la fois – même s’il ne supprime pas tous les défauts des méthodes d’édition étudiées :

Comparaison des stratégies d’effacement progressives et simultanées. Lorsque toutes les variantes de « ours en peluche » sont effacées simultanément, le modèle continue de générer des objets ressemblant à des ours. L’effacement des variantes étape par étape est plus efficace, amenant le modèle à supprimer le concept cible de manière plus fiable.

Bien que les chercheurs ne puissent actuellement offrir aucune solution aux problèmes que l’article souligne, ils ont élaboré un nouveau jeu de données et une référence qui pourraient aider les projets de recherche ultérieurs à comprendre si leurs propres modèles « censurés » fonctionnent comme prévu.

L’article indique :

« Les évaluations précédentes se sont appuyées uniquement sur un petit ensemble de classes cibles et de classes à préserver ; par exemple, lors de l’effacement de « voiture », seule la capacité du modèle à générer des voitures est testée. Nous démontrons que cette approche est fondamentalement inadéquate et que l’évaluation de l’effacement de concepts devrait être plus complète pour englober tous les sous-concepts liés, tels que « voiture rouge ».

« En introduisant un jeu de données diversifié avec des variations compositionnelles et en analysant systématiquement les effets tels que l’impact sur les concepts voisins, l’évasion de concepts et la fuite d’attributs, nous découvrons des limitations et des effets secondaires importants des CET existants.

« Notre référence est agnostique par rapport au modèle et facile à intégrer et est idéalement adaptée pour aider le développement de nouvelles Techniques d’Effacement de Concepts (CET). »

Bien que les CET effacent le concept cible « oiseau », elles échouent sur la variante compositionnelle « oiseau rouge » (haut). Après avoir effacé « canapé bleu », toutes les méthodes perdent également la capacité de générer une chaise bleue (bas). Les résultats réussis sont marqués d’un symbole de coche verte, et les échecs d’un symbole de croix rouge.

L’étude offre une perspective intéressante sur l’étendue de l’interrelation des concepts formés dans l’espace latent d’un modèle, et sur l’étendue à laquelle l’entrelacement ne permettra pas facilement d’effacement de concept définitif et vraiment discret.

L’article est intitulé Effets secondaires de l’effacement de concepts des modèles de diffusion, et provient de quatre chercheurs de l’Université du Maryland.

Méthode et données

Les auteurs estiment que les travaux antérieurs qui prétendent effacer des concepts des modèles de diffusion ne prouvent pas cette affirmation de manière suffisante, en déclarant* :

« Les allégations d’effacement nécessitent une évaluation plus robuste et plus complète. Par exemple, si le concept à effacer est « véhicule », les sous-concepts tels que « voiture » et les concepts compositionnels tels que « voiture rouge » ou « petite voiture » devraient également être effacés.

« Cependant, cet aspect de la hiérarchie et de la compositionnalité des concepts n’est pas pris en compte dans les protocoles d’évaluation existants, car ils se concentrent uniquement sur la précision du seul concept effacé. [Les auteurs de EraseBench] évaluent comment les CET affectent les concepts visuellement similaires et paraphrasés (tels que « chat » et « chaton »)[;] cependant, ils n’examinent pas de manière exhaustive la hiérarchie et la compositionnalité des concepts.’

Afin de fournir des données de référence pour les projets futurs, les auteurs ont créé le jeu de données Side Effect Evaluation (SEE) – une grande collection de requêtes textuelles conçues pour tester comment les méthodes d’effacement de concepts fonctionnent.

Les requêtes suivent un modèle simple dans lequel un objet est décrit avec des attributs de taille, de couleur et de matériau – par exemple, une image d’une petite voiture rouge en bois.

Les objets ont été tirés du jeu de données MS-COCO, et organisés dans une hiérarchie de superclasses telles que véhicule, et de sous-classes telles que voiture ou bus, avec leurs combinaisons d’attributs formant les nœuds feuilles (le niveau le plus spécifique de la hiérarchie). Cette structure permet de tester l’effacement à différents niveaux sémantiques, des catégories larges aux variantes spécifiques.

Pour soutenir l’évaluation automatisée, chaque requête a été associée à une question oui/non, telle que Y a-t-il une voiture dans l’image ?, et également utilisée comme étiquette de classe pour les modèles de classification d’images :

Combinaisons de requêtes dans le jeu de données SEE générées en variant les attributs de taille, de couleur et de matériau.

Pour mesurer comment chaque méthode d’effacement de concepts se comportait, les auteurs ont conçu deux méthodes de notation : précision cible, qui suit combien de fois les concepts effacés apparaissent encore dans les images générées ; et précision de préservation, qui suit si le modèle continue de générer du matériel qui n’était pas censé être effacé.

L’équilibre entre les deux scores est destiné à révéler si la méthode supprime avec succès le concept interdit sans endommager la sortie plus large du modèle.

Les auteurs ont évalué l’effacement de concepts à travers trois modes de défaillance : premièrement, une mesure de savoir si la suppression d’un concept tel que voiture perturbe des concepts voisins ou non liés, sur la base de la similarité sémantique et de la distance compositionnelle ; deuxièmement, un test pour savoir si l’effacement peut être contourné en utilisant des sous-concepts tels que voiture rouge après avoir supprimé véhicule ;

Enfin, un contrôle a été effectué pour la fuite d’attributs, où les traits liés à un concept effacé apparaissent dans d’autres parties de l’image.

Le jeu de données final contient 5056 requêtes compositionnelles

Tests

Les cadres précédents testés étaient ceux mentionnés précédemment – UCE, RECE, MACE et SPM. Les chercheurs ont adopté les paramètres par défaut des projets originaux, et ont affiné tous les modèles sur un GPU NVIDIA RTX 6000 avec 48 Go de VRAM.

Stable Diffusion 1.4, l’un des modèles les plus perpétuels dans la littérature, a été utilisé pour tous les tests – peut-être pas seulement parce que les premiers modèles SD avaient peu ou pas de contrainte conceptuelle, et qu’ils offrent donc une page blanche dans ce contexte de recherche particulier.

Chacune des 5056 requêtes du jeu de données SEE a été exécutée sur les versions non éditées et éditées du modèle, générant quatre images par requête en utilisant des graines aléatoires fixes, permettant de tester si les effets d’effacement restaient constants à travers plusieurs sorties. Chaque modèle édité a produit un total de 20 224 images.

La présence de concepts préservés a été évaluée selon des méthodes antérieures pour les procédures d’effacement d’image à texte, en utilisant les modèles VQA BLIP, QWEN 2.5 VL et Florence-2base.

Impact sur les concepts voisins

Le premier test a mesuré si l’effacement d’un concept affectait involontairement des concepts voisins. Par exemple, après avoir supprimé voiture, le modèle devrait arrêter de générer voiture rouge ou voiture grande, mais devrait toujours être capable de générer des concepts liés tels que bus ou camion, et des concepts non liés tels que fourchette.

L’analyse a utilisé la similarité d’incrustation CLIP et la distance d’édition basée sur les attributs pour estimer à quel point chaque concept était proche du concept cible effacé, permettant ainsi à l’étude de quantifier à quel point la perturbation s’étendait :

Résultats combinés pour la précision cible (gauche) et la précision de préservation (droite) tracés en fonction de la similarité sémantique (haut) et de la distance compositionnelle (bas). Une méthode d’effacement de concept idéale montrerait une faible précision cible et une haute précision de préservation à toutes les distances; mais les résultats montrent que les techniques actuelles ne parviennent pas à généraliser de manière propre, avec des concepts plus proches soit insuffisamment effacés, soit disproportionnellement perturbés.

Sur ces résultats, les auteurs commentent :

« Toutes les CET continuent de générer des variantes compositionnelles ou sémantiquement éloignées du concept cible, malgré l’effacement, ce qui idéalement ne devrait pas se produire. Il est évident que l’UCE atteint régulièrement une précision plus élevée que les autres méthodes CET sur l’ensemble [de préservation], indiquant un impact minimal sur les concepts sémantiquement liés.

« En revanche, le SPM atteint la précision la plus basse, suggérant que sa stratégie d’édition est plus susceptible à la similarité de concepts ».

Parmi les quatre méthodes testées, la RECE a été la plus efficace pour bloquer le concept cible. Cependant, comme le montre le côté gauche de l’image ci-dessus, toutes les méthodes ont échoué à supprimer les variantes compositionnelles. Après avoir effacé oiseau, le modèle a toujours produit des images d’un oiseau rouge, suggérant que le concept est resté partiellement intact.

La suppression de canapé bleu a également empêché le modèle de générer un fauteuil bleu, indiquant une atteinte aux concepts voisins.

La RECE a mieux géré les variantes compositionnelles que les autres, tandis que l’UCE a mieux préservé les concepts liés.

Effacement d’invasion

Le test d’effacement d’invasion a évalué si les modèles pouvaient toujours générer des concepts de sous-classes après que leur superclasse ait été effacée. Par exemple, si véhicule a été supprimé, le test a vérifié si le modèle pouvait toujours produire des sorties telles que bicyclette ou voiture rouge.

Les requêtes ciblaient à la fois les sous-classes directes et les variantes compositionnelles pour déterminer si l’opération d’effacement de concept avait vraiment supprimé l’ensemble de la hiérarchie ou pouvait être contournée par des descriptions plus spécifiques :

Contournement des superclasses effacées par leurs sous-classes et variantes compositionnelles sur Stable Diffusion v1.4, avec une précision plus élevée indiquant une plus grande évasion.

Le modèle non édité a conservé une précision élevée dans toutes les superclasses, confirmant qu’il n’avait pas supprimé les concepts cibles. Parmi les CET, la MACE a montré la moins d’évasion, atteignant la plus basse précision de sous-classe dans plus de la moitié des catégories testées. La RECE a également bien performé, en particulier dans les groupes accessoire, sports et électronique.

En revanche, l’UCE et le SPM ont montré une précision de sous-classe plus élevée, indiquant que les concepts effacés étaient plus facilement contournés par des requêtes liées ou imbriquées.