Angle dâAnderson
La censure des modĂšles d’IA ne fonctionne pas bien, rĂ©vĂšle une Ă©tude

Les tentatives de censurer les générateurs d’images d’IA en effaçant le contenu interdit (comme la pornographie, la violence ou les styles protégés par le droit d’auteur) des modèles formés sont vouées à l’échec : une nouvelle étude constate que les méthodes actuelles d’effacement de concepts permettent aux attributs « interdits » de se répandre dans des images non liées et ne parviennent pas à empêcher l’apparition de versions étroitement liées du contenu supposé « effacé ».
Si les entreprises qui produisent des modèles d’IA de base ne peuvent pas empêcher que ceux-ci soient utilisés pour produire du contenu objet de réprobation ou illégal, elles risquent d’être poursuivies et/ou mises hors service. Inversement, les fournisseurs qui ne rendent leurs modèles disponibles que via une API, comme le moteur de génération d’Adobe Firefly, sont dans une position où ils ne s’inquiètent pas de ce que leurs modèles pourraient créer, car à la fois la invite de l’utilisateur et la sortie résultante sont inspectées et nettoyées :

Le système Firefly d’Adobe, utilisé dans des outils comme Photoshop, refuse parfois une demande de génération dès le départ en bloquant l’invite avant que quoi que ce soit ne soit créé. D’autres fois, il génère l’image mais bloque ensuite le résultat après examen. Ce type de refus en cours de processus peut également se produire dans ChatGPT, lorsque le modèle commence une réponse mais l’interrompt après avoir reconnu une violation de la politique – et occasionnellement, on peut voir l’image avortée brièvement pendant ce processus.
Cependant, les filtres de type API de ce type peuvent généralement être neutralisés par les utilisateurs sur des modèles installés localement, y compris les modèles de vision-langage (VLM) que l’utilisateur peut souhaiter personnaliser grâce à une formation locale sur des données personnalisées.
La plupart du temps, la désactivation de ces opérations est triviale, impliquant le commentaire d’un appel de fonction en Python (bien que des hacks de ce type doivent généralement être répétés ou réinventés après les mises à jour du framework).
D’un point de vue commercial, il est difficile de comprendre comment cela pourrait être un problème, puisque l’approche API maximise le contrôle de l’entreprise sur le flux de travail de l’utilisateur. Cependant, du point de vue de l’utilisateur, les coûts des modèles API uniquement et le risque de censure erronée ou excessive sont susceptibles de les inciter à télécharger et à personnaliser des installations locales d’alternatives open source – du moins, lorsque la licence FOSS est favorable.
Le dernier modèle important à être publié sans aucune tentative d’incorporer l’auto-censure était Stable Diffusion V1.5, il y a presque trois ans. Plus tard, la révélation que ses corpus de formation contenaient des données CSAM a conduit à des appels croissants à interdire sa disponibilité, et à son retrait du référentiel Hugging Face en 2024.
Coupez-le !
Les cyniques soutiennent qu’un intérêt d’une entreprise à censurer les modèles de génération d’IA installables localement est basé uniquement sur des préoccupations relatives à l’exposition juridique, si leurs cadres deviennent publics pour faciliter du contenu illégal ou objet de réprobation.
En effet, certains modèles open source « amicaux » ne sont pas difficiles à dé-censurer (comme Stable Diffusion 1.5 et DeepSeek R1).
En revanche, la publication récente de la série de modèles Kontext de Black Forest Lab’s Flux Kontext a été marquée par l’engagement notable de l’entreprise à expurger toute la gamme Kontext. Cela a été réalisé à la fois par une curation de données soigneuse et par un affinement ciblé après la formation, conçu pour supprimer toute tendance résiduelle vers le contenu NSFW ou interdit.
C’est là que se situe le lieu d’action dans la scène de la recherche au cours des 2-3 dernières années : avec un accent sur la correction après-coup des modèles dotés de données peu curées. Les offres de ce type incluent Unified Concept Editing in Diffusion Models (UCE) ; Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models (RECE) ; Mass Concept Erasure in Diffusion Models (MACE) ; et concept-Semi-Permeable structure is injected as a Membrane (SPM) :

L’article de 2024 « Unified Concept Editing in Diffusion Models » a proposé des éditions de formes fermées aux poids d’attention, permettant une édition efficace de plusieurs concepts dans les modèles d’image-à-texte. Mais cette méthode tient-elle face à un examen critique ? Source : https://arxiv.org/pdf/2308.14761
Bien que cette approche soit efficace (les collections hyperscale telles que LAION sont beaucoup trop grandes pour être curées manuellement), elle n’est pas nécessairement efficace : selon une nouvelle étude américaine, aucune des procédures d’édition mentionnées – qui représentent l’état de l’art dans la modification des modèles d’IA après la formation – ne fonctionne vraiment bien.
Les auteurs ont constaté que ces techniques d’effacement de concepts (CET) peuvent généralement être facilement contournées, et que même lorsqu’elles sont efficaces, elles ont des effets secondaires importants :

Effets de l’effacement de concepts sur les modèles d’image-à-texte. Chaque colonne montre une invite et le concept marqué pour effacement, ainsi que les sorties générées avant et après édition. Les hiérarchies indiquent des relations parent-enfant entre les concepts. Les exemples mettent en évidence des effets secondaires courants, notamment l’échec de l’effacement des concepts enfants, la suppression des concepts voisins, l’évasion par rewording et le transfert des attributs effacés à des objets non liés.
Les auteurs ont constaté que les principales techniques d’effacement de concepts actuelles échouent à bloquer les invites compositionnelles (par exemple, voiture rouge ou chaise en bois petite) ; qu’elles laissent souvent passer des sous-classes même après avoir effacé une catégorie parente (comme voiture ou bus continuant à apparaître après la suppression de véhicule) ; et introduisent de nouveaux problèmes tels que la fuite d’attributs (où, par exemple, la suppression de canapé bleu pourrait amener le modèle à générer des objets non liés tels que chaise bleue).
Dans plus de 80 % des cas de test, l’effacement d’un concept large tel que véhicule n’a pas empêché le modèle de générer des instances de véhicule plus spécifiques telles que des voitures ou des bus.
L’édition, observe l’article, entraîne également la dispersion des cartes d’attention (les parties du modèle qui décident où se concentrer dans l’image), affaiblissant ainsi la qualité de la sortie.
Intéressant, l’article constate que l’effacement de concepts liés formés un par un fonctionne mieux que la tentative d’en supprimer tous à la fois – bien qu’il ne supprime pas tous les défauts des méthodes d’édition étudiées :

Comparaison des stratégies d’effacement progressives et simultanées. Lorsque toutes les variantes de « ours en peluche » sont effacées simultanément, le modèle continue de générer des objets ressemblant à des ours. L’effacement des variantes étape par étape est plus efficace, amenant le modèle à supprimer le concept cible de manière plus fiable.
Bien que les chercheurs ne puissent actuellement offrir aucune solution aux problèmes que l’article soulève, ils ont développé un nouveau jeu de données et une référence qui pourraient aider les projets de recherche ultérieurs à comprendre si leurs propres modèles « censurés » fonctionnent comme prévu.
L’article indique :
‘Les évaluations précédentes reposaient uniquement sur un petit ensemble de classes cibles et de préservation ; par exemple, lors de l’effacement de « voiture », seule la capacité du modèle à générer des voitures est testée. Nous démontrons que cette approche est fondamentalement inadéquate et que l’évaluation de l’effacement de concepts devrait être plus complète pour englober tous les sous-concepts liés, tels que « voiture rouge ».
‘En introduisant un jeu de données diversifié avec des variations compositionnelles et en analysant systématiquement des effets tels que l’impact sur les concepts voisins, l’évasion de concepts et la fuite d’attributs, nous révélons des limitations et des effets secondaires importants des CET existants.
‘Notre référence est agnostique par rapport au modèle et facile à intégrer, et est idéalement adaptée pour aider le développement de nouvelles techniques d’effacement de concepts (CETs).’

Bien que les CET effacent le concept cible « oiseau », ils échouent sur la variante compositionnelle « oiseau rouge » (haut). Après avoir effacé « canapé bleu », toutes les méthodes perdent également la capacité de générer une chaise bleue (bas). Les résultats réussis sont marqués d’un symbole de coche verte, et les échecs d’un symbole de croix rouge.
L’étude offre une perspective intéressante sur l’étendue de l’entrelacement des concepts formés dans l’espace latent d’un modèle, et sur la mesure dans laquelle l’entrelacement ne permettra pas facilement d’effacement de concept définitif et vraiment discret.
L’article récent s’intitule Side Effects of Erasing Concepts from Diffusion Models, et provient de quatre chercheurs de l’Université du Maryland.
Méthode et données
Les auteurs estiment que les travaux antérieurs qui prétendent effacer des concepts des modèles de diffusion ne prouvent pas cette affirmation de manière suffisante, en déclarant* :
‘Les affirmations d’effacement nécessitent une évaluation plus robuste et plus complète. Par exemple, si le concept à effacer est « véhicule », des sous-concepts tels que « voiture » et des concepts compositionnels tels que « voiture rouge » ou « petite voiture » devraient également être effacés.
‘Cependant, cet aspect de la hiérarchie et de la compositionnalité des concepts n’est pas pris en compte dans les protocoles d’évaluation existants, car ils se concentrent uniquement sur la précision du seul concept effacé. [Les auteurs de EraseBench] évaluent comment les CET affectent les concepts visuellement similaires et paraphrasés (tels que « chat » et « chaton »)[;] cependant, ils n’examinent pas de manière exhaustive la hiérarchie et la compositionnalité des concepts.’
Afin de fournir des données de référence pour les projets futurs, les auteurs ont créé l’ensemble de données Side Effect Evaluation (SEE) – une grande collection d’invites de texte conçues pour tester la façon dont les méthodes d’effacement de concepts fonctionnent.
Les invites suivent un modèle simple dans lequel un objet est décrit avec des attributs de taille, de couleur et de matériau – par exemple, une image d’une petite voiture rouge en bois.
Les objets ont été tirés de l’ensemble de données MS-COCO, et organisés dans une hiérarchie de superclasses telles que véhicule, et de sous-classes telles que voiture ou bus, avec leurs combinaisons d’attributs formant les nœuds feuilles (le niveau le plus spécifique de la hiérarchie). Cette structure permet de tester l’effacement à différents niveaux sémantiques, des catégories larges aux variantes spécifiques.
Pour soutenir l’évaluation automatisée, chaque invite a été associée à une question oui/non, telle que Y a-t-il une voiture dans l’image ?, et également utilisée comme étiquette de classe pour les modèles de classification d’images :

Combinaisons d’invites dans l’ensemble de données SEE générées en variant les attributs de taille, de couleur et de matériau.
Pour mesurer la façon dont chaque méthode d’effacement de concepts se comportait, les auteurs ont conçu deux méthodes de notation : Précision cible, qui suit la fréquence à laquelle les concepts effacés apparaissent toujours dans les images générées ; et Précision de préservation, qui suit si le modèle continue de générer du matériel qui n’était pas censé être effacé.
L’équilibre entre les deux scores est destiné à révéler si la méthode supprime avec succès le concept interdit sans endommager la sortie plus large du modèle.
Les auteurs ont évalué l’effacement de concepts à travers trois modes de défaillance : premièrement, une mesure de savoir si la suppression d’un concept tel que voiture perturbe des concepts voisins ou non liés ; deuxièmement, un test pour savoir si l’effacement peut être contourné en invitant des sous-concepts tels que voiture rouge après avoir supprimé véhicule.
Enfin, un contrôle a été effectué pour la fuite d’attributs, où les traits liés aux concepts effacés apparaissent dans d’autres parties de l’image (par exemple, la suppression de canapé pourrait amener un autre objet, tel qu’un plant de fleurs, à hériter de sa couleur ou de son matériau). L’ensemble de données final contient 5056 invites compositionnelles
Tests
Les anciens cadres testés étaient ceux mentionnés plus tôt – UCE, RECE, MACE et SPM. Les chercheurs ont adopté les paramètres par défaut des projets originaux et ont affiné tous les modèles sur une carte graphique NVIDIA RTX 6000 avec 48 Go de VRAM.
Stable Diffusion 1.4, l’un des modèles les plus durables dans la littérature, a été utilisé pour tous les tests – peut-être pas moins parce que les premiers modèles SD avaient peu ou pas de contraintes conceptuelles, et qu’ils offrent ainsi une feuille de route vierge dans ce contexte de recherche particulier.
Chacune des 5056 invites de l’ensemble de données SEE a été exécutée sur les versions non éditées et éditées du modèle, générant quatre images par invite à l’aide de graines aléatoires fixes, permettant de tester si les effets d’effacement restaient constants à travers plusieurs sorties. Chaque modèle édité a produit un total de 20 224 images.
La présence de concepts préservés a été évaluée conformément aux méthodes antérieures pour les procédures d’effacement d’image-à-texte, en utilisant les modèles VQA BLIP, QWEN 2.5 VL et Florence-2base.
Impact sur les concepts voisins
Le premier test mesurait si l’effacement d’un concept affectait involontairement les concepts voisins. Par exemple, après avoir supprimé voiture, le modèle devrait arrêter de générer voiture rouge ou grande voiture, mais toujours être capable de générer des concepts liés tels que bus ou camion, et des concepts non liés tels que fourchette.
L’analyse a utilisé la similarité d’incrustation CLIP et la distance d’édition basée sur les attributs pour estimer à quel point chaque concept était proche du concept cible effacé, permettant ainsi à l’étude de quantifier à quel point la perturbation s’est propagée :

Résultats combinés pour la précision cible (gauche) et la précision de préservation (droite) tracés contre la similarité sémantique (haut) et la distance compositionnelle (bas). Une méthode d’effacement de concept idéale montrerait une faible précision cible et une haute précision de préservation à toutes les distances ; mais les résultats montrent que les techniques actuelles échouent à généraliser de manière propre, avec des concepts plus proches soit insuffisamment effacés, soit disproportionnellement perturbés.
Sur ces résultats, les auteurs commentent :
‘Toutes les CET continuent de générer des variantes compositionnelles ou des variantes sémantiquement éloignées du concept cible malgré l’effacement, ce qui idéalement ne devrait pas se produire. Il est évident que l’UCE atteint systématiquement une précision plus élevée que les autres méthodes CET sur l’ensemble de préservation, indiquant un impact minimal non intentionnel sur les concepts sémantiquement liés.
‘En revanche, le SPM atteint la précision la plus basse, suggérant que sa stratégie d’édition est plus susceptible à la similarité de concept.’
Parmi les quatre méthodes testées, la RECE était la plus efficace pour bloquer le concept cible. Cependant, comme le montre le côté gauche de l’image ci-dessus, toutes les méthodes ont échoué à supprimer les variantes compositionnelles. Après avoir effacé oiseau, le modèle a toujours produit des images d’un oiseau rouge, suggérant que le concept est resté partiellement intact.
La suppression de canapé bleu a également empêché le modèle de générer une chaise bleue, indiquant une atteinte aux concepts voisins.
La RECE a géré les variantes compositionnelles mieux que les autres, tandis que l’UCE a mieux préservé les concepts liés.
Invasion d’effacement
Le test d’invasion d’effacement a évalué si les modèles pouvaient toujours générer des concepts de sous-classes après que leur superclasse ait été effacée. Par exemple, si véhicule a été supprimé, le test a vérifié si le modèle pouvait toujours produire des sorties telles que bicyclette ou voiture rouge.
Les invites ciblaient à la fois des sous-classes directes et des variantes compositionnelles pour déterminer si l’opération d’effacement de concept avait réellement supprimé la hiérarchie complète ou pouvait être contournée via des descriptions plus spécifiques :

Contournement des superclasses effacées par leurs sous-classes et des variantes compositionnelles, avec une précision plus élevée indiquant une plus grande évasion.
Le modèle non édité a conservé une précision élevée dans toutes les superclasses, confirmant qu’il n’avait pas supprimé les concepts cibles. Parmi les CET, le MACE a montré la moins d’évasion, atteignant la plus basse précision de sous-classe dans plus de la moitié des catégories testées. La RECE a également bien performé, en particulier dans les groupes accessoire, sports et électronique.
En revanche, l’UCE et le SPM ont montré une précision de sous-classe plus élevée, indiquant que les concepts effacés étaient plus facilement contournés via des invites liées ou imbriquées.
Les auteurs notent :
‘[Toutes] les CET suppriment avec succès le concept de superclasse cible (« nourriture »). Cependant, lorsqu’elles sont invitées avec des enfants basés sur des attributs de la hiérarchie de la nourriture (par exemple, « grande pizza »), toutes les méthodes génèrent des articles alimentaires.
‘De même, dans la catégorie « véhicule », tous les modèles génèrent des bicyclettes, malgré l’effacement de « véhicule ».’
Fuite d’attributs
Le troisième test, la fuite d’attributs, a vérifié si les traits liés à un concept effacé apparaissaient dans d’autres parties de l’image.
Par exemple, après avoir effacé canapé, le modèle ne devrait ni générer de canapé ni appliquer ses attributs typiques (tels que la couleur ou le matériau) à des objets non liés dans la même invite. Cela a été mesuré en invitant le modèle avec des objets appariés et en examinant si les attributs effacés apparaissaient par erreur dans les concepts préservés :

Cartes d’attention pour les jetons d’attributs après l’effacement de concepts. Gauche : Lorsque « banc » est effacé, le jeton « en bois » se déplace vers l’oiseau, aboutissant à des oiseaux en bois. Droite : L’effacement de « canapé » ne parvient pas à supprimer la génération de canapé, tandis que le jeton « grand » est incorrectement attribué au doughnut.
La RECE a été la plus efficace pour effacer les attributs cibles, mais a également introduit la plus grande fuite d’attributs dans les invites préservées, surpassant même le modèle non édité. L’UCE a provoqué moins de fuite d’attributs que les autres méthodes.
Les résultats, suggèrent les auteurs, indiquent la nécessité d’un compromis inhérent, avec un effacement plus fort augmentant le risque de transfert d’attributs mal dirigé.
Conclusion
L’espace latent d’un modèle ne se remplit pas de manière ordonnée pendant la formation, avec des concepts dérivés déposés soigneusement sur des étagères ou dans des tiroirs ; mais les embeddings formés sont à la fois le contenu et leurs contenants : non séparés par des frontières nettes, mais se fondant les uns dans les autres d’une manière qui rend la suppression problématique – comme essayer d’extraire une livre de chair sans aucune perte de sang.
Dans les systèmes intelligents et évolutifs, les événements fondamentaux – tels que se brûler les doigts et traiter ensuite le feu avec respect – sont liés aux comportements et associations qu’ils forment plus tard, rendant difficile la production d’un modèle qui peut avoir été laissé avec les corollaires d’un concept central, potentiellement « interdit », mais en manque de ce concept en lui-même.
* Ma conversion des citations en ligne des auteurs en hyperliens.
Publié pour la première fois vendredi 22 août 2025












