Suivez nous sur

La censure des modèles d'IA ne fonctionne pas bien, révèle une étude

Angle d'Anderson

La censure des modèles d'IA ne fonctionne pas bien, révèle une étude

mm
ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

Les tentatives de censure des générateurs d'images IA en effaçant le contenu interdit (tel que la pornographie, la violence ou les styles protégés par le droit d'auteur) des modèles formés échouent : une nouvelle étude révèle que les méthodes actuelles d'effacement de concepts permettent aux attributs « interdits » de se répandre dans des images sans rapport, et ne parviennent pas non plus à empêcher l'apparition de versions étroitement liées du contenu supposément « effacé ».

 

Si les entreprises qui produisent des modèles d'IA fondamentaux ne peuvent empĂŞcher leur utilisation abusive pour produire du contenu rĂ©prĂ©hensible ou illĂ©gal, elles risquent d'ĂŞtre poursuivies et/ou fermĂ©es. Ă€ l'inverse, les fournisseurs qui ne mettent leurs modèles qu'Ă  disposition via une API, comme avec Adobe Luciole moteur gĂ©nĂ©ratif, sont en mesure de ne pas s'inquiĂ©ter de ce que leurs modèles pourraient crĂ©er, puisque l'invite de l'utilisateur et la sortie rĂ©sultante sont inspectĂ©es et nettoyĂ©es :

Le système Firefly d'Adobe, utilisé dans des outils comme Photoshop, refuse parfois d'emblée une requête générative en bloquant l'invite avant toute création. D'autres fois, il génère l'image, mais bloque le résultat après vérification. Ce type de refus en cours de processus peut également se produire dans ChatGPT, lorsque le modèle lance une réponse, mais l'interrompt après avoir détecté une violation de politique.

Le système Firefly d'Adobe, utilisé dans des outils comme Photoshop, refuse parfois d'emblée une requête générative en bloquant l'invite avant toute création. D'autres fois, il génère l'image, mais bloque le résultat après vérification. Ce type de refus en cours de processus peut également se produire dans ChatGPT, lorsque le modèle lance une réponse, mais l'interrompt après avoir détecté une violation de politique. Il arrive parfois que l'image interrompue soit brièvement visible pendant ce processus.

Cependant, les filtres de type API de ce type peuvent généralement être neutralisés par les utilisateurs sur des modèles installés localement, y compris les modèles de langage de vision (VLM) que l'utilisateur peut souhaiter personnaliser via une formation locale sur des données personnalisées.

Dans la plupart des cas, la désactivation de telles opérations est triviale, impliquant la mise en commentaire d'un appel de fonction en Python (bien que les hacks de ce type doivent généralement être répétés ou réinventés après les mises à jour du framework).

D'un point de vue commercial, il est difficile de comprendre en quoi cela pourrait poser problème, car une approche API maximise le contrôle de l'entreprise sur le flux de travail de l'utilisateur. Du point de vue de l'utilisateur, cependant, le coût des modèles basés uniquement sur API et le risque de censure erronée ou excessive risquent de le contraindre à télécharger et personnaliser des installations locales d'alternatives open source, du moins lorsque les licences FOSS sont avantageuses.

Le dernier modèle significatif à être publié sans aucune tentative d’autocensure était Stable Diffusion V1.5, il y a presque trois ans. Plus tard, la révélation que ses corpus de formation données CSAM incluses a conduit à des appels croissants pour interdire sa disponibilité, et son enlèvement du référentiel Hugging Face en 2024.

ArrĂŞtez-le !

Les cyniques soutiennent que l'intérêt d'une entreprise à censurer les modèles d'IA génératifs installables localement est basé uniquement sur des préoccupations à propos de l'exposition légale, si leurs cadres sont rendus publics pour avoir facilité la diffusion de contenus illégaux ou répréhensibles.

En effet, certains modèles open source « adaptés aux environnements locaux » ne sont pas si difficiles à décensurer (comme Diffusion stable 1.5 ou DeepSeek R1).

En revanche, la récente sortie de Flux de Black Forest Lab Série de modèles Kontext a été marquée par la engagement notableà simplifier l'ensemble de la gamme Kontext. Ce résultat a été obtenu grâce à une sélection rigoureuse des données et à des actions ciblées. réglage fin après une formation, conçue pour éliminer toute tendance résiduelle vers le contenu NSFW ou interdit.

C'est lĂ  que se situe l'action principale de la recherche depuis deux ou trois ans : l'accent est mis sur la correction a posteriori des modèles Ă  partir de donnĂ©es insuffisamment organisĂ©es. Parmi les offres de ce type, on peut citer : Édition de concepts unifiĂ©s dans les modèles de diffusion (ECU); Effacement fiable et efficace des concepts des modèles de diffusion texte-image (PRIER); Effacement du concept de masse dans les modèles de diffusion (MACE); et concept-Structure semi-permĂ©able injectĂ©e sous forme de membrane (SPM):

L'article de 2024 « Unified Concept Editing in Diffusion Models Â» proposait des modifications dĂ©taillĂ©es des pondĂ©rations d'attention, permettant une Ă©dition efficace de plusieurs concepts dans les modèles texte-image. Mais cette mĂ©thode rĂ©siste-t-elle Ă  l'examen ? Source : https://arxiv.org/pdf/2308.14761

L'article de 2024 « Unified Concept Editing in Diffusion Models Â» proposait des modifications dĂ©taillĂ©es des pondĂ©rations d'attention, permettant une Ă©dition efficace de plusieurs concepts dans les modèles texte-image. Mais cette mĂ©thode rĂ©siste-t-elle Ă  un examen approfondi ? Source : https://arxiv.org/pdf/2308.14761

Bien qu’il s’agisse d’une approche efficace (collections à grande échelle telles que LAION (bien que les fichiers soient bien trop volumineux pour être triés manuellement), ce n'est pas nécessairement une méthode efficace : selon une nouvelle étude américaine, aucune des procédures d'édition susmentionnées - qui représentent l'état de l'art en matière de modification de modèles d'IA post-formation - ne fonctionne réellement très bien.

Les auteurs ont constaté que ces techniques d’effacement de concepts (CET) peuvent généralement être facilement contournées et que même lorsqu’elles sont efficaces, elles ont des effets secondaires considérables :

Effets de l'effacement de concepts sur les modèles texte-image. Chaque colonne prĂ©sente une invite et le concept marquĂ© pour effacement, ainsi que les sorties gĂ©nĂ©rĂ©es avant et après modification. Les hiĂ©rarchies indiquent les relations parent-enfant entre les concepts. Les exemples mettent en Ă©vidence les effets secondaires courants, notamment l'Ă©chec de l'effacement des concepts enfants, la suppression des concepts voisins, l'Ă©vasion par reformulation et le transfert des attributs effacĂ©s vers des objets non liĂ©s. Source : https://arxiv.org/pdf/2508.15124

Effets de l'effacement de concepts sur les modèles texte-image. Chaque colonne présente une invite et le concept marqué pour effacement, ainsi que les sorties générées avant et après modification. Les hiérarchies indiquent les relations parent-enfant entre les concepts. Les exemples mettent en évidence les effets secondaires courants, notamment l'échec de l'effacement des concepts enfants, la suppression des concepts voisins, l'évasion par reformulation et le transfert des attributs effacés vers des objets non liés. Source : https://arxiv.org/pdf/2508.15124

Les auteurs ont constaté que les principales techniques actuelles d’effacement de concepts ne parviennent pas à bloquer invites de composition (par exemple, voiture rouge or petite chaise en bois); laissent souvent passer des sous-classes même après avoir effacé une catégorie parente (comme fournisseur or bus continue d'apparaître après la suppression véhicule.); et introduisent de nouveaux problèmes tels que la fuite d'attributs (où, par exemple, la suppression canapé bleu pourrait amener le modèle à générer des objets non liés tels que chaise bleue).

Dans plus de 80 % des cas de test, l’effacement d’un concept large tel que véhicule. n'a pas empêché le modèle de générer des données plus spécifiques véhicule. des cas tels que des voitures ou des bus.

L'édition, observe le journal, est également à l'origine cartes d'attention (les parties du modèle qui décident où se concentrer dans l'image) se dispersent, affaiblissant la qualité de sortie.

Il est intéressant de noter que l’étude révèle que l’effacement un par un des concepts entraînés apparentés fonctionne mieux que d’essayer de les supprimer tous en même temps – bien que cela ne supprime pas toutes les lacunes des méthodes d’édition étudiées :

Comparaison des stratĂ©gies d'effacement progressif et global. Lorsque toutes les variantes du mot « ours en peluche Â» sont effacĂ©es simultanĂ©ment, le modèle continue de gĂ©nĂ©rer des objets ressemblant Ă  des ours. L'effacement progressif des variantes est plus efficace, permettant au modèle de supprimer le concept cible de manière plus fiable.

Comparaison des stratĂ©gies d'effacement progressif et global. Lorsque toutes les variantes du mot « ours en peluche Â» sont effacĂ©es simultanĂ©ment, le modèle continue de gĂ©nĂ©rer des objets ressemblant Ă  des ours. L'effacement progressif des variantes est plus efficace, permettant au modèle de supprimer le concept cible de manière plus fiable.

Bien que les chercheurs ne puissent actuellement proposer aucune solution aux problèmes décrits dans l'article, ils ont développé un nouvel ensemble de données et une nouvelle référence qui pourraient aider les projets de recherche ultérieurs à comprendre si leurs propres modèles « censurés » fonctionnent comme prévu.

Le papier déclare:

Les Ă©valuations prĂ©cĂ©dentes reposaient uniquement sur un petit ensemble de classes cibles et de classes de prĂ©servation ; par exemple, lors de l'effacement de « voiture Â», seule la capacitĂ© du modèle Ă  gĂ©nĂ©rer des voitures est testĂ©e. Nous dĂ©montrons que cette approche est fondamentalement inadĂ©quate et que l'Ă©valuation de l'effacement de concepts devrait ĂŞtre plus complète pour englober tous les sous-concepts associĂ©s, tels que « voiture rouge Â».

« En introduisant un ensemble de données diversifié avec des variations de composition et en analysant systématiquement les effets tels que l'impact sur les concepts voisins, l'évasion conceptuelle et la fuite d'attributs, nous découvrons des limites et des effets secondaires importants des CET existants.

« Notre benchmark est indépendant du modèle et facilement intégrable et est idéalement adapté pour aider au développement de nouvelles techniques d'effacement de concepts (CET). »

Bien que les CET suppriment le concept cible « oiseau Â», ils Ă©chouent sur la variante compositionnelle « oiseau rouge Â» (en haut). Après avoir supprimĂ© « canapĂ© bleu Â», toutes les mĂ©thodes perdent Ă©galement la capacitĂ© de gĂ©nĂ©rer une chaise bleue (en bas). Les rĂ©sultats positifs sont indiquĂ©s par une coche verte et les Ă©checs par une croix rouge.

Bien que les CET effacent le concept cible « oiseau Â», ils Ă©chouent sur la variante compositionnelle « oiseau rouge Â» (en haut). Après avoir effacĂ© « canapĂ© bleu Â», toutes les mĂ©thodes perdent Ă©galement la possibilitĂ© de gĂ©nĂ©rer une chaise bleue (en bas). Les rĂ©sultats positifs sont indiquĂ©s par une coche verte et les Ă©checs par un « X Â» rouge.

L'étude offre un aperçu intéressant de l'étendue de l'entrelacement des concepts formés dans le modèle. espace latent, et dans quelle mesure enchevêtrement ne permettra pas facilement un quelconque effacement de concept définitif et véritablement discret.

Les nouveau papier est intitulé Effets secondaires de l'effacement des concepts des modèles de diffusion, et provient de quatre chercheurs de l'Université du Maryland.

Méthode et données

Les auteurs estiment que les travaux antérieurs qui prétendent effacer des concepts des modèles de diffusion ne prouvent pas cette affirmation de manière adéquate, affirmant* :

Les demandes d'effacement nĂ©cessitent une Ă©valuation plus rigoureuse et plus complète. Par exemple, si le concept Ă  effacer est « vĂ©hicule Â», des sous-concepts tels que « voiture Â» ​​et des concepts de composition tels que « voiture rouge Â» ou « petite voiture Â» ​​doivent Ă©galement ĂŞtre effacĂ©s.

« Pourtant, cet aspect de la hiérarchie des concepts et de la compositionnalité n'est pas pris en compte dans les protocoles d'évaluation existants, car ils se concentrent uniquement sur l'exactitude du concept unique effacé. [Les auteurs de EraseBench] évaluer l'impact des CET sur des concepts visuellement similaires et paraphrasés (tels que « chat » et « chaton »)[;] cependant, ils ne sondent pas de manière exhaustive la hiérarchie et la compositionnalité des concepts.

Afin de fournir des données de référence pour les projets futurs, les auteurs ont créé le Évaluation des effets secondaires Ensemble de données (SEE) – une vaste collection d’invites textuelles conçues pour tester l’efficacité des méthodes d’effacement de concepts.

Les invites suivent un modèle simple dans lequel un objet est décrit avec des attributs de taille, de couleur et de matériau – par exemple, une image d'une petite voiture en bois rouge.

Les objets ont été dessinés à partir du MS-COCO ensemble de données et organisé en une hiérarchie de superclasses telles que véhicule., et des sous-classes telles que fournisseur or bus, leurs combinaisons d'attributs formant les nœuds feuilles (le niveau le plus spécifique de la hiérarchie). Cette structure permet de tester l'effacement à différents niveaux sémantiques, des catégories générales aux variantes spécifiques.

Pour soutenir l'Ă©valuation automatisĂ©e, chaque invite Ă©tait associĂ©e Ă  une question par oui ou par non, telle que Y a-t-il une voiture sur l'image ?, et Ă©galement utilisĂ© comme Ă©tiquette de classe pour les modèles de classification d'images :

Combinaisons rapides dans l'ensemble de données SEE générées en variant les attributs de taille, de couleur et de matériau.

Combinaisons rapides dans l'ensemble de données SEE générées en variant les attributs de taille, de couleur et de matériau.

Pour mesurer l’efficacitĂ© de chaque mĂ©thode d’effacement de concept, les auteurs ont conçu deux mĂ©thodes de notation : PrĂ©cision de la cible, qui suit la frĂ©quence Ă  laquelle les concepts effacĂ©s apparaissent encore dans les images gĂ©nĂ©rĂ©es ; et PrĂ©server l'exactitude, qui permet de savoir si le modèle continue de gĂ©nĂ©rer du matĂ©riel qui n'Ă©tait pas censĂ© ĂŞtre effacĂ©.

L'équilibre entre les deux scores vise à révéler si la méthode supprime avec succès le concept interdit sans endommager le résultat plus large du modèle.

Les auteurs ont évalué l'effacement de concepts selon trois modes d'échec : premièrement, une mesure permettant de déterminer si la suppression d'un concept tel que fournisseur perturbe les concepts proches ou non liés, en fonction de la similarité sémantique et des attributs ; deuxièmement, un test pour savoir si l'effacement peut être contourné en incitant des sous-concepts tels que voiture rouge après la suppression véhicule..

Enfin, une vérification a été effectuée pour détecter les fuites d'attributs, où les traits liés à des concepts effacés apparaissent dans des objets sans rapport (par exemple, la suppression canapé pourrait provoquer un autre objet, tel qu'un plante en pot, pour hériter de sa couleur ou de sa matière). L'ensemble de données final contient 5056 invites de composition.

Tests

Les frameworks prĂ©cĂ©demment testĂ©s Ă©taient ceux listĂ©s prĂ©cĂ©demment : UCE, RECE, MACE et SPM. Les chercheurs ont adoptĂ© les paramètres par dĂ©faut des projets originaux et ont peaufinĂ© tous les modèles sur un GPU NVIDIA RTX 6000 avec 48 Go de VRAM.

Stable Diffusion 1.4, l’un des modèles les plus pérennes de la littérature, a été utilisé pour tous les tests – peut-être notamment parce que les premiers modèles SD avaient peu ou pas de contraintes conceptuelles et, en tant que tels, offrent une ardoise vierge dans ce contexte de recherche particulier.

Chacune des 5056 invites de l'ensemble de donnĂ©es SEE a Ă©tĂ© exĂ©cutĂ©e Ă  la fois sur les versions non Ă©ditĂ©es et Ă©ditĂ©es du modèle, gĂ©nĂ©rant quatre images par invite Ă  l'aide de graines alĂ©atoires, permettant de tester si les effets d'effacement restaient cohĂ©rents sur plusieurs sorties. Chaque modèle Ă©ditĂ© a produit un total de 20,224 XNUMX images.

La présence de concepts préservés a été évaluée selon les méthodes antérieures pour les procédures d'effacement de texte en image, en utilisant les modèles VQA SPOT, QWEN 2.5 VL Florence-2base.

Impact sur les concepts voisins

Le premier test a mesuré si l'effacement d'un concept affectait involontairement les concepts voisins. Par exemple, après suppression fournisseur, le modèle devrait arrêter de générer voiture rouge or grande voiture. mais toujours être capable de générer des concepts connexes tels que bus or camion, et d'autres sans rapport tels que fourche.

L'analyse utilisée CLIP intégration de la similarité et de la distance d'édition basée sur les attributs pour estimer la proximité de chaque concept par rapport à la cible effacée, permettant à l'étude de quantifier l'étendue de la propagation de la perturbation :

Résultats combinés pour la précision de la cible (à gauche) et la précision de la préservation (à droite) représentés en fonction de la similarité sémantique (en haut) et de la distance compositionnelle (en bas). Une méthode idéale d'effacement de concepts présenterait une faible précision de la cible et une précision de la préservation élevée sur toutes les distances, mais les résultats montrent que les techniques actuelles ne parviennent pas à généraliser clairement, les concepts les plus proches étant soit insuffisamment effacés, soit perturbés de manière disproportionnée.

RĂ©sultats combinĂ©s pour la prĂ©cision de la cible (Ă  gauche) et la prĂ©cision de la prĂ©servation (Ă  droite) reprĂ©sentĂ©s en fonction de la similaritĂ© sĂ©mantique (en haut) et de la distance compositionnelle (en bas). Une mĂ©thode idĂ©ale d'effacement des concepts prĂ©senterait une faible prĂ©cision de la cible et une prĂ©cision de la prĂ©servation Ă©levĂ©e sur toutes les distances ; cependant, les rĂ©sultats montrent que les techniques actuelles ne parviennent pas Ă  gĂ©nĂ©raliser clairement, les concepts les plus proches Ă©tant soit insuffisamment effacĂ©s, soit perturbĂ©s de manière disproportionnĂ©e.

De ces résultats, les auteurs commentent :

« Tous les CET continuent de gĂ©nĂ©rer des variantes compositionnelles ou sĂ©mantiquement distantes de la cible malgrĂ© l'effacement, qui idĂ©alement ne devrait pas se produire. Il est Ă©vident que l'UCE atteint systĂ©matiquement une prĂ©cision supĂ©rieure Ă  celle des autres mĂ©thodes CET sur l'ensemble prĂ©servĂ©, ce qui indique un impact involontaire minimal sur les concepts sĂ©mantiquement liĂ©s. Â»

« En revanche, SPM atteint la précision la plus faible, ce qui suggère que sa stratégie d’édition est plus sensible à la similarité des concepts. »

Parmi les quatre méthodes testées, la méthode RECE s'est avérée la plus efficace pour bloquer le concept cible. Cependant, comme le montre la partie gauche de l'image ci-dessus, aucune méthode n'a réussi à supprimer les variantes compositionnelles. Après effacement oiseau, le modèle produisait toujours des images d'un oiseau rouge, suggérant que le concept restait partiellement intact.

Cette technologie permet de retirer toutes traces de maquillages ou bactéries. canapé bleu a également empêché le modèle de générer un chaise bleue, indiquant un préjudice aux concepts voisins.

RECE a mieux géré les variantes de composition que les autres, tandis que UCE a fait un meilleur travail de préservation des concepts connexes.

Invasion par effacement

Le test d'évasion d'effacement a évalué si les modèles pouvaient encore générer des concepts de sous-classe après l'effacement de leur superclasse. Par exemple, si véhicule. a été supprimé, le test a vérifié si le modèle pouvait encore produire des sorties telles que vélo or voiture rouge.

Les invites ciblaient Ă  la fois les sous-classes directes et les variantes compositionnelles pour dĂ©terminer si l'opĂ©ration d'effacement du concept avait rĂ©ellement supprimĂ© la hiĂ©rarchie complète ou pouvait ĂŞtre contournĂ©e par des descriptions plus spĂ©cifiques :

Sur Stable Diffusion v1.4, contournement des superclasses effacées par leurs sous-classes et variantes de composition, avec une précision plus élevée indiquant une plus grande évasion.

Sur Stable Diffusion v1.4, contournement des superclasses effacées par leurs sous-classes et variantes de composition, avec une précision plus élevée indiquant une plus grande évasion.

Le modèle non édité a conservé une grande précision dans toutes les superclasses, confirmant qu'il avait pas ont supprimé tous les concepts cibles. Parmi les CET, MACE a montré le moins d'évasion, atteignant la plus faible précision de sous-classe dans plus de la moitié des catégories testées. RECE a également obtenu de bons résultats, en particulier dans accessoire, le sport papier groupes.

En revanche, l'UCE et le SPM ont montré une précision de sous-classe plus élevée, indiquant que les concepts effacés étaient plus facilement contournés par des invites liées ou imbriquées.

Les auteurs notent:

[Tous les] CET suppriment avec succès le concept de superclasse cible (« nourriture Â»). Cependant, lorsqu'elles sont invitĂ©es Ă  utiliser des enfants de la hiĂ©rarchie alimentaire basĂ©s sur des attributs (par exemple, une grande pizza), toutes les mĂ©thodes gĂ©nèrent des aliments.

« De même dans véhicule. catégorie, tous les modèles génèrent des vélos, malgré l'effacement de « véhicule ».

Fuite d'attributs

Le troisième test, la fuite d’attributs, a vérifié si des traits liés à un concept effacé apparaissaient dans d’autres parties de l’image.

Par exemple, après avoir effacĂ© canapĂ©Le modèle ne doit ni gĂ©nĂ©rer de canapĂ© ni appliquer ses attributs habituels (comme la couleur ou le matĂ©riau) Ă  des objets sans rapport dans la mĂŞme invite. Ceci a Ă©tĂ© mesurĂ© en invitant le modèle avec des objets appariĂ©s et en vĂ©rifiant si les attributs effacĂ©s apparaissaient par erreur dans des concepts conservĂ©s :

Cartes d'attention pour les jetons d'attribut après effacement du concept. Ă€ gauche : Lorsque « banc Â» est effacĂ©, le jeton « bois Â» se dĂ©place vers l'oiseau, ce qui donne des oiseaux en bois. Ă€ droite : L'effacement de « canapĂ© Â» ne supprime pas la gĂ©nĂ©ration de canapĂ©, tandis que le jeton « grand Â» est attribuĂ© Ă  tort au beignet.

Cartes d'attention pour les jetons d'attribut après effacement du concept. Ă€ gauche : Lorsque « banc Â» est effacĂ©, le jeton « bois Â» se dĂ©place vers l'oiseau, ce qui donne des oiseaux en bois. Ă€ droite : L'effacement de « canapĂ© Â» ne supprime pas la gĂ©nĂ©ration de canapĂ©, tandis que le jeton « grand Â» est attribuĂ© Ă  tort au beignet.

RECE s'est avérée la méthode la plus efficace pour effacer les attributs cibles, mais elle a également introduit le plus de fuites d'attributs dans les invites conservées, surpassant même le modèle non édité. La méthode UCE a moins fuité que les autres méthodes.

Les résultats, suggèrent les auteurs, indiquent la nécessité d’un compromis inhérent, un effacement plus fort augmentant le risque de transfert d’attributs mal dirigé.

Conclusion

L'espace latent d'un modèle ne se remplit pas de manière ordonnée pendant la formation, avec des concepts dérivés déposés soigneusement sur des étagères ou dans des classeurs ; les inclusions formées sont plutôt à la fois le contenu et leurs conteneurs : non séparés par des frontières strictes, mais se fondant plutôt les uns dans les autres d'une manière qui rend le retrait problématique - comme essayer d'extraire une livre de chair sans aucune perte de sang.

Dans les systèmes intelligents et en évolution, les événements fondamentaux – comme se brûler les doigts et traiter ensuite le feu avec respect – sont liés aux comportements et aux associations qu’ils forment plus tard, ce qui rend difficile la production d’un modèle qui aurait pu être laissé avec les corollaires d’un concept central, potentiellement « interdit », mais qui manquerait de ce concept en lui-même.

 

* Ma conversion des citations en ligne des auteurs en hyperliens.

Première publication le vendredi 22 août 2025