Angle d’Anderson

Les images « protégées » sont plus faciles, et non plus difficiles, à voler avec l’IA

Publié le 9 juin 2025

Mis à jour le 18 mai 2026

Par

Martin Anderson

A shadowy man steals into an art gallery as the guard sleeps. Krita/Flux-1 Dev + Firefly

De nouvelles recherches suggèrent que les outils de watermarking destinés à bloquer les éditions d’images par l’IA peuvent avoir un effet contraire. Au lieu d’empêcher les modèles comme Stable Diffusion de modifier les images, certaines protections peuvent en fait aider l’IA à suivre les invites d’édition plus étroitement, rendant les manipulations indésirables encore plus faciles.

Il existe une branche notable et robuste dans la littérature de la vision par ordinateur consacrée à la protection des images protégées par droit d’auteur contre leur formation dans les modèles d’IA ou leur utilisation dans les processus d’IA directe d’image à image. Les systèmes de ce type sont généralement destinés aux modèles de diffusion latente (LDM) tels que Stable Diffusion et Flux, qui utilisent des procédures basées sur le bruit pour encoder et décoder les images.

En insérant du bruit adverse dans des images normales, il est possible de faire en sorte que les détecteurs d’images devinent incorrectement le contenu de l’image et gênent les systèmes de génération d’images pour exploiter les données protégées par droit d’auteur :

Exemples tirés du document de recherche « Raising the Cost of Malicious AI-Powered Image Editing » de l’MIT, montrant une image source « immunisée » contre la manipulation (rangée inférieure). Source: https://arxiv.org/pdf/2302.06588

Depuis un retour de bâton des artistes contre l’utilisation libérale par Stable Diffusion d’images collectées sur le Web (y compris des images protégées par droit d’auteur) en 2023, la scène de la recherche a produit de multiples variations sur le même thème – l’idée que les images peuvent être invisiblement « empoisonnées » contre leur formation dans les systèmes d’IA ou leur absorption dans les pipelines d’IA générative, sans affecter négativement la qualité de l’image pour le spectateur moyen.

Dans tous les cas, il existe une corrélation directe entre l’intensité de la perturbation imposée, l’étendue de la protection de l’image et l’étendue de la dégradation de la qualité de l’image :

Bien que la qualité du PDF de recherche ne montre pas complètement le problème, des quantités plus importantes de perturbation adverse sacrifient la qualité pour la sécurité. On voit ici les perturbations de qualité dans le projet « Fawkes » de 2020 mené par l’Université de Chicago. Source: https://arxiv.org/pdf/2002.08327

Particulièrement intéressant pour les artistes qui cherchent à protéger leurs styles contre une appropriation non autorisée est la capacité de tels systèmes non seulement à occulter l’identité et d’autres informations, mais à « convaincre » un processus de formation d’IA qu’il voit autre chose que ce qu’il voit réellement, de sorte que les connexions ne se forment pas entre les domaines sémantique et visuel pour les données de formation « protégées » (c’est-à-dire une invite telle que ‘Dans le style de Paul Klee’).

Mist et Glaze sont deux méthodes d’injection populaires capables d’empêcher, ou du moins de gêner sérieusement, les tentatives d’utilisation de styles protégés par droit d’auteur dans les flux de travail et les routines de formation d’IA. Source: https://arxiv.org/pdf/2506.04394

But contre son camp

Maintenant, de nouvelles recherches aux États-Unis ont découvert non seulement que les perturbations peuvent échouer à protéger une image, mais que l’ajout de perturbation peut en fait améliorer l’exploitabilité de l’image dans tous les processus d’IA que la perturbation est censée immuniser contre.

Le document indique :

‘Dans nos expériences avec diverses méthodes de protection d’image basées sur des perturbations à travers plusieurs domaines (images de scènes naturelles et œuvres d’art) et tâches d’édition (génération d’image à image et édition de style), nous découvrons que cette protection n’atteint pas complètement son objectif.

‘Dans la plupart des scénarios, l’édition de diffusion des images protégées génère une image de sortie désirable qui adhère précisément à l’invite de guidage.

‘Nos résultats suggèrent que l’ajout de bruit aux images peut paradoxalement augmenter leur association avec les invites de texte données pendant le processus de génération, conduisant à des conséquences involontaires telles que de meilleures éditions résultantes.

‘Par conséquent, nous soutenons que les méthodes basées sur les perturbations peuvent ne pas fournir une solution suffisante pour une protection d’image robuste contre l’édition basée sur la diffusion.’

Dans les tests, les images protégées ont été exposées à deux scénarios d’édition d’IA familiers : la génération d’image à image directe et le transfert de style. Ces processus reflètent les moyens courants par lesquels les modèles d’IA pourraient exploiter du contenu protégé, soit en modifiant directement une image, soit en empruntant ses traits stylistiques pour les utiliser ailleurs.

Les images protégées, tirées de sources standard de photographie et d’œuvres d’art, ont été passées à travers ces pipelines pour voir si les perturbations ajoutées pouvaient bloquer ou dégrader les éditions.

À la place, la présence de protection a souvent semblé aiguiser l’alignement du modèle avec les invites, produisant des sorties propres et précises là où certaines défaillances avaient été attendues.

Les auteurs conseillent, en substance, que cette méthode de protection très populaire peut fournir un faux sentiment de sécurité, et que toute approche d’immunisation basée sur les perturbations devrait être testée soigneusement contre les méthodes des auteurs.

Méthode

Les auteurs ont mené des expériences en utilisant trois méthodes de protection qui appliquent des perturbations adverses soigneusement conçues : PhotoGuard ; Mist ; et Glaze.

Glaze, l’un des cadres testés par les auteurs, montrant des exemples de protection Glaze pour trois artistes. Les deux premières colonnes montrent les œuvres d’art originales ; la troisième colonne montre les résultats de mimicry sans protection ; la quatrième, les versions de style transféré utilisées pour l’optimisation du manteau, ainsi que le nom de style cible. Les cinquième et sixième colonnes montrent les résultats de mimicry avec le manteau appliqué à des niveaux de perturbation p = 0,05 et p = 0,1. Tous les résultats utilisent des modèles de diffusion stable. https://arxiv.org/pdf/2302.04222

PhotoGuard a été appliqué à des images de scènes naturelles, tandis que Mist et Glaze ont été utilisés sur des œuvres d’art (c’est-à-dire des domaines « stylistiquement artistiques »).

Les tests ont couvert à la fois des images naturelles et artistiques pour refléter les utilisations possibles dans le monde réel. L’efficacité de chaque méthode a été évaluée en vérifiant si un modèle d’IA pouvait toujours produire des éditions réalistes et pertinentes par rapport à l’invite lorsqu’il travaillait sur des images protégées ; si les images résultantes semblaient convaincantes et correspondaient aux invites, la protection a été jugée avoir échoué à bloquer l’édition.

Stable Diffusion v1.5 a été utilisé comme générateur d’images pré-formé pour les tâches d’édition des chercheurs. Cinq graines ont été sélectionnées pour assurer la reproductibilité : 9222, 999, 123, 66 et 42. Toutes les autres paramètres de génération, tels que l’échelle de guidage, la force et les étapes totales, ont suivi les valeurs par défaut utilisées dans les expériences PhotoGuard.

PhotoGuard a été testé sur des images de scènes naturelles en utilisant l’ensemble de données Flickr8k, qui contient plus de 8 000 images appariées avec jusqu’à cinq légendes chacune.

Pensées opposées

Deux ensembles de légendes modifiées ont été créés à partir de la première légende de chaque image à l’aide de Claude Sonnet 3.5. Un ensemble contenait des invites proches du contexte des légendes originales ; l’autre ensemble contenait des invites éloignées du contexte.

Par exemple, à partir de la légende originale ‘Une jeune fille en robe rose entrant dans une cabane en bois’, une invite proche serait ‘Un jeune garçon en chemise bleue entrant dans une maison en brique’. En revanche, une distant invite serait ‘Deux chats se prélassant sur un canapé’.

Les invites proches ont été construites en remplaçant les noms et les adjectifs par des termes sémantiquement similaires ; les invites lointaines ont été générées en instruisant le modèle de créer des légendes qui étaient très différentes du contexte.

Toutes les légendes générées ont été vérifiées manuellement pour la qualité et la pertinence sémantique. L’encodeur de phrase universel de Google a été utilisé pour calculer les scores de similarité sémantique entre les légendes originales et modifiées :

À partir du matériel supplémentaire, distributions de similarité sémantique pour les légendes modifiées utilisées dans les tests Flickr8k. Le graphique de gauche montre les scores de similarité pour les légendes modifiées de près, avec une moyenne d’environ 0,6. Le graphique de droite montre les légendes modifiées de loin, avec une moyenne d’environ 0,1, reflétant une plus grande distance sémantique par rapport aux légendes originales. Les valeurs ont été calculées à l’aide de l’encodeur de phrase universel de Google. Source: https://sigport.org/sites/default/files/docs/IncompleteProtection_SM_0.pdf

Chaque image, ainsi que sa version protégée, a été éditée en utilisant à la fois les invites proches et lointaines. L’évaluateur de qualité d’image spatiale aveugle/referenciel (BRISQUE) a été utilisé pour évaluer la qualité de l’image :

Résultats de la génération d’image à image sur des photographies naturelles protégées par PhotoGuard. Malgré la présence de perturbations, Stable Diffusion v1.5 a suivi avec succès les petits et les grands changements sémantiques dans les invites d’édition, produisant des sorties réalistes qui correspondaient aux nouvelles instructions.

Métriques

Pour juger de l’efficacité avec laquelle les protections interféraient avec l’édition d’IA, les chercheurs ont mesuré à quel point les images finales correspondaient aux instructions qu’elles avaient reçues, en utilisant des systèmes de notation qui comparaient le contenu de l’image au texte de l’invite, pour voir à quel point ils correspondaient.

À cette fin, la métrique CLIP-S utilise un modèle qui peut comprendre à la fois les images et le texte pour vérifier à quel point ils sont similaires, tandis que PAC-S++ ajoute des échantillons supplémentaires créés par l’IA pour aligner sa comparaison plus étroitement sur une estimation humaine.

Ces scores d’alignement image-texte (ITA) indiquent à quel point précisément l’IA a suivi les instructions lors de la modification d’une image protégée : si une image protégée a toujours conduit à une sortie hautement alignée, cela signifie que la protection a échoué à bloquer l’édition.

Effet de la protection sur l’ensemble de données Flickr8k sur cinq graines, en utilisant à la fois des invites proches et lointaines. L’alignement image-texte a été mesuré à l’aide des scores CLIP-S et PAC-S++.

Les chercheurs ont comparé à quel point l’IA a suivi les invites lors de l’édition d’images protégées par rapport aux images non protégées. Ils ont d’abord examiné la différence entre les deux, appelée Changement réel. Ensuite, la différence a été mise à l’échelle pour créer un Changement en pourcentage, ce qui a facilité la comparaison des résultats à travers de nombreux tests.

Ce processus a révélé si les protections rendaient plus difficile ou plus facile pour l’IA de correspondre aux invites. Les tests ont été répétés cinq fois en utilisant des graines aléatoires différentes, couvrant à la fois les petits et les grands changements dans les légendes originales.

Attaque artistique

Pour les tests sur les photographies naturelles, l’ensemble de données Flickr1024 a été utilisé, contenant plus de mille images de haute qualité. Chaque image a été éditée avec des invites qui suivaient le modèle : ‘Changer le style en [V]’, où [V] représentait l’un des sept styles d’art célèbres : Cubisme ; Post-Impressionnisme ; Impressionnisme ; Surréalisme ; Baroque ; Fauvisme ; et Renaissance.

Le processus consistait à appliquer PhotoGuard aux images originales, à générer des versions protégées, puis à faire passer à la fois les images protégées et non protégées par le même ensemble d’invites de transfert de style :

Images originales et protégées d’une scène naturelle, chacune éditée pour appliquer les styles Cubisme, Surréalisme et Fauvisme.

Pour tester les méthodes de protection sur les œuvres d’art, le transfert de style a été effectué sur des images de l’ensemble de données WikiArt, qui présente une large gamme de styles artistiques. Les invites d’édition suivaient le même format qu’auparavant, en instruisant l’IA de changer le style en un style aléatoire et sans rapport, tiré des étiquettes WikiArt.

Les méthodes de protection Glaze et Mist ont été appliquées aux images avant les éditions, permettant aux chercheurs d’observer à quel point chaque défense pouvait bloquer ou déformer les résultats du transfert de style :

Exemples de l’effet des méthodes de protection sur le transfert de style sur les œuvres d’art. L’image originale Baroque est montrée aux côtés des versions protégées par Mist et Glaze. Après l’application du style de transfert Cubisme, les différences dans la façon dont chaque protection altère la sortie finale peuvent être vues.

Les chercheurs ont testé les comparaisons de manière quantitative :

Changements dans les scores d’alignement image-texte après les éditions de transfert de style.

Sur ces résultats, les auteurs commentent :

‘Les résultats mettent en évidence une limitation significative des perturbations adverses pour la protection. Au lieu d’empêcher l’alignement, les perturbations adverses améliorent souvent la réactivité du modèle génératif aux invites, permettant involontairement aux exploiteurs de produire des sorties qui correspondent plus étroitement à leurs objectifs. Une telle protection n’est pas perturbatrice pour le processus d’édition d’image et peut ne pas être en mesure d’empêcher les agents malveillants de copier du matériel non autorisé.

‘Les conséquences involontaires de l’utilisation de perturbations adverses révèlent des vulnérabilités dans les méthodes existantes et soulignent le besoin urgent de techniques de protection plus efficaces.’

Les auteurs expliquent que les résultats inattendus peuvent être attribués à la façon dont les modèles de diffusion fonctionnent : les LDM éditent les images en les convertissant d’abord en une version compressée appelée latente ; le bruit est ensuite ajouté à cette latence à travers de nombreuses étapes, jusqu’à ce que les données deviennent presque aléatoires.

Le modèle inverse ce processus pendant la génération, en supprimant le bruit étape par étape. À chaque étape de cette inversion, l’invite de texte aide à guider la façon dont le bruit doit être nettoyé, façonnant progressivement l’image pour la faire correspondre à l’invite :

Comparaison entre les générations à partir d’une image non protégée et d’une image protégée par PhotoGuard, avec des états latents intermédiaires convertis en images pour la visualisation.

Les méthodes de protection ajoutent de petites quantités de bruit supplémentaire à l’image originale avant qu’elle n’entre dans ce processus. Bien que ces perturbations soient mineures au début, elles s’accumulent à mesure que le modèle applique ses propres couches de bruit.

Cette accumulation laisse plus de parties de l’image « incertaines » lorsque le modèle commence à supprimer le bruit. Avec une plus grande incertitude, le modèle s’appuie davantage sur l’invite de texte pour combler les détails manquants, donnant à l’invite encore plus d’influence qu’elle n’en aurait normalement.

En effet, les protections rendent plus facile pour l’IA de remodeler l’image pour la faire correspondre à l’invite, plutôt que de le rendre plus difficile.

Enfin, les auteurs ont mené un test qui a substitué des perturbations conçues à partir du document de recherche Raising the Cost of Malicious AI-Powered Image Editing au bruit gaussien pur.

Les résultats ont suivi le même modèle observé précédemment : dans tous les tests, les valeurs de changement en pourcentage sont restées positives. Même ce bruit aléatoire et non structuré a conduit à une alignment plus forte entre les images générées et les invites.

Effet de la protection simulée à l’aide de bruit gaussien sur l’ensemble de données Flickr8k.

Cela a soutenu l’explication sous-jacente selon laquelle tout bruit ajouté, quelle que soit sa conception, crée une plus grande incertitude pour le modèle pendant la génération, permettant à l’invite de texte d’exercer encore plus de contrôle sur l’image finale.

Conclusion

La scène de la recherche a poussé la perturbation adverse sur la question du droit d’auteur des LDM depuis presque aussi longtemps que les LDM existent ; mais aucune solution résistante n’est émerge de l’extraordinaire nombre de documents publiés sur cette piste.

Soit les perturbations imposées dégradent excessivement la qualité de l’image, soit les modèles prouvent ne pas être résistants à la manipulation et aux processus de transformation.

Cependant, il s’agit d’un rêve difficile à abandonner, puisque l’alternative semblerait être des cadres de surveillance et de provenance tiers tels que le schéma C2PA mené par Adobe, qui vise à maintenir une chaîne de garde pour les images à partir du capteur de l’appareil photo, mais qui n’a pas de lien inhérent avec le contenu représenté.

Quoi qu’il en soit, si la perturbation adverse est réellement en train de rendre le problème pire, comme le suggère le nouveau document, on se demande si la recherche d’une protection du droit d’auteur par de tels moyens relève de l’« alchimie ».

Publié pour la première fois lundi 9 juin 2025