Suivez nous sur

Automatisation de la protection des droits d'auteur dans les images générées par l'IA

Angle d'Anderson

Automatisation de la protection des droits d'auteur dans les images générées par l'IA

mm
ChatGPT-4o : « Image 1792x1024px d'une vue de face d'un tribunal de grande instance britannique composé de trois robots portant des perruques judiciaires. Ils examinent tous une photographie 8x10, mais nous ne pouvons pas voir de quoi il s'agit, car elle nous tourne le dos. HQ, image cinématographique fixe »

Tel que discuté la semaine dernière, même les modèles fondamentaux des systèmes d'IA génératifs populaires peuvent produire du contenu portant atteinte au droit d'auteur, en raison de curation inadéquate ou mal alignée, ainsi que la présence de plusieurs versions de la même image dans les données de formation, conduisant à surajustement, et en augmentant la probabilité de reproductions reconnaissables.

Malgré les efforts pour dominer l'espace de l'IA générative et la pression croissante pour freiner la violation de la propriété intellectuelle, les principales plateformes comme MidJourney et DALL-E d'OpenAI continuent de face à des défis pour empêcher la reproduction involontaire de contenus protégés par le droit d’auteur :

La capacité des systèmes génératifs à reproduire des données protégées par le droit d’auteur apparaît régulièrement dans les médias.

La capacité des systèmes génératifs à reproduire des données protégées par le droit d’auteur apparaît régulièrement dans les médias.

À mesure que de nouveaux modèles émergent et que les modèles chinois gagner la domination, la suppression du matériel protégé par le droit d'auteur dans les modèles de fondation est une perspective onéreuse ; en fait, le leader du marché open.ai a déclaré l'année dernière qu'il était 'impossible' pour créer des modèles efficaces et utiles sans données protégées par le droit d'auteur.

Art antérieur

En ce qui concerne la génération par inadvertance de matériel protégé par le droit d'auteur, le milieu de la recherche est confronté à un défi similaire à celui de l'inclusion de matériel pornographique et d'autres matériels NSFW dans les données sources : on veut bénéficier de la connaissance (c'est-à-dire, anatomie humaine correcte, qui a toujours été historiquement basé sur des études de nu) sans la capacité d’en abuser.

De même, les modélistes veulent bénéficier de l'énorme quantité de matériel protégé par le droit d'auteur qui se retrouve dans des ensembles hyperscale tels que LAION, sans que le modèle ne développe la capacité de porter réellement atteinte à la propriété intellectuelle.

Sans tenir compte des risques éthiques et juridiques liés à la tentative de dissimulation de l'utilisation de matériel protégé par le droit d'auteur, le filtrage pour ce dernier cas est beaucoup plus difficile. Le contenu NSFW contient souvent des traces latentes distinctes de faible niveau Caractéristiques qui permettent un filtrage de plus en plus efficace sans nécessiter de comparaisons directes avec des éléments du monde réel. En revanche, inclusions latentes Les critères qui définissent des millions d’œuvres protégées par le droit d’auteur ne se réduisent pas à un ensemble de marqueurs facilement identifiables, ce qui rend la détection automatisée beaucoup plus complexe.

Juge de copie

Le jugement humain est une denrée rare et coûteuse, tant dans la conservation des ensembles de données que dans la création de filtres de post-traitement et de systèmes basés sur la « sécurité » conçus pour garantir que le matériel verrouillé par IP n'est pas livré aux utilisateurs de portails basés sur des API tels que MidJourney et la capacité de génération d'images de ChatGPT.

C'est pourquoi une nouvelle collaboration académique entre la Suisse, Sony AI et la Chine propose Juge de copie – une méthode automatisée d'orchestration de groupes successifs de « juges » collusoires basés sur ChatGPT qui peuvent examiner les entrées à la recherche de signes de violation probable du droit d'auteur.

CopyJudge évalue plusieurs générations d'IA marginalisées par la propriété intellectuelle. Source : https://arxiv.org/pdf/2502.15278

CopyJudge évalue différentes générations d'IA marginalisées par IP. Source : https://arxiv.org/pdf/2502.15278

CopyJudge propose efficacement un cadre automatisé exploitant de grands modèles de vision-langage (LVLM) pour déterminer la similitude substantielle entre les images protégées par le droit d'auteur et celles produites par des modèles de diffusion de texte en image.

L’approche CopyJudge utilise l’apprentissage par renforcement pour optimiser les invites portant atteinte au droit d’auteur, puis utilise les informations de ces invites pour créer de nouvelles invites moins susceptibles d’invoquer des images protégées par le droit d’auteur.

L’approche CopyJudge utilise l’apprentissage par renforcement et d’autres approches pour optimiser les invites portant atteinte au droit d’auteur, puis utilise les informations de ces invites pour créer de nouvelles invites moins susceptibles d’invoquer des images protégées par le droit d’auteur.

Bien que de nombreux générateurs d'images en ligne basés sur l'IA filtrent les invites des utilisateurs pour détecter les contenus NSFW, protégés par le droit d'auteur, les recréations de personnes réelles et divers autres domaines interdits, CopyJudge utilise plutôt des invites « contrefaisantes » raffinées pour créer des invites « aseptisées » qui sont les moins susceptibles d'évoquer des images interdites, sans l'intention de bloquer directement la soumission de l'utilisateur.

Bien que cette approche ne soit pas nouvelle, elle contribue dans une certaine mesure à libérer les systèmes génératifs basés sur des API du simple refus de la saisie de l'utilisateur (notamment parce que cela permet aux utilisateurs de développer accès par porte dérobée aux générations interdites, par l’expérimentation).

Un exploit récent (depuis fermé par les développeurs) permettait aux utilisateurs de générer du matériel pornographique sur la plateforme d'IA générative Kling simplement en incluant une croix proéminente, ou un crucifix, dans l'image téléchargée dans un flux de travail image-vidéo.

Grâce à une faille corrigée par les développeurs de Kling fin 2024, les utilisateurs pourraient forcer le système à produire des vidéos NSFW interdites simplement en exigeant qu'une croix ou un crucifix soit bien visible au début de la vidéo. Bien qu'aucune explication n'ait été fournie quant à la logique derrière ce piratage désormais expiré, on pourrait imaginer qu'il a été conçu pour autoriser la nudité religieuse chrétienne (masculine) « acceptable » dans les représentations d'une crucifixion ; et que l'invocation d'une image de « croix » « déverrouillait » effectivement une production NSFW plus large ; mais nous ne le saurons peut-être jamais ! Source : Discord

Dans une faille corrigĂ©e par les dĂ©veloppeurs de Kling fin 2024, les utilisateurs pouvaient forcer le système Ă  produire une sortie NSFW interdite simplement en incluant une croix ou un crucifix dans l'image de dĂ©part I2V. Aucune explication n'a Ă©tĂ© fournie quant Ă  la logique derrière ce piratage dĂ©sormais expirĂ©.  Source : Discord

Des exemples comme celui-ci soulignent la nécessité d'une désinfection rapide des systèmes génératifs en ligne, d'autant plus que le désapprentissage automatique, dans lequel le modèle de base lui-même est modifié pour supprimer les concepts interdits, peut avoir effets indésirables sur la facilité d'utilisation du modèle final.

À la recherche de solutions moins radicales, le système CopyJudge imite les jugements juridiques humains en utilisant l'IA pour décomposer les images en éléments clés tels que la composition et la couleur, pour filtrer les parties non protégées par le droit d'auteur et comparer ce qui reste. Il comprend également une méthode basée sur l'IA pour ajuster les invites et modifier la génération d'images, ce qui permet d'éviter les problèmes de droits d'auteur tout en préservant le contenu créatif.

Les résultats expérimentaux, soutiennent les auteurs, démontrent l'équivalence de CopyJudge avec les approches de pointe dans cette quête et indiquent que le système présente des performances supérieures. généralisation et l’interprétabilité, par rapport aux travaux antérieurs.

Le nouveau papier est intitulé CopyJudge : Identification et atténuation automatisées des violations du droit d'auteur dans les modèles de diffusion de texte en image, et provient de cinq chercheurs de l'EPFL, de Sony AI et de l'Université Westlake de Chine.

Méthode

Bien que CopyJudge utilise GPT pour créer des tribunaux roulants de juges automatisés, les auteurs soulignent que le système n'est pas optimisé pour le produit d'OpenAI et qu'un certain nombre de modèles de langage de vision large alternatifs (LVLM) pourraient être utilisés à la place.

Dans un premier temps, le cadre d'abstraction-filtration-comparaison des auteurs est nécessaire pour décomposer les images sources en parties constitutives, comme illustré dans la partie gauche du schéma ci-dessous :

Schéma conceptuel de la phase initiale du workflow CopyJudge.

Schéma conceptuel de la phase initiale du workflow CopyJudge.

Dans le coin inférieur gauche, nous voyons un agent de filtrage qui décompose les sections de l'image pour tenter d'identifier les caractéristiques qui pourraient être inhérentes à une œuvre protégée par le droit d'auteur en concert, mais qui en elles-mêmes seraient trop génériques pour être qualifiées de violation.

Plusieurs LVLM sont ensuite utilisés pour évaluer les éléments filtrés – une approche qui s'est avérée efficace dans des articles tels que le CSAIL 2023 offrant Améliorer la réalité et le raisonnement dans les modèles linguistiques grâce au débat multi-agentset ChatEval, parmi d’autres reconnus dans le nouveau document.

Les auteurs déclarent:

« [Nous] adoptons une approche de débat de communication synchrone entièrement connectée, où chaque LVLM reçoit les [réponses] des [autres] LVLM avant de rendre le jugement suivant. Cela crée une boucle de rétroaction dynamique qui renforce la fiabilité et la profondeur de l'analyse, car les modèles adaptent leurs évaluations en fonction des nouvelles informations présentées par leurs pairs.

« Chaque LVLM peut ajuster son score en fonction des réponses des autres LVLM ou le laisser inchangé. »

Plusieurs paires d'images notées par des humains sont également incluses dans le processus via l'apprentissage contextuel en quelques prises de vue.

Une fois que les « tribunaux » de la boucle sont parvenus à un score consensuel qui se situe dans la plage d'acceptabilité, les résultats sont transmis à un « méta-juge » LVLM, qui synthétise les résultats en un score final.

Mesures

Ensuite, les auteurs se sont concentrés sur le processus d’atténuation rapide décrit précédemment.

Schéma de CopyJudge pour atténuer les atteintes au droit d'auteur en affinant les invites et le bruit latent. Le système ajuste les invites de manière itérative en fonction des commentaires itératifs et utilise l'apprentissage par renforcement pour modifier les variables latentes, réduisant ainsi le risque d'infraction.

Schéma de CopyJudge pour atténuer les atteintes au droit d'auteur en affinant les invites et le bruit latent. Le système ajuste les invites de manière itérative, en utilisant l'apprentissage par renforcement pour modifier les variables latentes à mesure que les invites évoluent, réduisant ainsi le risque de violation.

Les deux méthodes utilisées pour l'atténuation rapide étaient le contrôle rapide basé sur LVLM, où des invites efficaces et non contrefaisantes sont développées de manière itérative dans les clusters GPT - une approche entièrement « boîte noire », ne nécessitant aucun accès interne à l'architecture du modèle ; et un apprentissage par renforcementapproche basée sur le RL (RL-based), où la récompense est conçue pour pénaliser les résultats qui enfreignent le droit d'auteur.

Données et tests

Pour tester CopyJudge, divers ensembles de données ont été utilisés, notamment D-Rep, qui contient des paires d'images réelles et fausses notées par des humains sur une note de 0 à 5.

Exploration de l'ensemble de données D-Rep sur Hugging Face. Cette collection associe des images réelles et générées. Source : https://huggingface.co/datasets/WenhaoWang/D-Rep/viewer/default/

Exploration de l'ensemble de données D-Rep sur Hugging Face. Cette collection associe des images réelles et générées. Source : https://huggingface.co/datasets/WenhaoWang/D-Rep/viewer/default/

Le schĂ©ma CopyJudge a considĂ©rĂ© les images D-Rep qui ont obtenu un score de 4 ou plus comme des exemples d'infraction, les autres Ă©tant considĂ©rĂ©es comme non pertinentes pour la propriĂ©tĂ© intellectuelle. Les 4000 10 images officielles de l'ensemble de donnĂ©es ont Ă©tĂ© utilisĂ©es comme images de test. De plus, les chercheurs ont sĂ©lectionnĂ© et organisĂ© des images de XNUMX personnages de dessins animĂ©s cĂ©lèbres de WikipĂ©dia.

Les trois architectures basées sur la diffusion utilisées pour générer des images potentiellement contrefaisantes étaient Diffusion stable V2; Kandinsky2-2Et Diffusion Stable XLLes auteurs ont sélectionné manuellement une image contrefaisante et une image non contrefaisante de chacun des modèles, obtenant ainsi 60 échantillons positifs et 60 échantillons négatifs.

Les mĂ©thodes de base sĂ©lectionnĂ©es pour la comparaison Ă©taient les suivantes : L2 norme; SimilaritĂ© des patchs d'images perceptuelles apprises (LPIP); SSCD; RLCPEt PDF-Emb. Pour les mĂ©triques, la prĂ©cision et Score F1 ont Ă©tĂ© utilisĂ©s comme critères d’infraction.

GPT-4o a été utilisé pour alimenter les équipes de débat internes de CopyJudge, en utilisant trois agents pour un maximum de cinq itérations sur une image soumise particulière. Trois images aléatoires de chaque classement dans D-Rep ont été utilisées comme humains antérieurs pour que les agents puissent y réfléchir.

Résultats des infractions pour CopyJudge au premier tour.

Résultats des infractions pour CopyJudge au premier tour.

De ces résultats les auteurs commentent :

« Il est évident que les méthodes traditionnelles de détection de copies d'images présentent des limites dans la tâche d'identification des violations de droits d'auteur. Notre approche surpasse considérablement la plupart des méthodes. Pour la méthode de pointe, PDF-Emb, qui a été formée sur 36,000 XNUMX échantillons du D-Rep, nos performances sur D-Rep sont légèrement inférieures.

« Cependant, ses faibles performances sur l'ensemble de données Cartoon IP et Artwork mettent en évidence son manque de capacité de généralisation, alors que notre méthode démontre des résultats tout aussi excellents sur tous les ensembles de données. »

Les auteurs notent également que CopyJudge fournit une frontière « relativement » plus distincte entre les cas valides et les cas contrefaisants :

D'autres exemples tirés des cycles de tests sont présentés dans le matériel supplémentaire du nouveau document.

D'autres exemples tirés des cycles de tests sont présentés dans le matériel supplémentaire du nouveau document.

Les chercheurs ont comparé leurs méthodes à celles d'une IA de Sony collaboration à partir de 2024 intitulé Détecter, expliquer et atténuer la mémorisation dans les modèles de diffusionCe travail a utilisé un modèle de diffusion stable affiné comportant 200 images mémorisées (c'est-à-dire surajustées), pour obtenir des données protégées par le droit d'auteur au moment de l'inférence.

Les auteurs de la nouvelle étude ont constaté que leur propre méthode d’atténuation rapide, par rapport à l’approche 2024, était capable de produire des images moins susceptibles de provoquer une infraction.

Résultats de l'atténuation de la mémorisation avec CopyJudge comparés aux travaux de 2024.

Résultats de l'atténuation de la mémorisation avec CopyJudge comparés aux travaux de 2024.

Les auteurs commentent ici :

« Notre approche pourrait gĂ©nĂ©rer des images moins susceptibles de porter atteinte Ă  la propriĂ©tĂ© intellectuelle, tout en conservant une prĂ©cision de correspondance comparable, lĂ©gèrement rĂ©duite. Comme le montre l'image ci-dessous, notre mĂ©thode Ă©vite efficacement les inconvĂ©nients de la mĂ©thode prĂ©cĂ©dente, notamment l'incapacitĂ© Ă  attĂ©nuer la mĂ©morisation ou la gĂ©nĂ©ration d'images très dĂ©viantes. Â»

Comparaison des images générées et des invites avant et après l'atténuation de la mémorisation.

Comparaison des images générées et des invites avant et après l'atténuation de la mémorisation.

Les auteurs ont effectué d’autres tests concernant l’atténuation des infractions, en étudiant explicite et implicitement infraction.

Infraction explicite se produit lorsque les invites font directement rĂ©fĂ©rence Ă  du matĂ©riel protĂ©gĂ© par le droit d'auteur, tel que « GĂ©nĂ©rer une image de Mickey Mouse Â»Pour tester cela, les chercheurs ont utilisĂ© 20 Ă©chantillons de dessins animĂ©s et d’œuvres d’art, gĂ©nĂ©rant des images contrefaisantes dans Stable Diffusion v2 avec des invites qui incluaient explicitement les noms ou les attributions d’auteur.

Une comparaison entre la méthode de contrôle latent (LC) des auteurs et la méthode de contrôle rapide (PC) des travaux antérieurs, dans diverses variantes, utilisant la diffusion stable pour créer des images illustrant une violation explicite.

Une comparaison entre la méthode de contrôle latent (LC) des auteurs et la méthode de contrôle rapide (PC) des travaux antérieurs, dans diverses variantes, utilisant la diffusion stable pour créer des images illustrant une violation explicite.

Contrefaçon implicite Cela se produit lorsqu'une invite ne contient pas de références explicites au droit d'auteur, mais génère néanmoins une image contrefaisante en raison de certains éléments descriptifs - un scénario particulièrement pertinent pour les modèles commerciaux de texte en image, qui intègrent souvent des systèmes de détection de contenu pour identifier et bloquer les invites liées au droit d'auteur.

Pour explorer cela, les auteurs ont utilisé les mêmes échantillons verrouillés par IP que dans le test de violation explicite, mais ont généré des images contrefaisantes sans références directes au droit d'auteur, en utilisant DALL-E 3 (bien que l'article note que le module de détection de sécurité intégré du modèle a été observé pour rejeter certaines invites qui ont déclenché ses filtres).

Violation implicite utilisant DALLE-3, avec scores de violation et CLIP.

Violation implicite utilisant DALLE-3, avec scores de violation et CLIP.

Les auteurs déclarent:

« [On] peut constater que notre méthode réduit considérablement la probabilité d'infraction, tant pour les infractions explicites qu'implicites, avec seulement une légère baisse du score CLIP. Le score d'infraction après un contrôle latent uniquement est relativement plus élevé qu'après un contrôle rapide, car la récupération des latents non contrefaisants sans modifier l'invite est assez difficile. Cependant, nous pouvons toujours réduire efficacement le score d'infraction tout en maintenant une qualité de correspondance image-texte plus élevée.

« [L'image ci-dessous] montre les résultats de la visualisation, où l'on peut observer que nous évitons la violation de la propriété intellectuelle tout en préservant les exigences des utilisateurs. »

Images générées avant et après atténuation des violations de propriété intellectuelle.

Images générées avant et après atténuation des violations de propriété intellectuelle.

Conclusion

Bien que l’étude présente une approche prometteuse de la protection du droit d’auteur dans les images générées par l’IA, le recours à de grands modèles de vision et de langage (LVLM) pour la détection des infractions pourrait soulever des inquiétudes quant aux préjugés et à la cohérence, car les jugements basés sur l’IA peuvent ne pas toujours être conformes aux normes juridiques.

Peut-être plus important encore, le projet suppose également que l’application du droit d’auteur peut être automatisée, malgré les décisions juridiques du monde réel qui impliquent souvent des facteurs subjectifs et contextuels que l’IA peut avoir du mal à interpréter.

Dans le monde réel, l’automatisation du consensus juridique, plus particulièrement autour des résultats de l’IA, semble susceptible de rester une question controversée bien au-delà de cette période et bien au-delà de la portée du domaine abordé dans cet ouvrage.

 

Première publication le lundi 24 février 2025

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai