Suivez nous sur

Le problème du plagiat : comment les modèles d'IA gĂ©nĂ©rative reproduisent du contenu protĂ©gĂ© par le droit d'auteur

Intelligence Artificielle

Le problème du plagiat : comment les modèles d'IA gĂ©nĂ©rative reproduisent du contenu protĂ©gĂ© par le droit d'auteur

mm
plagiat dans l'IA

Les progrès rapides de l’IA générative ont suscité un enthousiasme quant au potentiel créatif de cette technologie. Pourtant, ces modèles puissants présentent également des risques inquiétants liés à la reproduction de contenus protégés par le droit d’auteur ou plagiés sans attribution appropriée.

Comment les réseaux de neurones absorbent les données d'entraînement

Les systèmes d'IA modernes comme GPT-3 sont formĂ©s via un processus appelĂ© apprentissage par transfert. Ils ingèrent des ensembles de donnĂ©es massifs extraits de sources publiques telles que des sites Web, des livres, des articles universitaires, etc. Par exemple, les donnĂ©es de formation de GPT-3 comprenaient 570 Go de texte. Pendant l’entraĂ®nement, l’IA recherche des modèles et des relations statistiques dans ce vaste pool de donnĂ©es. Il apprend les corrĂ©lations entre les mots, les phrases, les paragraphes, la structure de la langue et d'autres caractĂ©ristiques.

Cela permet à l’IA de générer de nouveaux textes ou images cohérents en prédisant les séquences susceptibles de suivre une entrée ou une invite donnée. Mais cela signifie également que ces modèles absorbent du contenu sans se soucier des risques de droits d’auteur, d’attribution ou de plagiat. En conséquence, les IA génératives peuvent involontairement reproduire des passages textuels ou paraphraser des textes protégés par le droit d’auteur à partir de leurs corpus de formation.

Exemples clés de plagiat de l’IA

Les inquiétudes concernant le plagiat de l'IA sont apparues de manière importante depuis 2020 après la sortie de GPT.

Des recherches récentes ont montré que les grands modèles linguistiques (LLM) comme GPT-3 peuvent reproduire des passages textuels substantiels de leurs données de formation sans citation (Nasr et al., 2023 ; Carlini et al., 2022). Par exemple, un procès intenté par le New York Times a révélé que le logiciel OpenAI générait des articles du New York Times presque textuellement (Le New York Times, 2023).

Ces résultats suggèrent que certains systèmes d’IA générative peuvent produire des résultats plagiés non sollicités, risquant ainsi de violer le droit d’auteur. Cependant, la prévalence reste incertaine en raison de la nature « boîte noire » des LLM. Le procès du New York Times affirme que de tels résultats constituent une contrefaçon, ce qui pourrait avoir des implications majeures pour le développement de l’IA générative. Dans l’ensemble, les preuves indiquent que le plagiat est un problème inhérent aux grands modèles de réseaux neuronaux qui nécessite vigilance et garanties.

Ces cas rĂ©vèlent deux facteurs clĂ©s influençant les risques de plagiat de l’IA :

  1. Taille du modèle – Les modèles plus grands comme GPT-3.5 sont plus enclins à régénérer des passages de texte textuels par rapport aux modèles plus petits. Leurs ensembles de données de formation plus volumineux augmentent l’exposition aux sources protégées par le droit d’auteur.
  2. Données d'entraînement – Les modèles formés sur des données Internet récupérées ou sur des œuvres protégées par le droit d'auteur (même sous licence) sont plus susceptibles de plagier que les modèles formés sur des ensembles de données soigneusement organisés.

Cependant, mesurer directement la prévalence des résultats plagiés est difficile. La nature de « boîte noire » des réseaux de neurones rend difficile la traçabilité complète de ce lien entre les données de formation et les résultats du modèle. Les tarifs dépendent probablement fortement de l’architecture du modèle, de la qualité des ensembles de données et de la formulation rapide. Mais ces cas confirment sans équivoque qu’un tel plagiat de l’IA existe, ce qui a des implications juridiques et éthiques cruciales.

Systèmes émergents de détection du plagiat

En réponse, les chercheurs ont commencé à explorer les systèmes d’IA pour détecter automatiquement le texte et les images générés par des modèles par rapport à ceux créés par des humains. Par exemple, des chercheurs de Mila ont proposé GenFace, qui analyse les modèles linguistiques révélateurs d'un texte écrit par l'IA. La startup Anthropic a également développé des capacités internes de détection de plagiat pour son IA conversationnelle Claude.

Cependant, ces outils ont des limites. Les données d'entraînement massives de modèles comme GPT-3 rendent difficile, voire impossible, l'identification des sources originales de textes plagiés. Des techniques plus robustes seront nécessaires à mesure que les modèles génératifs continuent d’évoluer rapidement. D’ici là, l’examen manuel reste essentiel pour filtrer les résultats de l’IA potentiellement plagiés ou en infraction avant leur utilisation publique.

Meilleures pratiques pour atténuer le plagiat de l’IA générative

Voici quelques bonnes pratiques que les dĂ©veloppeurs et les utilisateurs d’IA peuvent adopter pour minimiser les risques de plagiat :

Pour les dĂ©veloppeurs d'IA :

  • VĂ©rifiez soigneusement les sources de donnĂ©es de formation pour exclure le matĂ©riel protĂ©gĂ© par le droit d’auteur ou sous licence sans autorisations appropriĂ©es.
  • DĂ©velopper une documentation rigoureuse des donnĂ©es et des procĂ©dures de suivi de la provenance. Enregistrez les mĂ©tadonnĂ©es telles que les licences, les balises, les crĂ©ateurs, etc.
  • Mettez en Ĺ“uvre des outils de dĂ©tection du plagiat pour signaler les contenus Ă  haut risque avant leur publication.
  • Fournissez des rapports de transparence dĂ©taillant les sources de donnĂ©es de formation, les licences et les origines des rĂ©sultats de l'IA lorsque des problèmes surviennent.
  • Permettez aux crĂ©ateurs de contenu de se dĂ©sinscrire facilement des ensembles de donnĂ©es de formation. RĂ©pondez rapidement aux demandes de retrait ou d’exclusion.

Pour les utilisateurs d’IA gĂ©nĂ©rative :

  • Filtrez soigneusement les sorties pour dĂ©tecter tout passage potentiellement plagiĂ© ou non attribuĂ© avant de les dĂ©ployer Ă  grande Ă©chelle.
  • Évitez de traiter l’IA comme un système crĂ©atif entièrement autonome. Demandez Ă  des Ă©valuateurs humains d’examiner le contenu final.
  • PrivilĂ©giez la crĂ©ation humaine assistĂ©e par l’IA plutĂ´t que la gĂ©nĂ©ration de contenu entièrement nouveau Ă  partir de zĂ©ro. Utilisez plutĂ´t des modèles pour paraphraser ou imaginer.
  • Consultez les conditions de service, les politiques de contenu et les mesures de protection contre le plagiat du fournisseur d'IA avant utilisation. Évitez les modèles opaques.
  • Citer clairement les sources si du matĂ©riel protĂ©gĂ© par le droit d'auteur apparaĂ®t dans le rĂ©sultat final malgrĂ© tous les efforts dĂ©ployĂ©s. Ne prĂ©sentez pas le travail de l’IA comme entièrement original.
  • Limitez le partage des rĂ©sultats de manière privĂ©e ou confidentielle jusqu'Ă  ce que les risques de plagiat puissent ĂŞtre Ă©valuĂ©s et traitĂ©s plus en dĂ©tail.

Des réglementations plus strictes sur les données de formation peuvent également être justifiées à mesure que les modèles génératifs continuent de proliférer. Cela pourrait impliquer d’exiger le consentement des créateurs avant que leur œuvre ne soit ajoutée aux ensembles de données. Cependant, il incombe à la fois aux développeurs et aux utilisateurs d’employer des pratiques d’IA éthiques qui respectent les droits des créateurs de contenu.

Plagiat dans la V6 Alpha de Midjourney

Après des invites limitées Le modèle V6 de Midjourney certains chercheurs ont pu générer des images presque identiques à des films, des émissions de télévision et des captures d'écran de jeux vidéo protégés par le droit d'auteur, probablement inclus dans ses données de formation.

Images créées par Midjourney ressemblant à des scènes de films et de jeux vidéo célèbres

Images créées par Midjourney ressemblant à des scènes de films et de jeux vidéo célèbres

Ces expériences confirment en outre que même les systèmes d’IA visuelle de pointe peuvent plagier sans le savoir un contenu protégé si l’origine des données de formation n’est pas contrôlée. Cela souligne la nécessité de vigilance, de garanties et de surveillance humaine lors du déploiement commercial de modèles génératifs afin de limiter les risques d’infraction.

Réponse des entreprises d'IA sur le contenu protégé par le droit d'auteur

Les frontières entre la créativité humaine et celle de l’IA s’estompent, créant des questions complexes en matière de droit d’auteur. Les œuvres mêlant contribution humaine et intelligence artificielle ne peuvent être protégées par le droit d'auteur que dans les aspects exécutés uniquement par l'humain.

Le Bureau américain du droit d'auteur a récemment refusé le droit d'auteur sur la plupart des aspects d'un roman graphique IA-humain, considérant l'art de l'IA comme non humain. Il a également publié des directives excluant les systèmes d’IA de la « paternité ». Les tribunaux fédéraux ont confirmé cette position dans une affaire de droit d’auteur sur l’art de l’IA.

Pendant ce temps, des poursuites allèguent une violation de l’IA générative, comme Getty c. Stability AI et Artists c. À mi-parcours/Stabilité IA. Mais sans les « auteurs » de l’IA, certains se demandent si les allégations de contrefaçon s’appliquent.

En réponse, les grandes sociétés d’IA comme Meta, Google, Microsoft et Apple ont fait valoir qu’elles ne devraient pas avoir besoin de licences ni payer de redevances pour entraîner des modèles d’IA sur des données protégées par le droit d’auteur.

Voici un rĂ©sumĂ© des principaux arguments des principales sociĂ©tĂ©s d’IA en rĂ©ponse aux nouvelles règles amĂ©ricaines potentielles en matière de droit d’auteur concernant l’IA, avec des citations :

Meta soutient imposer des licences maintenant provoquerait le chaos et n’apporterait que peu d’avantages aux titulaires de droits d’auteur.

Google prétentions La formation à l’IA est analogue à des actes non contrefaits comme la lecture d’un livre (Google, 2022).

Microsoft met en garde la modification de la loi sur le droit d'auteur pourrait désavantager les petits développeurs d'IA.

Apple vouloir droit d'auteur code généré par l'IA contrôlé par des développeurs humains.

Dans l’ensemble, la plupart des entreprises s’opposent aux nouveaux mandats de licence et minimisent les inquiétudes concernant les systèmes d’IA reproduisant des œuvres protégées sans attribution. Cependant, cette position est controversée compte tenu des récents procès et débats sur les droits d’auteur de l’IA.

Voies pour une innovation responsable en IA générative

Ă€ mesure que ces puissants modèles gĂ©nĂ©ratifs continuent de progresser, il est essentiel d’éliminer les risques de plagiat pour que le grand public les accepte. Une approche Ă  plusieurs volets est nĂ©cessaire :

  • RĂ©formes politiques autour de la transparence des donnĂ©es de formation, des licences et du consentement des crĂ©ateurs.
  • Technologies de dĂ©tection du plagiat renforcĂ©es et gouvernance interne par les dĂ©veloppeurs.
  • Meilleure sensibilisation des utilisateurs aux risques et respect des principes Ă©thiques de l’IA.
  • Des prĂ©cĂ©dents juridiques et une jurisprudence clairs concernant les questions de droits d’auteur en matière d’IA.

Avec les bonnes garanties, la création assistée par l’IA peut prospérer de manière éthique. Mais les risques de plagiat non maîtrisés pourraient miner considérablement la confiance du public. S'attaquer directement à ce problème est essentiel pour réaliser l'immense potentiel créatif de l'IA générative tout en respectant les droits des créateurs. Pour parvenir au juste équilibre, il faudra s’attaquer activement à l’angle mort du plagiat inhérent à la nature même des réseaux de neurones. Mais cela garantira que ces modèles puissants ne sapent pas l’ingéniosité humaine qu’ils visent à accroître.

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.