Suivez nous sur

Le problĂšme du plagiat : comment les modĂšles d'IA gĂ©nĂ©rative reproduisent du contenu protĂ©gĂ© par le droit d'auteur

Intelligence Artificielle

Le problĂšme du plagiat : comment les modĂšles d'IA gĂ©nĂ©rative reproduisent du contenu protĂ©gĂ© par le droit d'auteur

mm

Publié

 on

plagiat dans l'IA

Les progrĂšs rapides de l’IA gĂ©nĂ©rative ont suscitĂ© un enthousiasme quant au potentiel crĂ©atif de cette technologie. Pourtant, ces modĂšles puissants prĂ©sentent Ă©galement des risques inquiĂ©tants liĂ©s Ă  la reproduction de contenus protĂ©gĂ©s par le droit d’auteur ou plagiĂ©s sans attribution appropriĂ©e.

Comment les réseaux de neurones absorbent les données d'entraßnement

Les systĂšmes d'IA modernes comme GPT-3 sont formĂ©s via un processus appelĂ© apprentissage par transfert. Ils ingĂšrent des ensembles de donnĂ©es massifs extraits de sources publiques telles que des sites Web, des livres, des articles universitaires, etc. Par exemple, les donnĂ©es de formation de GPT-3 comprenaient 570 Go de texte. Pendant l’entraĂźnement, l’IA recherche des modĂšles et des relations statistiques dans ce vaste pool de donnĂ©es. Il apprend les corrĂ©lations entre les mots, les phrases, les paragraphes, la structure de la langue et d'autres caractĂ©ristiques.

Cela permet Ă  l’IA de gĂ©nĂ©rer de nouveaux textes ou images cohĂ©rents en prĂ©disant les sĂ©quences susceptibles de suivre une entrĂ©e ou une invite donnĂ©e. Mais cela signifie Ă©galement que ces modĂšles absorbent du contenu sans se soucier des risques de droits d’auteur, d’attribution ou de plagiat. En consĂ©quence, les IA gĂ©nĂ©ratives peuvent involontairement reproduire des passages textuels ou paraphraser des textes protĂ©gĂ©s par le droit d’auteur Ă  partir de leurs corpus de formation.

Exemples clĂ©s de plagiat de l’IA

Les inquiétudes concernant le plagiat de l'IA sont apparues de maniÚre importante depuis 2020 aprÚs la sortie de GPT.

Des recherches récentes ont montré que les grands modÚles linguistiques (LLM) comme GPT-3 peuvent reproduire des passages textuels substantiels de leurs données de formation sans citation (Nasr et al., 2023 ; Carlini et al., 2022). Par exemple, un procÚs intenté par le New York Times a révélé que le logiciel OpenAI générait des articles du New York Times presque textuellement (Le New York Times, 2023).

Ces rĂ©sultats suggĂšrent que certains systĂšmes d’IA gĂ©nĂ©rative peuvent produire des rĂ©sultats plagiĂ©s non sollicitĂ©s, risquant ainsi de violer le droit d’auteur. Cependant, la prĂ©valence reste incertaine en raison de la nature « boĂźte noire » des LLM. Le procĂšs du New York Times affirme que de tels rĂ©sultats constituent une contrefaçon, ce qui pourrait avoir des implications majeures pour le dĂ©veloppement de l’IA gĂ©nĂ©rative. Dans l’ensemble, les preuves indiquent que le plagiat est un problĂšme inhĂ©rent aux grands modĂšles de rĂ©seaux neuronaux qui nĂ©cessite vigilance et garanties.

Ces cas rĂ©vĂšlent deux facteurs clĂ©s influençant les risques de plagiat de l’IA :

  1. Taille du modĂšle – Les modĂšles plus grands comme GPT-3.5 sont plus enclins Ă  rĂ©gĂ©nĂ©rer des passages de texte textuels par rapport aux modĂšles plus petits. Leurs ensembles de donnĂ©es de formation plus volumineux augmentent l’exposition aux sources protĂ©gĂ©es par le droit d’auteur.
  2. DonnĂ©es d'entraĂźnement – Les modĂšles formĂ©s sur des donnĂ©es Internet rĂ©cupĂ©rĂ©es ou sur des Ɠuvres protĂ©gĂ©es par le droit d'auteur (mĂȘme sous licence) sont plus susceptibles de plagier que les modĂšles formĂ©s sur des ensembles de donnĂ©es soigneusement organisĂ©s.

Cependant, mesurer directement la prĂ©valence des rĂ©sultats plagiĂ©s est difficile. La nature de « boĂźte noire » des rĂ©seaux de neurones rend difficile la traçabilitĂ© complĂšte de ce lien entre les donnĂ©es de formation et les rĂ©sultats du modĂšle. Les tarifs dĂ©pendent probablement fortement de l’architecture du modĂšle, de la qualitĂ© des ensembles de donnĂ©es et de la formulation rapide. Mais ces cas confirment sans Ă©quivoque qu’un tel plagiat de l’IA existe, ce qui a des implications juridiques et Ă©thiques cruciales.

SystÚmes émergents de détection du plagiat

En rĂ©ponse, les chercheurs ont commencĂ© Ă  explorer les systĂšmes d’IA pour dĂ©tecter automatiquement le texte et les images gĂ©nĂ©rĂ©s par des modĂšles par rapport Ă  ceux créés par des humains. Par exemple, des chercheurs de Mila ont proposĂ© GenFace, qui analyse les modĂšles linguistiques rĂ©vĂ©lateurs d'un texte Ă©crit par l'IA. La startup Anthropic a Ă©galement dĂ©veloppĂ© des capacitĂ©s internes de dĂ©tection de plagiat pour son IA conversationnelle Claude.

Cependant, ces outils ont des limites. Les donnĂ©es d'entraĂźnement massives de modĂšles comme GPT-3 rendent difficile, voire impossible, l'identification des sources originales de textes plagiĂ©s. Des techniques plus robustes seront nĂ©cessaires Ă  mesure que les modĂšles gĂ©nĂ©ratifs continuent d’évoluer rapidement. D’ici lĂ , l’examen manuel reste essentiel pour filtrer les rĂ©sultats de l’IA potentiellement plagiĂ©s ou en infraction avant leur utilisation publique.

Meilleures pratiques pour attĂ©nuer le plagiat de l’IA gĂ©nĂ©rative

Voici quelques bonnes pratiques que les dĂ©veloppeurs et les utilisateurs d’IA peuvent adopter pour minimiser les risques de plagiat :

Pour les dĂ©veloppeurs d'IA :

  • VĂ©rifiez soigneusement les sources de donnĂ©es de formation pour exclure le matĂ©riel protĂ©gĂ© par le droit d’auteur ou sous licence sans autorisations appropriĂ©es.
  • DĂ©velopper une documentation rigoureuse des donnĂ©es et des procĂ©dures de suivi de la provenance. Enregistrez les mĂ©tadonnĂ©es telles que les licences, les balises, les crĂ©ateurs, etc.
  • Mettez en Ɠuvre des outils de dĂ©tection du plagiat pour signaler les contenus Ă  haut risque avant leur publication.
  • Fournissez des rapports de transparence dĂ©taillant les sources de donnĂ©es de formation, les licences et les origines des rĂ©sultats de l'IA lorsque des problĂšmes surviennent.
  • Permettez aux crĂ©ateurs de contenu de se dĂ©sinscrire facilement des ensembles de donnĂ©es de formation. RĂ©pondez rapidement aux demandes de retrait ou d’exclusion.

Pour les utilisateurs d’IA gĂ©nĂ©rative :

  • Filtrez soigneusement les sorties pour dĂ©tecter tout passage potentiellement plagiĂ© ou non attribuĂ© avant de les dĂ©ployer Ă  grande Ă©chelle.
  • Évitez de traiter l’IA comme un systĂšme crĂ©atif entiĂšrement autonome. Demandez Ă  des Ă©valuateurs humains d’examiner le contenu final.
  • PrivilĂ©giez la crĂ©ation humaine assistĂ©e par l’IA plutĂŽt que la gĂ©nĂ©ration de contenu entiĂšrement nouveau Ă  partir de zĂ©ro. Utilisez plutĂŽt des modĂšles pour paraphraser ou imaginer.
  • Consultez les conditions de service, les politiques de contenu et les mesures de protection contre le plagiat du fournisseur d'IA avant utilisation. Évitez les modĂšles opaques.
  • Citer clairement les sources si du matĂ©riel protĂ©gĂ© par le droit d'auteur apparaĂźt dans le rĂ©sultat final malgrĂ© tous les efforts dĂ©ployĂ©s. Ne prĂ©sentez pas le travail de l’IA comme entiĂšrement original.
  • Limitez le partage des rĂ©sultats de maniĂšre privĂ©e ou confidentielle jusqu'Ă  ce que les risques de plagiat puissent ĂȘtre Ă©valuĂ©s et traitĂ©s plus en dĂ©tail.

Des rĂ©glementations plus strictes sur les donnĂ©es de formation peuvent Ă©galement ĂȘtre justifiĂ©es Ă  mesure que les modĂšles gĂ©nĂ©ratifs continuent de prolifĂ©rer. Cela pourrait impliquer d’exiger le consentement des crĂ©ateurs avant que leur Ɠuvre ne soit ajoutĂ©e aux ensembles de donnĂ©es. Cependant, il incombe Ă  la fois aux dĂ©veloppeurs et aux utilisateurs d’employer des pratiques d’IA Ă©thiques qui respectent les droits des crĂ©ateurs de contenu.

Plagiat dans la V6 Alpha de Midjourney

AprÚs des invites limitées Le modÚle V6 de Midjourney certains chercheurs ont pu générer des images presque identiques à des films, des émissions de télévision et des captures d'écran de jeux vidéo protégés par le droit d'auteur, probablement inclus dans ses données de formation.

Images créées par Midjourney ressemblant à des scÚnes de films et de jeux vidéo célÚbres

Images créées par Midjourney ressemblant à des scÚnes de films et de jeux vidéo célÚbres

Ces expĂ©riences confirment en outre que mĂȘme les systĂšmes d’IA visuelle de pointe peuvent plagier sans le savoir un contenu protĂ©gĂ© si l’origine des donnĂ©es de formation n’est pas contrĂŽlĂ©e. Cela souligne la nĂ©cessitĂ© de vigilance, de garanties et de surveillance humaine lors du dĂ©ploiement commercial de modĂšles gĂ©nĂ©ratifs afin de limiter les risques d’infraction.

Réponse des entreprises d'IA sur le contenu protégé par le droit d'auteur

Les frontiĂšres entre la crĂ©ativitĂ© humaine et celle de l’IA s’estompent, crĂ©ant des questions complexes en matiĂšre de droit d’auteur. Les Ɠuvres mĂȘlant contribution humaine et intelligence artificielle ne peuvent ĂȘtre protĂ©gĂ©es par le droit d'auteur que dans les aspects exĂ©cutĂ©s uniquement par l'humain.

Le Bureau amĂ©ricain du droit d'auteur a rĂ©cemment refusĂ© le droit d'auteur sur la plupart des aspects d'un roman graphique IA-humain, considĂ©rant l'art de l'IA comme non humain. Il a Ă©galement publiĂ© des directives excluant les systĂšmes d’IA de la « paternitĂ© ». Les tribunaux fĂ©dĂ©raux ont confirmĂ© cette position dans une affaire de droit d’auteur sur l’art de l’IA.

Pendant ce temps, des poursuites allĂšguent une violation de l’IA gĂ©nĂ©rative, comme Getty c. Stability AI et Artists c. À mi-parcours/StabilitĂ© IA. Mais sans les « auteurs » de l’IA, certains se demandent si les allĂ©gations de contrefaçon s’appliquent.

En rĂ©ponse, les grandes sociĂ©tĂ©s d’IA comme Meta, Google, Microsoft et Apple ont fait valoir qu’elles ne devraient pas avoir besoin de licences ni payer de redevances pour entraĂźner des modĂšles d’IA sur des donnĂ©es protĂ©gĂ©es par le droit d’auteur.

Voici un rĂ©sumĂ© des principaux arguments des principales sociĂ©tĂ©s d’IA en rĂ©ponse aux nouvelles rĂšgles amĂ©ricaines potentielles en matiĂšre de droit d’auteur concernant l’IA, avec des citations :

Meta soutient imposer des licences maintenant provoquerait le chaos et n’apporterait que peu d’avantages aux titulaires de droits d’auteur.

Google prĂ©tentions La formation Ă  l’IA est analogue Ă  des actes non contrefaits comme la lecture d’un livre (Google, 2022).

Microsoft met en garde la modification de la loi sur le droit d'auteur pourrait désavantager les petits développeurs d'IA.

Apple vouloir droit d'auteur code généré par l'IA contrÎlé par des développeurs humains.

Dans l’ensemble, la plupart des entreprises s’opposent aux nouveaux mandats de licence et minimisent les inquiĂ©tudes concernant les systĂšmes d’IA reproduisant des Ɠuvres protĂ©gĂ©es sans attribution. Cependant, cette position est controversĂ©e compte tenu des rĂ©cents procĂšs et dĂ©bats sur les droits d’auteur de l’IA.

Voies pour une innovation responsable en IA générative

À mesure que ces puissants modĂšles gĂ©nĂ©ratifs continuent de progresser, il est essentiel d’éliminer les risques de plagiat pour que le grand public les accepte. Une approche Ă  plusieurs volets est nĂ©cessaire :

  • RĂ©formes politiques autour de la transparence des donnĂ©es de formation, des licences et du consentement des crĂ©ateurs.
  • Technologies de dĂ©tection du plagiat renforcĂ©es et gouvernance interne par les dĂ©veloppeurs.
  • Meilleure sensibilisation des utilisateurs aux risques et respect des principes Ă©thiques de l’IA.
  • Des prĂ©cĂ©dents juridiques et une jurisprudence clairs concernant les questions de droits d’auteur en matiĂšre d’IA.

Avec les bonnes garanties, la crĂ©ation assistĂ©e par l’IA peut prospĂ©rer de maniĂšre Ă©thique. Mais les risques de plagiat non maĂźtrisĂ©s pourraient miner considĂ©rablement la confiance du public. S'attaquer directement Ă  ce problĂšme est essentiel pour rĂ©aliser l'immense potentiel crĂ©atif de l'IA gĂ©nĂ©rative tout en respectant les droits des crĂ©ateurs. Pour parvenir au juste Ă©quilibre, il faudra s’attaquer activement Ă  l’angle mort du plagiat inhĂ©rent Ă  la nature mĂȘme des rĂ©seaux de neurones. Mais cela garantira que ces modĂšles puissants ne sapent pas l’ingĂ©niositĂ© humaine qu’ils visent Ă  accroĂźtre.

J'ai passé les cinq derniÚres années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hùte d'explorer davantage.