Intelligence Artificielle
Le problÚme du plagiat : comment les modÚles d'IA générative reproduisent du contenu protégé par le droit d'auteur

Les progrĂšs rapides de lâIA gĂ©nĂ©rative ont suscitĂ© un enthousiasme quant au potentiel crĂ©atif de cette technologie. Pourtant, ces modĂšles puissants prĂ©sentent Ă©galement des risques inquiĂ©tants liĂ©s Ă la reproduction de contenus protĂ©gĂ©s par le droit dâauteur ou plagiĂ©s sans attribution appropriĂ©e.
Comment les réseaux de neurones absorbent les données d'entraßnement
Les systĂšmes d'IA modernes comme GPT-3 sont formĂ©s via un processus appelĂ© apprentissage par transfert. Ils ingĂšrent des ensembles de donnĂ©es massifs extraits de sources publiques telles que des sites Web, des livres, des articles universitaires, etc. Par exemple, les donnĂ©es de formation de GPT-3 comprenaient 570 Go de texte. Pendant lâentraĂźnement, lâIA recherche des modĂšles et des relations statistiques dans ce vaste pool de donnĂ©es. Il apprend les corrĂ©lations entre les mots, les phrases, les paragraphes, la structure de la langue et d'autres caractĂ©ristiques.
Cela permet Ă lâIA de gĂ©nĂ©rer de nouveaux textes ou images cohĂ©rents en prĂ©disant les sĂ©quences susceptibles de suivre une entrĂ©e ou une invite donnĂ©e. Mais cela signifie Ă©galement que ces modĂšles absorbent du contenu sans se soucier des risques de droits dâauteur, dâattribution ou de plagiat. En consĂ©quence, les IA gĂ©nĂ©ratives peuvent involontairement reproduire des passages textuels ou paraphraser des textes protĂ©gĂ©s par le droit dâauteur Ă partir de leurs corpus de formation.
Exemples clĂ©s de plagiat de lâIA
Les inquiétudes concernant le plagiat de l'IA sont apparues de maniÚre importante depuis 2020 aprÚs la sortie de GPT.
Des recherches récentes ont montré que les grands modÚles linguistiques (LLM) comme GPT-3 peuvent reproduire des passages textuels substantiels de leurs données de formation sans citation (Nasr et al., 2023 ; Carlini et al., 2022). Par exemple, un procÚs intenté par le New York Times a révélé que le logiciel OpenAI générait des articles du New York Times presque textuellement (Le New York Times, 2023).
Ces rĂ©sultats suggĂšrent que certains systĂšmes dâIA gĂ©nĂ©rative peuvent produire des rĂ©sultats plagiĂ©s non sollicitĂ©s, risquant ainsi de violer le droit dâauteur. Cependant, la prĂ©valence reste incertaine en raison de la nature « boĂźte noire » des LLM. Le procĂšs du New York Times affirme que de tels rĂ©sultats constituent une contrefaçon, ce qui pourrait avoir des implications majeures pour le dĂ©veloppement de lâIA gĂ©nĂ©rative. Dans lâensemble, les preuves indiquent que le plagiat est un problĂšme inhĂ©rent aux grands modĂšles de rĂ©seaux neuronaux qui nĂ©cessite vigilance et garanties.
Ces cas rĂ©vĂšlent deux facteurs clĂ©s influençant les risques de plagiat de lâIA :
- Taille du modĂšle â Les modĂšles plus grands comme GPT-3.5 sont plus enclins Ă rĂ©gĂ©nĂ©rer des passages de texte textuels par rapport aux modĂšles plus petits. Leurs ensembles de donnĂ©es de formation plus volumineux augmentent lâexposition aux sources protĂ©gĂ©es par le droit dâauteur.
- DonnĂ©es d'entraĂźnement â Les modĂšles formĂ©s sur des donnĂ©es Internet rĂ©cupĂ©rĂ©es ou sur des Ćuvres protĂ©gĂ©es par le droit d'auteur (mĂȘme sous licence) sont plus susceptibles de plagier que les modĂšles formĂ©s sur des ensembles de donnĂ©es soigneusement organisĂ©s.
Cependant, mesurer directement la prĂ©valence des rĂ©sultats plagiĂ©s est difficile. La nature de « boĂźte noire » des rĂ©seaux de neurones rend difficile la traçabilitĂ© complĂšte de ce lien entre les donnĂ©es de formation et les rĂ©sultats du modĂšle. Les tarifs dĂ©pendent probablement fortement de lâarchitecture du modĂšle, de la qualitĂ© des ensembles de donnĂ©es et de la formulation rapide. Mais ces cas confirment sans Ă©quivoque quâun tel plagiat de lâIA existe, ce qui a des implications juridiques et Ă©thiques cruciales.
SystÚmes émergents de détection du plagiat
En rĂ©ponse, les chercheurs ont commencĂ© Ă explorer les systĂšmes dâIA pour dĂ©tecter automatiquement le texte et les images gĂ©nĂ©rĂ©s par des modĂšles par rapport Ă ceux créés par des humains. Par exemple, des chercheurs de Mila ont proposĂ© GenFace, qui analyse les modĂšles linguistiques rĂ©vĂ©lateurs d'un texte Ă©crit par l'IA. La startup Anthropic a Ă©galement dĂ©veloppĂ© des capacitĂ©s internes de dĂ©tection de plagiat pour son IA conversationnelle Claude.
Cependant, ces outils ont des limites. Les donnĂ©es d'entraĂźnement massives de modĂšles comme GPT-3 rendent difficile, voire impossible, l'identification des sources originales de textes plagiĂ©s. Des techniques plus robustes seront nĂ©cessaires Ă mesure que les modĂšles gĂ©nĂ©ratifs continuent dâĂ©voluer rapidement. Dâici lĂ , lâexamen manuel reste essentiel pour filtrer les rĂ©sultats de lâIA potentiellement plagiĂ©s ou en infraction avant leur utilisation publique.
Meilleures pratiques pour attĂ©nuer le plagiat de lâIA gĂ©nĂ©rative
Voici quelques bonnes pratiques que les dĂ©veloppeurs et les utilisateurs dâIA peuvent adopter pour minimiser les risques de plagiat :
Pour les développeurs d'IA :
- VĂ©rifiez soigneusement les sources de donnĂ©es de formation pour exclure le matĂ©riel protĂ©gĂ© par le droit dâauteur ou sous licence sans autorisations appropriĂ©es.
- Développer une documentation rigoureuse des données et des procédures de suivi de la provenance. Enregistrez les métadonnées telles que les licences, les balises, les créateurs, etc.
- Mettez en Ćuvre des outils de dĂ©tection du plagiat pour signaler les contenus Ă haut risque avant leur publication.
- Fournissez des rapports de transparence détaillant les sources de données de formation, les licences et les origines des résultats de l'IA lorsque des problÚmes surviennent.
- Permettez aux crĂ©ateurs de contenu de se dĂ©sinscrire facilement des ensembles de donnĂ©es de formation. RĂ©pondez rapidement aux demandes de retrait ou dâexclusion.
Pour les utilisateurs dâIA gĂ©nĂ©rative :
- Filtrez soigneusement les sorties pour détecter tout passage potentiellement plagié ou non attribué avant de les déployer à grande échelle.
- Ăvitez de traiter lâIA comme un systĂšme crĂ©atif entiĂšrement autonome. Demandez Ă des Ă©valuateurs humains dâexaminer le contenu final.
- PrivilĂ©giez la crĂ©ation humaine assistĂ©e par lâIA plutĂŽt que la gĂ©nĂ©ration de contenu entiĂšrement nouveau Ă partir de zĂ©ro. Utilisez plutĂŽt des modĂšles pour paraphraser ou imaginer.
- Consultez les conditions de service, les politiques de contenu et les mesures de protection contre le plagiat du fournisseur d'IA avant utilisation. Ăvitez les modĂšles opaques.
- Citer clairement les sources si du matĂ©riel protĂ©gĂ© par le droit d'auteur apparaĂźt dans le rĂ©sultat final malgrĂ© tous les efforts dĂ©ployĂ©s. Ne prĂ©sentez pas le travail de lâIA comme entiĂšrement original.
- Limitez le partage des rĂ©sultats de maniĂšre privĂ©e ou confidentielle jusqu'Ă ce que les risques de plagiat puissent ĂȘtre Ă©valuĂ©s et traitĂ©s plus en dĂ©tail.
Des rĂ©glementations plus strictes sur les donnĂ©es de formation peuvent Ă©galement ĂȘtre justifiĂ©es Ă mesure que les modĂšles gĂ©nĂ©ratifs continuent de prolifĂ©rer. Cela pourrait impliquer dâexiger le consentement des crĂ©ateurs avant que leur Ćuvre ne soit ajoutĂ©e aux ensembles de donnĂ©es. Cependant, il incombe Ă la fois aux dĂ©veloppeurs et aux utilisateurs dâemployer des pratiques dâIA Ă©thiques qui respectent les droits des crĂ©ateurs de contenu.
Plagiat dans la V6 Alpha de Midjourney
AprÚs des invites limitées Le modÚle V6 de Midjourney certains chercheurs ont pu générer des images presque identiques à des films, des émissions de télévision et des captures d'écran de jeux vidéo protégés par le droit d'auteur, probablement inclus dans ses données de formation.
Ces expĂ©riences confirment en outre que mĂȘme les systĂšmes dâIA visuelle de pointe peuvent plagier sans le savoir un contenu protĂ©gĂ© si lâorigine des donnĂ©es de formation nâest pas contrĂŽlĂ©e. Cela souligne la nĂ©cessitĂ© de vigilance, de garanties et de surveillance humaine lors du dĂ©ploiement commercial de modĂšles gĂ©nĂ©ratifs afin de limiter les risques dâinfraction.
Réponse des entreprises d'IA sur le contenu protégé par le droit d'auteur
Les frontiĂšres entre la crĂ©ativitĂ© humaine et celle de lâIA sâestompent, crĂ©ant des questions complexes en matiĂšre de droit dâauteur. Les Ćuvres mĂȘlant contribution humaine et intelligence artificielle ne peuvent ĂȘtre protĂ©gĂ©es par le droit d'auteur que dans les aspects exĂ©cutĂ©s uniquement par l'humain.
Le Bureau amĂ©ricain du droit d'auteur a rĂ©cemment refusĂ© le droit d'auteur sur la plupart des aspects d'un roman graphique IA-humain, considĂ©rant l'art de l'IA comme non humain. Il a Ă©galement publiĂ© des directives excluant les systĂšmes dâIA de la « paternitĂ© ». Les tribunaux fĂ©dĂ©raux ont confirmĂ© cette position dans une affaire de droit dâauteur sur lâart de lâIA.
Pendant ce temps, des poursuites allĂšguent une violation de lâIA gĂ©nĂ©rative, comme Getty c. Stability AI et Artists c. Ă mi-parcours/StabilitĂ© IA. Mais sans les « auteurs » de lâIA, certains se demandent si les allĂ©gations de contrefaçon sâappliquent.
En rĂ©ponse, les grandes sociĂ©tĂ©s dâIA comme Meta, Google, Microsoft et Apple ont fait valoir quâelles ne devraient pas avoir besoin de licences ni payer de redevances pour entraĂźner des modĂšles dâIA sur des donnĂ©es protĂ©gĂ©es par le droit dâauteur.
Voici un rĂ©sumĂ© des principaux arguments des principales sociĂ©tĂ©s dâIA en rĂ©ponse aux nouvelles rĂšgles amĂ©ricaines potentielles en matiĂšre de droit dâauteur concernant lâIA, avec des citations :
Meta soutient imposer des licences maintenant provoquerait le chaos et nâapporterait que peu dâavantages aux titulaires de droits dâauteur.
Google prĂ©tentions La formation Ă lâIA est analogue Ă des actes non contrefaits comme la lecture dâun livre (Google, 2022).
Microsoft met en garde la modification de la loi sur le droit d'auteur pourrait désavantager les petits développeurs d'IA.
Apple vouloir droit d'auteur code généré par l'IA contrÎlé par des développeurs humains.
Dans lâensemble, la plupart des entreprises sâopposent aux nouveaux mandats de licence et minimisent les inquiĂ©tudes concernant les systĂšmes dâIA reproduisant des Ćuvres protĂ©gĂ©es sans attribution. Cependant, cette position est controversĂ©e compte tenu des rĂ©cents procĂšs et dĂ©bats sur les droits dâauteur de lâIA.
Voies pour une innovation responsable en IA générative
Ă mesure que ces puissants modĂšles gĂ©nĂ©ratifs continuent de progresser, il est essentiel dâĂ©liminer les risques de plagiat pour que le grand public les accepte. Une approche Ă plusieurs volets est nĂ©cessaire :
- Réformes politiques autour de la transparence des données de formation, des licences et du consentement des créateurs.
- Technologies de détection du plagiat renforcées et gouvernance interne par les développeurs.
- Meilleure sensibilisation des utilisateurs aux risques et respect des principes Ă©thiques de lâIA.
- Des prĂ©cĂ©dents juridiques et une jurisprudence clairs concernant les questions de droits dâauteur en matiĂšre dâIA.
Avec les bonnes garanties, la crĂ©ation assistĂ©e par lâIA peut prospĂ©rer de maniĂšre Ă©thique. Mais les risques de plagiat non maĂźtrisĂ©s pourraient miner considĂ©rablement la confiance du public. S'attaquer directement Ă ce problĂšme est essentiel pour rĂ©aliser l'immense potentiel crĂ©atif de l'IA gĂ©nĂ©rative tout en respectant les droits des crĂ©ateurs. Pour parvenir au juste Ă©quilibre, il faudra sâattaquer activement Ă lâangle mort du plagiat inhĂ©rent Ă la nature mĂȘme des rĂ©seaux de neurones. Mais cela garantira que ces modĂšles puissants ne sapent pas lâingĂ©niositĂ© humaine quâils visent Ă accroĂźtre.