talon Le problème du plagiat : comment les modèles d'IA générative reproduisent du contenu protégé par le droit d'auteur - Unite.AI
Suivez nous sur

Intelligence artificielle

Le problème du plagiat : comment les modèles d'IA générative reproduisent du contenu protégé par le droit d'auteur

mm

Publié le

 on

plagiat dans l'IA

Les progrès rapides de l’IA générative ont suscité un enthousiasme quant au potentiel créatif de cette technologie. Pourtant, ces modèles puissants présentent également des risques inquiétants liés à la reproduction de contenus protégés par le droit d’auteur ou plagiés sans attribution appropriée.

Comment les réseaux de neurones absorbent les données d'entraînement

Les systèmes d'IA modernes comme GPT-3 sont formés via un processus appelé apprentissage par transfert. Ils ingèrent des ensembles de données massifs extraits de sources publiques telles que des sites Web, des livres, des articles universitaires, etc. Par exemple, les données de formation de GPT-3 comprenaient 570 Go de texte. Pendant l’entraînement, l’IA recherche des modèles et des relations statistiques dans ce vaste pool de données. Il apprend les corrélations entre les mots, les phrases, les paragraphes, la structure de la langue et d'autres caractéristiques.

Cela permet à l’IA de générer de nouveaux textes ou images cohérents en prédisant les séquences susceptibles de suivre une entrée ou une invite donnée. Mais cela signifie également que ces modèles absorbent du contenu sans se soucier des risques de droits d’auteur, d’attribution ou de plagiat. En conséquence, les IA génératives peuvent involontairement reproduire des passages textuels ou paraphraser des textes protégés par le droit d’auteur à partir de leurs corpus de formation.

Exemples clés de plagiat de l’IA

Les inquiétudes concernant le plagiat de l'IA sont apparues de manière importante depuis 2020 après la sortie de GPT.

Des recherches récentes ont montré que les grands modèles linguistiques (LLM) comme GPT-3 peuvent reproduire des passages textuels substantiels de leurs données de formation sans citation (Nasr et al., 2023 ; Carlini et al., 2022). Par exemple, un procès intenté par le New York Times a révélé que le logiciel OpenAI générait des articles du New York Times presque textuellement (Le New York Times, 2023).

Ces résultats suggèrent que certains systèmes d’IA générative peuvent produire des résultats plagiés non sollicités, risquant ainsi de violer le droit d’auteur. Cependant, la prévalence reste incertaine en raison de la nature « boîte noire » des LLM. Le procès du New York Times affirme que de tels résultats constituent une contrefaçon, ce qui pourrait avoir des implications majeures pour le développement de l’IA générative. Dans l’ensemble, les preuves indiquent que le plagiat est un problème inhérent aux grands modèles de réseaux neuronaux qui nécessite vigilance et garanties.

Ces cas révèlent deux facteurs clés influençant les risques de plagiat de l’IA :

  1. Taille du modèle – Les modèles plus grands comme GPT-3.5 sont plus enclins à régénérer des passages de texte textuels par rapport aux modèles plus petits. Leurs ensembles de données de formation plus volumineux augmentent l’exposition aux sources protégées par le droit d’auteur.
  2. Données d'entraînement – Les modèles formés sur des données Internet récupérées ou sur des œuvres protégées par le droit d'auteur (même sous licence) sont plus susceptibles de plagier que les modèles formés sur des ensembles de données soigneusement organisés.

Cependant, mesurer directement la prévalence des résultats plagiés est difficile. La nature de « boîte noire » des réseaux de neurones rend difficile la traçabilité complète de ce lien entre les données de formation et les résultats du modèle. Les tarifs dépendent probablement fortement de l’architecture du modèle, de la qualité des ensembles de données et de la formulation rapide. Mais ces cas confirment sans équivoque qu’un tel plagiat de l’IA existe, ce qui a des implications juridiques et éthiques cruciales.

Systèmes émergents de détection du plagiat

En réponse, les chercheurs ont commencé à explorer les systèmes d’IA pour détecter automatiquement le texte et les images générés par des modèles par rapport à ceux créés par des humains. Par exemple, des chercheurs de Mila ont proposé GenFace, qui analyse les modèles linguistiques révélateurs d'un texte écrit par l'IA. La startup Anthropic a également développé des capacités internes de détection de plagiat pour son IA conversationnelle Claude.

Cependant, ces outils ont des limites. Les données d'entraînement massives de modèles comme GPT-3 rendent difficile, voire impossible, l'identification des sources originales de textes plagiés. Des techniques plus robustes seront nécessaires à mesure que les modèles génératifs continuent d’évoluer rapidement. D’ici là, l’examen manuel reste essentiel pour filtrer les résultats de l’IA potentiellement plagiés ou en infraction avant leur utilisation publique.

Meilleures pratiques pour atténuer le plagiat de l’IA générative

Voici quelques bonnes pratiques que les développeurs et les utilisateurs d’IA peuvent adopter pour minimiser les risques de plagiat :

Pour les développeurs d'IA :

  • Vérifiez soigneusement les sources de données de formation pour exclure le matériel protégé par le droit d’auteur ou sous licence sans autorisations appropriées.
  • Développer une documentation rigoureuse des données et des procédures de suivi de la provenance. Enregistrez les métadonnées telles que les licences, les balises, les créateurs, etc.
  • Mettez en œuvre des outils de détection du plagiat pour signaler les contenus à haut risque avant leur publication.
  • Fournissez des rapports de transparence détaillant les sources de données de formation, les licences et les origines des résultats de l'IA lorsque des problèmes surviennent.
  • Permettez aux créateurs de contenu de se désinscrire facilement des ensembles de données de formation. Répondez rapidement aux demandes de retrait ou d’exclusion.

Pour les utilisateurs d’IA générative :

  • Filtrez soigneusement les sorties pour détecter tout passage potentiellement plagié ou non attribué avant de les déployer à grande échelle.
  • Évitez de traiter l’IA comme un système créatif entièrement autonome. Demandez à des évaluateurs humains d’examiner le contenu final.
  • Privilégiez la création humaine assistée par l’IA plutôt que la génération de contenu entièrement nouveau à partir de zéro. Utilisez plutôt des modèles pour paraphraser ou imaginer.
  • Consultez les conditions de service, les politiques de contenu et les mesures de protection contre le plagiat du fournisseur d'IA avant utilisation. Évitez les modèles opaques.
  • Citer clairement les sources si du matériel protégé par le droit d'auteur apparaît dans le résultat final malgré tous les efforts déployés. Ne présentez pas le travail de l’IA comme entièrement original.
  • Limitez le partage des résultats de manière privée ou confidentielle jusqu'à ce que les risques de plagiat puissent être évalués et traités plus en détail.

Des réglementations plus strictes sur les données de formation peuvent également être justifiées à mesure que les modèles génératifs continuent de proliférer. Cela pourrait impliquer d’exiger le consentement des créateurs avant que leur œuvre ne soit ajoutée aux ensembles de données. Cependant, il incombe à la fois aux développeurs et aux utilisateurs d’employer des pratiques d’IA éthiques qui respectent les droits des créateurs de contenu.

Plagiat dans la V6 Alpha de Midjourney

Après des invites limitées Le modèle V6 de Midjourney certains chercheurs ont pu générer des images presque identiques à des films, des émissions de télévision et des captures d'écran de jeux vidéo protégés par le droit d'auteur, probablement inclus dans ses données de formation.

Images créées par Midjourney ressemblant à des scènes de films et de jeux vidéo célèbres

Images créées par Midjourney ressemblant à des scènes de films et de jeux vidéo célèbres

Ces expériences confirment en outre que même les systèmes d’IA visuelle de pointe peuvent plagier sans le savoir un contenu protégé si l’origine des données de formation n’est pas contrôlée. Cela souligne la nécessité de vigilance, de garanties et de surveillance humaine lors du déploiement commercial de modèles génératifs afin de limiter les risques d’infraction.

Réponse des entreprises d'IA sur le contenu protégé par le droit d'auteur

Les frontières entre la créativité humaine et celle de l’IA s’estompent, créant des questions complexes en matière de droit d’auteur. Les œuvres mêlant contribution humaine et intelligence artificielle ne peuvent être protégées par le droit d'auteur que dans les aspects exécutés uniquement par l'humain.

Le Bureau américain du droit d'auteur a récemment refusé le droit d'auteur sur la plupart des aspects d'un roman graphique IA-humain, considérant l'art de l'IA comme non humain. Il a également publié des directives excluant les systèmes d’IA de la « paternité ». Les tribunaux fédéraux ont confirmé cette position dans une affaire de droit d’auteur sur l’art de l’IA.

Pendant ce temps, des poursuites allèguent une violation de l’IA générative, comme Getty c. Stability AI et Artists c. À mi-parcours/Stabilité IA. Mais sans les « auteurs » de l’IA, certains se demandent si les allégations de contrefaçon s’appliquent.

En réponse, les grandes sociétés d’IA comme Meta, Google, Microsoft et Apple ont fait valoir qu’elles ne devraient pas avoir besoin de licences ni payer de redevances pour entraîner des modèles d’IA sur des données protégées par le droit d’auteur.

Voici un résumé des principaux arguments des principales sociétés d’IA en réponse aux nouvelles règles américaines potentielles en matière de droit d’auteur concernant l’IA, avec des citations :

Meta soutient imposer des licences maintenant provoquerait le chaos et n’apporterait que peu d’avantages aux titulaires de droits d’auteur.

Google prétentions La formation à l’IA est analogue à des actes non contrefaits comme la lecture d’un livre (Google, 2022).

Microsoft met en garde contre la modification de la loi sur le droit d'auteur pourrait désavantager les petits développeurs d'IA.

Apple vouloir droit d'auteur code généré par l'IA contrôlé par des développeurs humains.

Dans l’ensemble, la plupart des entreprises s’opposent aux nouveaux mandats de licence et minimisent les inquiétudes concernant les systèmes d’IA reproduisant des œuvres protégées sans attribution. Cependant, cette position est controversée compte tenu des récents procès et débats sur les droits d’auteur de l’IA.

Voies pour une innovation responsable en IA générative

À mesure que ces puissants modèles génératifs continuent de progresser, il est essentiel d’éliminer les risques de plagiat pour que le grand public les accepte. Une approche à plusieurs volets est nécessaire :

  • Réformes politiques autour de la transparence des données de formation, des licences et du consentement des créateurs.
  • Technologies de détection du plagiat renforcées et gouvernance interne par les développeurs.
  • Meilleure sensibilisation des utilisateurs aux risques et respect des principes éthiques de l’IA.
  • Des précédents juridiques et une jurisprudence clairs concernant les questions de droits d’auteur en matière d’IA.

Avec les bonnes garanties, la création assistée par l’IA peut prospérer de manière éthique. Mais les risques de plagiat non maîtrisés pourraient miner considérablement la confiance du public. S'attaquer directement à ce problème est essentiel pour réaliser l'immense potentiel créatif de l'IA générative tout en respectant les droits des créateurs. Pour parvenir au juste équilibre, il faudra s’attaquer activement à l’angle mort du plagiat inhérent à la nature même des réseaux de neurones. Mais cela garantira que ces modèles puissants ne sapent pas l’ingéniosité humaine qu’ils visent à accroître.

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.