Connect with us

Intelligence artificielle

Le problème du plagiat : Comment les modèles d’IA génératifs reproduisent-ils le contenu protégé par le droit d’auteur

mm
plagiarism-in-AI

Les progrès rapides de l’IA générative ont suscité un grand enthousiasme pour le potentiel créatif de cette technologie. Cependant, ces modèles puissants posent également des risques inquiétants quant à la reproduction de contenus protégés par le droit d’auteur ou plagiés sans attribution appropriée.

Comment les réseaux de neurones absorbent les données de formation

Les systèmes d’IA modernes comme GPT-3 sont formés à travers un processus appelé apprentissage par transfert. Ils ingèrent des ensembles de données massifs extraits de sources publiques telles que des sites Web, des livres, des articles universitaires et plus encore. Par exemple, les données de formation de GPT-3 comprennent 570 gigaoctets de texte. Lors de la formation, l’IA recherche des modèles et des relations statistiques dans cet immense ensemble de données. Il apprend les corrélations entre les mots, les phrases, les paragraphes, la structure du langage et d’autres fonctionnalités.

Cela permet à l’IA de générer du texte ou des images cohérents en prédisant les séquences susceptibles de suivre une entrée ou une invite donnée. Mais cela signifie également que ces modèles absorbent le contenu sans tenir compte des droits d’auteur, des attributions ou des risques de plagiat. En conséquence, les IA génératives peuvent reproduire involontairement des passages verbatim ou paraphraser du texte protégé par le droit d’auteur à partir de leurs corpus de formation.

Exemples clés de plagiat d’IA

Les préoccupations concernant le plagiat d’IA sont devenues plus évidentes depuis 2020, après la sortie de GPT.

Des recherches récentes ont montré que les grands modèles de langage (LLM) comme GPT-3 peuvent reproduire des passages verbatim importants à partir de leurs données de formation sans citation (Nasr et al., 2023 ; Carlini et al., 2022). Par exemple, un procès intenté par The New York Times a révélé que le logiciel OpenAI générait des articles du New York Times presque verbatim (The New York Times, 2023).

Ces résultats suggèrent que certains systèmes d’IA génératifs peuvent produire des sorties plagiées non sollicitées, risquant ainsi de porter atteinte aux droits d’auteur. Cependant, la prévalence reste incertaine en raison de la nature « boîte noire » des LLM. Le procès de The New York Times soutient que de telles sorties constituent une violation, ce qui pourrait avoir des implications importantes pour le développement de l’IA générative. Dans l’ensemble, les preuves indiquent que le plagiat est un problème inhérent aux grands modèles de réseau de neurones qui nécessite une vigilance et des garanties.

Ces cas révèlent deux facteurs clés influençant les risques de plagiat d’IA :

  1. Taille du modèle – Les modèles plus grands comme GPT-3.5 sont plus susceptibles de régénérer des passages de texte verbatim par rapport aux modèles plus petits. Leurs plus grands ensembles de données de formation augmentent l’exposition aux matériaux sources protégés par le droit d’auteur.
  2. Données de formation – Les modèles formés à partir de données Internet scrapées ou d’œuvres protégées par le droit d’auteur (même si elles sont sous licence) sont plus susceptibles de plagier par rapport aux modèles formés à partir d’ensembles de données soigneusement sélectionnés.

Cependant, mesurer directement la prévalence des sorties plagiées est difficile. La nature « boîte noire » des réseaux de neurones rend difficile de retracer pleinement ce lien entre les données de formation et les sorties du modèle. Les taux dépendent probablement fortement de l’architecture du modèle, de la qualité des données et de la formulation de l’invite. Mais ces cas confirment que le plagiat d’IA se produit sans équivoque, ce qui a des implications juridiques et éthiques critiques.

Systèmes de détection de plagiat émergents

En réponse, les chercheurs ont commencé à explorer les systèmes d’IA pour détecter automatiquement le texte et les images générés par les modèles par rapport à ceux créés par les humains. Par exemple, les chercheurs de Mila ont proposé GenFace, qui analyse les modèles linguistiques indicatifs de texte écrit par l’IA. La startup Anthropic a également développé des capacités de détection de plagiat internes pour son IA conversationnelle Claude.

Cependant, ces outils ont des limites. Les données de formation massives de modèles comme GPT-3 rendent difficile, voire impossible, de déterminer les sources originales du texte plagié. Des techniques plus robustes seront nécessaires à mesure que les modèles génératifs continuent d’évoluer rapidement. Jusqu’alors, l’examen manuel reste essentiel pour filtrer les sorties d’IA potentiellement plagiées ou contrefaites avant leur utilisation publique.

Meilleures pratiques pour atténuer le plagiat de l’IA générative

Voici quelques meilleures pratiques que les développeurs d’IA et les utilisateurs peuvent adopter pour minimiser les risques de plagiat :

Pour les développeurs d’IA :

  • Vérifiez soigneusement les sources de données de formation pour exclure les matériaux protégés par le droit d’auteur ou sous licence sans autorisations appropriées.
  • Développez des procédures rigoureuses de documentation et de traçabilité des données. Enregistrez des métadonnées telles que les licences, les étiquettes, les créateurs, etc.
  • Mettez en œuvre des outils de détection de plagiat pour signaler le contenu à haut risque avant sa sortie.
  • Fournissez des rapports de transparence détaillant les sources de données de formation, les licences et les origines des sorties d’IA lorsque des inquiétudes se posent.
  • Permettez aux créateurs de contenu de se désinscrire facilement des ensembles de données de formation. Répondez rapidement aux demandes de retrait ou d’exclusion.

Pour les utilisateurs d’IA générative :

  • Examinez soigneusement les sorties pour tout passage potentiellement plagié ou non attribué avant de les déployer à grande échelle.
  • Évitez de traiter l’IA comme un système créatif entièrement autonome. Faites examiner le contenu final par des réviseurs humains.
  • Préférez la création assistée par l’IA à la création de contenu entièrement nouveau à partir de zéro. Utilisez les modèles pour la paraphrase ou l’idéation.
  • Consultez les conditions de service, les politiques de contenu et les garanties contre le plagiat du fournisseur d’IA avant de l’utiliser. Évitez les modèles opaques.
  • Citez les sources clairement si du matériel protégé par le droit d’auteur apparaît dans la sortie finale, malgré les meilleurs efforts. Ne présentez pas le travail de l’IA comme entièrement original.
  • Limitez le partage des sorties de manière privée ou confidentielle jusqu’à ce que les risques de plagiat puissent être davantage évalués et traités.

Des réglementations plus strictes sur les données de formation peuvent également être justifiées à mesure que les modèles génératifs continuent de se multiplier. Cela pourrait impliquer d’exiger le consentement des créateurs avant que leur travail ne soit ajouté aux ensembles de données. Cependant, la responsabilité incombe à la fois aux développeurs et aux utilisateurs d’appliquer des pratiques d’IA éthiques qui respectent les droits des créateurs de contenu.

Plagiat dans Midjourney’s V6 Alpha

Après une invitation limitée, le modèle V6 de Midjourney a permis à certains chercheurs de générer des images presque identiques à des films, des émissions de télévision et des captures d’écran de jeux vidéo protégés par le droit d’auteur, probablement inclus dans ses données de formation.

Images créées par Midjourney ressemblant à des scènes de films et de jeux vidéo célèbres

Images créées par Midjourney ressemblant à des scènes de films et de jeux vidéo célèbres

Ces expériences confirment encore que même les systèmes d’IA visuels de pointe peuvent plagier involontairement du contenu protégé si la source des données de formation n’est pas contrôlée. Cela souligne la nécessité de vigilance, de garanties et de surveillance humaine lors du déploiement de modèles génératifs à des fins commerciales pour limiter les risques d’atteinte aux droits d’auteur.

Réponse des entreprises d’IA sur le contenu protégé par le droit d’auteur

Les lignes entre la créativité humaine et l’IA se brouillent, créant des questions complexes sur le droit d’auteur. Les œuvres qui combinent l’input humain et l’IA peuvent ne être protégées par le droit d’auteur que dans les aspects exécutés uniquement par l’humain.

Le Bureau du droit d’auteur des États-Unis a récemment refusé le droit d’auteur pour la plupart des aspects d’une bande dessinée réalisée avec l’IA, considérant l’art de l’IA comme non humain. Il a également publié des directives excluant les systèmes d’IA de l’« auteur ». Les tribunaux fédéraux ont confirmé cette position dans un cas de droit d’auteur sur l’art de l’IA.

Pendant ce temps, des poursuites judiciaires allèguent que les modèles d’IA générative enfreignent les droits d’auteur, comme Getty c. Stability AI et des artistes c. Midjourney/Stability AI. Mais sans « auteur » d’IA, certains se demandent si les allégations d’atteinte aux droits d’auteur s’appliquent.

En réponse, les grandes entreprises d’IA comme Meta, Google, Microsoft et Apple ont soutenu qu’elles ne devraient pas avoir besoin de licences ou de payer des redevances pour former des modèles d’IA sur des données protégées par le droit d’auteur.

Voici un résumé des principaux arguments des grandes entreprises d’IA en réponse à de nouvelles règles de droit d’auteur américaines potentielles autour de l’IA, avec des citations :

Meta soutient que l’imposition de licences maintenant causerait le chaos et apporterait peu de bénéfices aux détenteurs de droits d’auteur.

Google affirme que la formation d’IA est analogue à des actes non contrefaisants comme la lecture d’un livre (Google, 2022).

Microsoft avertit que la modification du droit d’auteur pourrait désavantager les petits développeurs d’IA.

Apple souhaite protéger par le droit d’auteur le code généré par l’IA contrôlé par les développeurs humains.

Dans l’ensemble, la plupart des entreprises s’opposent à de nouvelles exigences de licence et minimisent les préoccupations concernant les systèmes d’IA qui reproduisent des œuvres protégées sans attribution. Cependant, cette position est controversée compte tenu des récentes poursuites judiciaires et débats sur le droit d’auteur de l’IA.

Voies pour une innovation d’IA générative responsable

Alors que ces puissants modèles génératifs continuent de progresser, il est essentiel de combler les risques de plagiat pour une acceptation généralisée. Une approche à plusieurs facettes est requise :

  • Réformes de politiques autour de la transparence des données de formation, des licences et du consentement des créateurs.
  • Technologies de détection de plagiat plus solides et gouvernance interne par les développeurs.
  • Une plus grande sensibilisation des utilisateurs aux risques et une adhésion aux principes éthiques de l’IA.
  • Des précédents juridiques clairs et des décisions de justice autour des problèmes de droit d’auteur de l’IA.

Avec les garanties appropriées, la création assistée par l’IA peut prospérer de manière éthique. Mais les risques de plagiat non contrôlés pourraient miner considérablement la confiance du public. Aborder directement ce problème est clé pour réaliser le potentiel créatif immense de l’IA générative tout en respectant les droits des créateurs. Atteindre l’équilibre approprié nécessitera de confronter activement le point aveugle du plagiat inhérent à la nature même des réseaux de neurones. Mais en le faisant, nous nous assurerons que ces modèles puissants n’underminent pas l’ingéniosité humaine qu’ils visent à améliorer.

J'ai passé les cinq dernières années à me plonger dans le monde fascinant de l'apprentissage automatique et de l'apprentissage profond. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité permanente m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en détail.