Intelligence artificielle

DĂ©sapprentissage de donnĂ©es protĂ©gĂ©es par le droit d’auteur Ă  partir d’un LLM formĂ© – Est-ce possible ?

mm
Blog Image of Copyright Symbols

Dans les domaines de l’intelligence artificielle (IA) et de l’apprentissage automatique (ML), les grands modèles de langage (LLM) présentent à la fois des réalisations et des défis. Formés sur d’immenses ensembles de données textuelles, les modèles LLM encapsulent le langage et les connaissances humaines.

Cependant, leur capacité à absorber et à imiter la compréhension humaine présente des défis juridiques, éthiques et technologiques. De plus, les immenses ensembles de données qui alimentent les LLM peuvent contenir des matériaux toxiques, des textes protégés par le droit d’auteur, des inexactitudes ou des données personnelles.

Le fait de faire oublier aux LLM des données sélectionnées est devenu un problème urgent pour assurer la conformité juridique et la responsabilité éthique.

Explorons le concept de faire oublier aux LLM des données protégées par le droit d’auteur pour répondre à une question fondamentale : Est-ce possible ?

Pourquoi le désapprentissage des LLM est-il nécessaire ?

Les LLM contiennent souvent des données contestées, notamment des données protégées par le droit d’auteur. La présence de telles données dans les LLM pose des défis juridiques liés aux informations privées, aux informations biaisées, aux données protégées par le droit d’auteur et aux éléments faux ou nuisibles.

Par conséquent, le désapprentissage est essentiel pour garantir que les LLM respectent les réglementations en matière de confidentialité et se conforment aux lois sur le droit d’auteur, promouvant ainsi des LLM responsables et éthiques.

Image de stock représentant des dossiers de lois sur le droit d'auteur et des droits de propriété intellectuelle

Cependant, extraire le contenu protégé par le droit d’auteur de la vaste connaissance que ces modèles ont acquise est un défi. Voici quelques techniques de désapprentissage qui peuvent aider à résoudre ce problème :

  • Filtrage des données : Il s’agit d’identifier systématiquement et de supprimer les éléments protégés par le droit d’auteur, les données bruyantes ou biaisées, à partir des données de formation du modèle. Cependant, le filtrage peut entraîner la perte potentielle d’informations non protégées par le droit d’auteur précieuses pendant le processus de filtrage.
  • Méthodes de gradient : Ces méthodes ajustent les paramètres du modèle en fonction du gradient de la fonction de perte, traitant ainsi le problème des données protégées par le droit d’auteur dans les modèles ML. Cependant, les ajustements peuvent affecter négativement les performances globales du modèle sur les données non protégées par le droit d’auteur.
  • Désapprentissage en contexte : Cette technique élimine efficacement l’impact de points de formation spécifiques sur le modèle en mettant à jour ses paramètres sans affecter les connaissances non liées. Cependant, la méthode est limitée dans sa capacité à réaliser un désapprentissage précis, en particulier avec les grands modèles, et son efficacité nécessite une évaluation plus approfondie.

Ces techniques sont gourmandes en ressources et chronophages, ce qui les rend difficiles à mettre en œuvre.

Études de cas

Pour comprendre l’importance du désapprentissage des LLM, ces cas réels mettent en évidence la façon dont les entreprises sont confrontées à des défis juridiques liés aux grands modèles de langage (LLM) et aux données protégées par le droit d’auteur.

Poursuites judiciaires contre OpenAI : OpenAI, une société de pointe dans le domaine de l’IA, a été visée par de nombreuses poursuites judiciaires concernant les données de formation des LLM. Ces actions en justice remettent en question l’utilisation de matériaux protégés par le droit d’auteur dans la formation des LLM. Elles ont également déclenché des enquêtes sur les mécanismes que les modèles utilisent pour obtenir l’autorisation pour chaque œuvre protégée par le droit d’auteur intégrée dans leur processus de formation.

Affaire Sarah Silverman : L’affaire Sarah Silverman concerne une allégation selon laquelle le modèle ChatGPT a généré des résumés de ses livres sans autorisation. Cette action en justice souligne les problèmes importants liés à l’avenir de l’IA et aux données protégées par le droit d’auteur.

La mise à jour des cadres juridiques pour les aligner sur les progrès technologiques garantit une utilisation responsable et légale des modèles d’IA. De plus, la communauté de recherche doit aborder ces défis de manière globale pour rendre les LLM éthiques et justes.

Techniques traditionnelles de désapprentissage des LLM

Le désapprentissage des LLM est comparable à la séparation d’ingrédients spécifiques dans une recette complexe, en veillant à ce que seuls les composants souhaités contribuent au plat final. Les techniques traditionnelles de désapprentissage des LLM, telles que la fine-tuning avec des données ciblées et la ré-formation, manquent de mécanismes simples pour supprimer les données protégées par le droit d’auteur.

L’approche générale de ces méthodes traditionnelles s’avère souvent inefficace et gourmande en ressources pour la tâche sophistiquée de désapprentissage sélectif, car elles nécessitent une ré-formation extensive.

Alors que ces méthodes traditionnelles peuvent ajuster les paramètres du modèle, elles ont du mal à cibler avec précision le contenu protégé par le droit d’auteur, risquant ainsi une perte de données non intentionnelle et une conformité sous-optimale.

Par conséquent, les limites des techniques traditionnelles et les solutions robustes nécessitent l’expérimentation de techniques de désapprentissage alternatives.

Nouvelle technique : désapprentissage d’un sous-ensemble de données de formation

Le document de recherche de Microsoft présente une technique innovante pour faire oublier aux LLM les données protégées par le droit d’auteur. En se concentrant sur l’exemple du modèle Llama2-7b et des livres Harry Potter, la méthode implique trois composants essentiels pour faire oublier aux LLM le monde de Harry Potter. Ces composants incluent :

  • Identification de modèle renforcée : La création d’un modèle renforcé implique une fine-tuning des données ciblées (par exemple, Harry Potter) pour renforcer sa connaissance du contenu à oublier.
  • Remplacement d’expressions idiosyncratiques : Les expressions uniques de Harry Potter dans les données ciblées sont remplacées par des expressions génériques, facilitant ainsi une compréhension plus généralisée.
  • Fine-tuning sur des prédictions alternatives : Le modèle de base subit une fine-tuning basée sur ces prédictions alternatives. En effet, il efface efficacement le texte original de sa mémoire lorsqu’il est confronté à un contexte pertinent.

Bien que la technique de Microsoft soit à un stade précoce et puisse avoir des limites, elle représente une avancée prometteuse vers des LLM plus puissants, éthiques et adaptables.

Résultat de la nouvelle technique

La méthode innovante pour faire oublier aux LLM les données protégées par le droit d’auteur présentée dans le document de recherche de Microsoft est un pas vers des modèles responsables et éthiques.

La nouvelle technique consiste à effacer le contenu lié à Harry Potter du modèle Llama2-7b de Meta, connu pour avoir été formé sur l’ensemble de données “books3” contenant des œuvres protégées par le droit d’auteur. Notamment, les réponses originales du modèle démontraient une compréhension complexe de l’univers de J.K. Rowling, même avec des amorces génériques.

Cependant, la technique proposée par Microsoft a transformé de manière significative ses réponses. Voici des exemples d’amorces mettant en évidence les différences notables entre le modèle Llama2-7b original et la version fine-tunée.

Comparaison d'amorces fine-tunées avec la ligne de base

Source de l’image 

Ce tableau illustre que les modèles de désapprentissage fine-tunés maintiennent leurs performances sur différents benchmarks (tels que Hellaswag, Winogrande, piqa, boolq et arc).

Évaluation des benchmarks de la nouvelle technique

Source de l’image

La méthode d’évaluation, basée sur les amorces de modèle et l’analyse des réponses ultérieures, s’avère efficace mais peut négliger des méthodes d’extraction d’informations plus complexes et adverses.

Bien que la technique soit prometteuse, des recherches supplémentaires sont nécessaires pour l’affiner et l’étendre, en particulier pour traiter des tâches de désapprentissage plus larges au sein des LLM.

Défis de la nouvelle technique de désapprentissage

Bien que la technique de désapprentissage de Microsoft montre des promesses, plusieurs défis et contraintes liés au droit d’auteur et à l’IA existent.

Les limitations clés et les domaines d’amélioration incluent :

  • Fuites d’informations sur le droit d’auteur : La méthode peut ne pas atténuer complètement le risque de fuites d’informations sur le droit d’auteur, car le modèle peut conserver certaines connaissances du contenu ciblé pendant le processus de fine-tuning.
  • Évaluation de divers ensembles de données : Pour évaluer l’efficacité, la technique doit subir une évaluation supplémentaire sur divers ensembles de données, car l’expérience initiale s’est concentrée uniquement sur les livres Harry Potter.
  • Scalabilité : Les tests sur des ensembles de données plus importants et des modèles de langage plus complexes sont impératifs pour évaluer l’applicabilité et l’adaptabilité de la technique dans des scénarios réels.

L’augmentation des affaires juridiques liées à l’IA, en particulier les poursuites pour droit d’auteur ciblant les LLM, met en évidence la nécessité de lignes directrices claires. Les développements prometteurs, tels que la méthode de désapprentissage proposée par Microsoft, ouvrent la voie vers une IA éthique, légale et responsable.

N’oubliez pas de rester à jour avec les dernières nouvelles et analyses en IA et ML – visitez unite.ai aujourd’hui.

Haziqa est un Data Scientist avec une expérience approfondie dans la rédaction de contenu technique pour les entreprises d'IA et de SaaS.