Suivez nous sur

Les modèles d'écriture générative basés sur l'IA « copient et collent » fréquemment les données sources

Intelligence Artificielle

Les modèles d'écriture générative basés sur l'IA « copient et collent » fréquemment les données sources

mm

Le dramaturge et entrepreneur américain Wilson Mizner est souvent cité pour avoir déclaré : « Lorsque vous volez un auteur, c'est du plagiat ; si vous volez plusieurs auteurs, c'est de la recherche ».

De même, l'hypothèse autour de la nouvelle génération des systèmes d'écriture créative basés sur l'IA est que le de grandes quantités de données nourris au stade de la formation ont abouti à une véritable abstraction de concepts et d'idées de haut niveau ; que ces systèmes ont à leur disposition la sagesse distillée de milliers d'auteurs contributeurs, à partir de laquelle l'IA peut formuler des écrits innovants et originaux ; et que ceux qui utilisent de tels systèmes peuvent être certains qu'ils ne se livrent pas par inadvertance à du plagiat par procuration.

C'est une présomption qui est remise en question par un nouvel article d'un consortium de recherche (comprenant les divisions de recherche en IA de Facebook et de Microsoft), qui a découvert que les modèles de langage génératifs d'apprentissage automatique tels que la série GPT « copier parfois même de très longs passages » dans leur sortie supposée originale, sans attribution.

Dans certains cas, notent les auteurs, GPT-2 dupliquera plus de 1,000 XNUMX mots de l'ensemble de formation dans sa sortie.

Le papier est intitulé Combien les modèles de langage copient-ils à partir de leurs données d'apprentissage ? Évaluation de la nouveauté linguistique dans la génération de texte à l'aide de RAVEN, et est une collaboration entre l'Université Johns Hopkins, Microsoft Research, l'Université de New York et Facebook AI Research.

RAVEN

L'étude utilise une nouvelle approche appelée RAVEN (RAtingVErbalNovelty), un acronyme qui a été torturé de manière divertissante pour refléter le méchant aviaire d'un poème classique :

"Cet acronyme fait référence à "The Raven" d'Edgar Allan Poe, dans lequel le narrateur rencontre un mystérieux corbeau qui crie à plusieurs reprises "Plus jamais!" Le narrateur ne peut pas dire si le corbeau répète simplement quelque chose qu'il a entendu dire par un humain, ou s'il construit ses propres énoncés (peut-être en combinant jamais et plus) — la même ambiguïté fondamentale que notre article aborde.

Les résultats de cette nouvelle étude s'inscrivent dans un contexte de forte croissance des systèmes d'IA de rédaction de contenu, qui cherchent à supplanter les tâches d'édition « simples », voire à rédiger des contenus complets. L'un de ces systèmes reçu 21 millions $ dans le financement de la série A plus tôt cette semaine.

Les chercheurs notent que 'GPT-2 duplique parfois des passages de formation qui sont plus de 1,000 XNUMX mots.» (leur emphase) et que les systèmes de langage génératif propagent les erreurs linguistiques dans les données sources.

Les modèles de langage étudiés sous RAVEN étaient la série de versions GPT jusqu'à GPT-2 (les auteurs n'avaient pas accès à l'époque à GPT-3), un Transformer, un Transformer-XL et un LSTM.

Nouveauté

Le document note que GPT-2 crée des inflexions de style Bush 2 telles que « Suissefié », et des dérivations telles que « IKEA-ness », créant de tels mots nouveaux (ils n'apparaissent pas dans les données de formation de GPT-2) sur des principes linguistiques dérivés d'espaces dimensionnels supérieurs établis pendant la formation.

Les résultats montrent également que « 74 % des phrases générées par Transformer-XL ont une structure syntaxique qu'aucune phrase d'entraînement ne possède », indiquant, comme l'indiquent les auteurs, « Les modèles de langage neuronal ne se contentent pas de mémoriser ; ils utilisent plutôt des processus productifs qui leur permettent de combiner des parties familières de manière nouvelle. »

Donc techniquement, la généralisation et l'abstraction devrait produire des textes innovants et originaux.

La duplication des données peut être le problème

L'article théorise que les citations longues et textuelles produites par les systèmes de génération de langage naturel (NLG) pourraient être « intégrées » dans le modèle d'IA parce que le texte source original est répété plusieurs fois dans des ensembles de données qui n'ont pas été dédupliqués de manière adéquate.

Bien que un autre projet de recherche a constaté que la duplication complète du texte peut se produire même si le texte source n'apparaît que une fois dans l'ensemble de données, les auteurs notent que le projet a des architectures conceptuelles différentes de la série courante de systèmes d'IA générant du contenu.

Les auteurs observent également que la modification du composant de décodage dans les systèmes de génération de langage pourrait augmenter la nouveauté, mais ont constaté dans les tests que cela se faisait au détriment de la qualité de la sortie.

D'autres problèmes apparaissent à mesure que les ensembles de données qui alimentent les algorithmes de génération de contenu deviennent de plus en plus volumineux. En plus d'aggraver les problèmes liés à l'abordabilité et à la viabilité du prétraitement des données, ainsi qu'à l'assurance qualité et à la déduplication des données, de nombreuses erreurs de base subsistent dans les données source, qui se propagent ensuite dans le contenu généré par l'IA.

Les auteurs notent* :

«Les augmentations récentes de la taille des ensembles d'entraînement rendent particulièrement critique la vérification de la nouveauté, car l'ampleur de ces ensembles d'entraînement peut briser nos intuitions sur ce qui peut se produire naturellement. Par exemple, certains travaux remarquables dans langue Fusion / acquisition repose sur l'hypothèse que les formes régulières du passé des verbes irréguliers (par exemple, devenu, enseigné) n'apparaissent pas dans l'expérience de l'apprenant, donc si un apprenant produit de tels mots, ils doivent être nouveaux pour l'apprenant.

« Cependant, il s’avère que, pour les 92 verbes irréguliers de base en anglais, la forme régulière incorrecte apparaît dans l’ensemble d’entraînement de GPT-2. »

Plus de curation de données nécessaire

L'article soutient qu'il faut accorder plus d'attention à la nouveauté dans la formulation des systèmes de langage génératif, en mettant l'accent sur la nécessité de garantir que la partie de test « retenue » des données (la partie des données sources qui est mise de côté pour tester dans quelle mesure l'algorithme final a évalué le corps principal des données formées) est appropriée à la tâche.

En apprentissage automatique, il est essentiel d'évaluer les modèles sur un ensemble de tests non spécifié. En raison de la nature ouverte de la génération de texte, le texte généré par un modèle peut être copié de l'ensemble d'apprentissage, auquel cas il n'est pas spécifié. L'utilisation de ces données pour évaluer le modèle (par exemple, pour la cohérence ou la grammaticalité) n'est donc pas valide.

Les auteurs soutiennent également que plus de soin est également nécessaire dans la production de modèles de langage en raison de la Effet Eliza, un syndrome identifié en 1966 qui identifiait "la susceptibilité des gens à lire beaucoup plus de compréhension que ce qui est justifié dans des chaînes de symboles - en particulier des mots - enchaînés par des ordinateurs".

 

* Ma conversion des citations en ligne en hyperliens

 

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai