Intelligence artificielle

Les modèles d'écriture générative basés sur l'IA « copient et collent » fréquemment les données sources

Le kit de préparation mis à jour on 9 décembre 2022

Le dramaturge et entrepreneur américain Wilson Mizner est souvent cité comme disant : « Lorsque vous volez un auteur, c'est du plagiat ; si vous en volez beaucoup, c'est de la recherche ».

De même, l'hypothèse autour de la nouvelle génération des systèmes d'écriture créative basés sur l'IA est que le de grandes quantités de données nourris au stade de la formation ont abouti à une véritable abstraction de concepts et d'idées de haut niveau ; que ces systèmes ont à leur disposition la sagesse distillée de milliers d'auteurs contributeurs, à partir de laquelle l'IA peut formuler une écriture innovante et originale ; et que ceux qui utilisent de tels systèmes peuvent être certains qu'ils ne se livrent pas par inadvertance au plagiat par procuration.

C'est une hypothèse qui est contestée par un nouvel article d'un consortium de recherche (comprenant Facebook et les divisions de recherche en IA de Microsoft), qui a révélé que les modèles de langage génératif d'apprentissage automatique tels que la série GPT 'copie occasionnellement même de très longs passages' dans leur sortie supposée originale, sans attribution.

Dans certains cas, notent les auteurs, GPT-2 dupliquera plus de 1,000 XNUMX mots de l'ensemble de formation dans sa sortie.

La papier est intitulé Combien les modèles de langage copient-ils à partir de leurs données d'apprentissage ? Évaluation de la nouveauté linguistique dans la génération de texte à l'aide de RAVEN, et est une collaboration entre l'Université Johns Hopkins, Microsoft Research, l'Université de New York et Facebook AI Research.

RAVEN

L'étude utilise une nouvelle approche appelée RAVEN (RAtingVErbalNovelty), un acronyme qui a été torturé de manière divertissante pour refléter le méchant aviaire d'un poème classique :

"Cet acronyme fait référence à "The Raven" d'Edgar Allan Poe, dans lequel le narrateur rencontre un mystérieux corbeau qui crie à plusieurs reprises "Plus jamais!" Le narrateur ne peut pas dire si le corbeau répète simplement quelque chose qu'il a entendu dire par un humain, ou s'il construit ses propres énoncés (peut-être en combinant n'allons jamais ainsi que PLUS) - la même ambiguïté fondamentale que notre article aborde.'

Les conclusions du nouvel article s'inscrivent dans le contexte d'une croissance majeure des systèmes d'écriture de contenu IA qui cherchent à supplanter les tâches d'édition "simples", et même à écrire du contenu complet. Un tel système reçu 21 millions $ dans le financement de la série A plus tôt cette semaine.

Les chercheurs notent que 'GPT-2 duplique parfois des passages de formation qui sont plus de 1,000 XNUMX mots.» (leur emphase) et que les systèmes de langage génératif propagent les erreurs linguistiques dans les données sources.

Les modèles de langage étudiés sous RAVEN étaient la série de versions GPT jusqu'à GPT-2 (les auteurs n'avaient pas accès à l'époque à GPT-3), un Transformer, un Transformer-XL et un LSTM.

Nouveauté

Le document note que GPT-2 crée des inflexions de style Bush 2 telles que "Swissifié", et des dérivations telles que "IKEA-ness", créant de tels mots nouveaux (ils n'apparaissent pas dans les données d'entraînement de GPT-2) sur des principes linguistiques dérivés d'espaces de dimension supérieure établis pendant l'entraînement.

Les résultats montrent également que « 74 % des phrases générées par Transformer-XL ont une structure syntaxique qu'aucune phrase d'entraînement n'a », indiquant, comme l'indiquent les auteurs, « les modèles de langage neuronal ne se contentent pas de mémoriser ; au lieu de cela, ils utilisent des processus de production qui leur permettent de combiner des pièces familières de manière originale.

Donc techniquement, la généralisation et l'abstraction devrait produire des textes innovants et originaux.

La duplication des données peut être le problème

L'article théorise que les citations longues et textuelles produites par les systèmes de génération de langage naturel (NLG) pourraient être «intégrées» dans le modèle d'IA, car le texte source d'origine est répété plusieurs fois dans des ensembles de données qui n'ont pas été correctement dédupliqués.

Bien que un autre projet de recherche a constaté que la duplication complète du texte peut se produire même si le texte source n'apparaît que une fois dans l'ensemble de données, les auteurs notent que le projet a des architectures conceptuelles différentes de la série courante de systèmes d'IA générant du contenu.

Les auteurs observent également que la modification du composant de décodage dans les systèmes de génération de langage pourrait augmenter la nouveauté, mais ont constaté dans les tests que cela se faisait au détriment de la qualité de la sortie.

D'autres problèmes apparaissent à mesure que les ensembles de données qui alimentent les algorithmes de génération de contenu deviennent de plus en plus volumineux. En plus d'aggraver les problèmes liés à l'abordabilité et à la viabilité du prétraitement des données, ainsi qu'à l'assurance qualité et à la déduplication des données, de nombreuses erreurs de base subsistent dans les données source, qui se propagent ensuite dans le contenu généré par l'IA.

Les auteurs notent* :

«Les augmentations récentes de la taille des ensembles d'entraînement rendent particulièrement critique la vérification de la nouveauté, car l'ampleur de ces ensembles d'entraînement peut briser nos intuitions sur ce qui peut se produire naturellement. Par exemple, certains travaux remarquables dans langue acquisition repose sur l'hypothèse que les formes régulières du passé des verbes irréguliers (par exemple, devenu, enseigné) n'apparaissent pas dans l'expérience de l'apprenant, donc si un apprenant produit de tels mots, ils doivent être nouveaux pour l'apprenant.

"Cependant, il s'avère que, pour les 92 verbes irréguliers de base en anglais, la forme régulière incorrecte apparaît dans l'ensemble d'entraînement de GPT-2."

Plus de curation de données nécessaire

L'article soutient qu'il faut accorder plus d'attention à la nouveauté dans la formulation des systèmes de langage génératif, en mettant particulièrement l'accent sur la garantie que la partie test « retenue » des données (la partie des données source qui est réservée pour tester comment bien l'algorithme final a évalué le corps principal des données formées) est approprié pour la tâche.

«Dans l'apprentissage automatique, il est essentiel d'évaluer les modèles sur un ensemble de tests retenu. En raison de la nature ouverte de la génération de texte, le texte généré par un modèle peut être copié à partir de l'ensemble d'apprentissage, auquel cas il n'est pas retenu. L'utilisation de ces données pour évaluer le modèle (par exemple, pour la cohérence ou la grammaticalité) n'est pas valide. .'

Les auteurs soutiennent également que plus de soin est également nécessaire dans la production de modèles de langage en raison de la Effet Eliza, un syndrome identifié en 1966 qui identifiait "la susceptibilité des gens à lire beaucoup plus de compréhension que ce qui est justifié dans des chaînes de symboles - en particulier des mots - enchaînés par des ordinateurs".

* Ma conversion des citations en ligne en hyperliens

Rubriques connexes:traitement du langage naturel nlp un article

Comprendre les émoticônes Twitch dans l'analyse des sentiments

Ne manquez pas

Le désenchevêtrement est la prochaine révolution Deepfake

Martin Anderson

Écrivain sur l'apprentissage automatique, l'intelligence artificielle et le big data.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai