Angle d’Anderson
Les modèles d’écriture générative basés sur l’IA « copient et collent » fréquemment les données sources

Le dramaturge et entrepreneur américain Wilson Mizner est souvent cité pour avoir dit : « Lorsque vous volez à un auteur, c’est du plagiat ; si vous volez à plusieurs, c’est de la recherche ».
De même, l’hypothèse entourant la nouvelle génération de systèmes de rédaction créative basés sur l’IA est que les vastes quantités de données alimentées à ces systèmes lors de leur formation ont abouti à une véritable abstraction de concepts et d’idées de haut niveau ; que ces systèmes ont à leur disposition la sagesse distillée de milliers d’auteurs contribuant, à partir de laquelle l’IA peut formuler une rédaction innovante et originale ; et que ceux qui utilisent de tels systèmes peuvent être certains de ne pas s’adonner involontairement au plagiat par procuration.
C’est une hypothèse remise en question par un nouvel article d’un consortium de recherche (comprenant les divisions de recherche en IA de Facebook et Microsoft), qui a constaté que les modèles de langage génératif basés sur l’apprentissage automatique, tels que la série GPT, « copient parfois même de longs passages » dans leur sortie supposée originale, sans attribution.
Dans certains cas, les auteurs notent que GPT-2 duplique plus de 1 000 mots de l’ensemble de formation dans sa sortie.
L’article est intitulé How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN, et est une collaboration entre l’Université Johns-Hopkins, Microsoft Research, l’Université de New York et Facebook AI Research.
RAVEN
L’étude utilise une nouvelle approche appelée RAVEN (RAtingVErbalNovelty), un acronyme qui a été amusamment torturé pour refléter le vilain d’un poème classique :
‘Cet acronyme fait référence à « Le Corbeau » d’Edgar Allan Poe, où le narrateur rencontre un corbeau mystérieux qui crie sans cesse « Jamais plus ! » Le narrateur ne peut pas dire si le corbeau répète simplement quelque chose qu’il a entendu un humain dire, ou s’il construit ses propres énoncés (peut-être en combinant jamais et plus)—la même ambiguïté de base que notre article aborde.’
Les résultats de l’article viennent dans le contexte d’une croissance importante des systèmes de rédaction de contenu basés sur l’IA qui cherchent à supplanter les tâches d’édition « simples », et même à écrire du contenu de longueur complète. Un tel système a reçu 21 millions de dollars en financement de série A plus tôt dans la semaine.
Les chercheurs notent que ‘GPT-2 duplique parfois des passages de formation qui sont plus longs que 1 000 mots.‘ (leur emphase), et que les systèmes de langage génératif propagent les erreurs linguistiques dans les données sources.
Les modèles de langage étudiés sous RAVEN étaient la série GPT jusqu’à GPT-2 (les auteurs n’avaient pas accès à GPT-3 à ce moment-là), un Transformer, Transformer-XL, et un LSTM.
Nouveauté
L’article note que GPT-2 invente des inflexions de style Bush 2, telles que ‘Swissified’, et des dérivations telles que ‘IKEA-ness’, en créant de tels mots nouveaux (qui n’apparaissent pas dans les données de formation de GPT-2) sur des principes linguistiques dérivés d’espaces de dimension supérieure établis pendant la formation.
Les résultats montrent également que « 74 % des phrases générées par Transformer-XL ont une structure syntaxique que aucune phrase de formation n’a », indiquant, comme le disent les auteurs, ‘les modèles de langage neuronal n’utilisent pas simplement la mémorisation ; ils utilisent plutôt des processus productifs qui leur permettent de combiner des parties familières de manière novatrice.’
Ainsi, techniquement, la généralisation et l’abstraction devraient produire du texte innovant et nouveau.
La duplication des données peut être le problème
L’article théorise que les citations longues et verbatim produites par les systèmes de génération de langage naturel (NLG) pourraient devenir « intégrées » dans le modèle d’IA parce que le texte source d’origine est répété plusieurs fois dans des ensembles de données qui n’ont pas été dédoublonnés de manière adéquate.
Bien qu’un autre projet de recherche ait constaté que la duplication complète du texte peut se produire même si le texte source n’apparaît qu’une seule fois dans l’ensemble de données, les auteurs notent que le projet a des architectures conceptuelles différentes de celles des systèmes d’IA générant du contenu.
Les auteurs observent également que modifier le composant de décodage dans les systèmes de génération de langage peut augmenter la nouveauté, mais ont constaté lors des tests que cela se produit au détriment de la qualité de la sortie.
De nouveaux problèmes surgissent à mesure que les ensembles de données qui alimentent les algorithmes de génération de contenu deviennent de plus en plus grands. Outre les problèmes d’abordabilité et de viabilité de la prétraitement des données, ainsi que de l’assurance qualité et de la déduplication des données, de nombreuses erreurs de base restent dans les données sources, qui sont ensuite propagées dans la sortie de contenu de l’IA.
Les auteurs notent*:
‘Les récentes augmentations de la taille des ensembles de formation rendent particulièrement critique la vérification de la nouveauté, car la grandeur de ces ensembles de formation peut briser nos intuitions sur ce qui peut être attendu naturellement. Par exemple, certains travaux notables dans le domaine de l’acquisition du langage repose sur l’hypothèse que les formes régulières du passé des verbes irréguliers (par exemple, becomed, teached) n’apparaissent pas dans l’expérience d’un apprenant, de sorte que si un apprenant produit de tels mots, ils doivent être nouveaux pour l’apprenant.
‘Cependant, il s’avère que, pour les 92 verbes irréguliers de base en anglais, la forme régulière incorrecte apparaît dans l’ensemble de formation de GPT-2.’
Une meilleure curation des données est nécessaire
L’article soutient qu’une plus grande attention doit être portée à la nouveauté dans la formulation des systèmes de langage génératif, avec un accent particulier sur la garantie que la partie « retenue » des données (la partie des données sources qui est mise de côté pour tester la façon dont l’algorithme final a évalué le corps principal des données formées) est appropriée pour la tâche.
‘Dans l’apprentissage automatique, il est essentiel d’évaluer les modèles sur un ensemble de test retenu. En raison de la nature ouverte de la génération de texte, le texte généré par un modèle peut être copié à partir de l’ensemble de formation, auquel cas il n’est pas retenu—donc utiliser ces données pour évaluer le modèle (par exemple, pour la cohérence ou la grammaticalité) n’est pas valide.’
Les auteurs soutiennent également qu’une plus grande attention est nécessaire dans la production de modèles de langage en raison de l’effet Eliza, un syndrome identifié en 1966 qui a identifié « la susceptibilité des personnes à lire plus de compréhension que justifié dans des chaînes de symboles—en particulier des mots—alignés par des ordinateurs ».
* Ma conversion des citations intégrées en liens hypertexte












