Intelligence artificielle

GPT-2, le générateur de texte d’intelligence artificielle est publié en intégralité

Published November 6, 2019

Updated April 5, 2026

Ljubinko Zivkovic

Comme TheNextWeb (TNW) le rapporte, OpenAI, l’organisation à but non lucratif derrière de nombreux projets d’intelligence artificielle, vient de publier le modèle final de la version échelonnée prévue pour GPT-2, un générateur de texte qui a suscité une grande controverse depuis son annonce en février.

Sur la base de la publication de recherche d’OpenAI intitulée Language Models are Unsupervised Multitask Learners, « GPT-2 utilise l’apprentissage automatique pour générer des textes novateurs en fonction d’une entrée limitée. » Cela signifie qu’un utilisateur peut taper une phrase ou deux sur n’importe quel sujet et que le générateur d’IA créera un texte qui a une relation avec l’entrée originale. En substance, comme le note TNW, contrairement à la plupart des « générateurs de texte », il ne produit pas de chaînes de caractères préécrites. GPT-2 crée du texte qui n’existait pas auparavant. »

Dans son tweet, Scott B. Weingart, directeur du programme de la bibliothèque de l’Université Carnegie Mellon, donne un exemple concret :

What is a Panther but a young lion?

An entire corridor filled entirely with people screaming.

How’s this for a happy ending? pic.twitter.com/qvPTrs790N

— Scott B. Weingart (@scott_bot) August 20, 2019

If death, in some obscure and distant hour,
Strikes me still as I slept, if I yet dream:
Is that my peace with an eternity spent?
[…]
But I fear it will be no peace or rest
Until the stars give me the full glow of their light
To see all my cares and woes in an instant.

Shit. pic.twitter.com/QRoi1C3rjj

— Scott B. Weingart (@scott_bot) August 20, 2019

OpenAI s’est initialement inquiété des utilisations malveillantes possibles de leur système, donc en février 2019, il a décidé de publier GPT-2 en quatre parties sur huit mois. Comme ils l’ont expliqué dans leur blog, « en raison de nos préoccupations concernant les applications malveillantes de la technologie, nous ne publions pas le modèle formé. À titre d’expérience de divulgation responsable, nous publions plutôt un modèle beaucoup plus petit pour que les chercheurs puissent l’expérimenter, ainsi qu’un article technique. »

Comme expliqué, le modèle complet contient 1,5 milliard de paramètres. « Plus un modèle est formé avec des paramètres, plus il semble « intelligent » – comme les humains, la pratique rend parfait. »

TNW note que initialement OpenAI a publié un modèle avec 124 millions de paramètres, suivi de versions avec 355 et 774 millions. Selon eux, après avoir testé les modèles publiés, « chaque itération a montré une amélioration significative des capacités par rapport aux itérations précédentes. »

Pour prévenir les mauvaises utilisations, OpenAI a publié des modèles de détection GPT-2 qui sont censés « combattre les mauvaises utilisations de manière proactive. » Selon leur propre admission dans un article de blog, ces modèles de détection nécessitent encore du travail pour atteindre le niveau de qualité atteint jusqu’à présent dans GPT-2 lui-même.

Ceux qui sont intéressés peuvent télécharger le modèle GPT-2 ici sur Github, consulter la carte du modèle ici, et lire l’article de blog d’OpenAI ici.

Unite.AI

GPT-2, le générateur de texte d’intelligence artificielle est publié en intégralité

You may like