Intelligence Artificielle

GPT-2, le générateur de texte d'intelligence artificielle est publié dans son intégralité

Publié 6 novembre 2019

Le kit de préparation mis à jour 9 décembre 2022

Ljubinko Zivković

As TheNextWeb (TNW) rapports, OpenAI, l'organisation à but non lucratif à l'origine de plusieurs projets d'intelligence artificielle vient de publier le modèle final de la version échelonnée prévue pour GPT-2, un générateur de texte qui a causé tout un débat depuis sa sortie annoncée en février.

Basé sur le document de recherche d'OpenAI intitulé Les modèles linguistiques sont des apprenants multitâches non supervisés»GPT-2 utilise l'apprentissage automatique pour générer un nouveau texte basé sur une saisie limitée. Cela signifie qu'un utilisateur peut taper une phrase ou deux sur n'importe quel sujet et le générateur d'IA proposera un texte qui a un certain rapport avec l'entrée d'origine. Essentiellement, comme le note TNW, contrairement à la plupart des « générateurs de texte », il ne génère pas de chaînes pré-écrites. GPT-2 constitue un texte qui n'existait pas auparavant.

Dans son tweet, Scott B. Weingart, directeur de programme des bibliothèques universitaires Carnegie Mellon donne un exemple concret :

Qu'est-ce qu'une panthère sinon un jeune lion ?

Un couloir entier entièrement rempli de gens qui criaient.

Que pensez-vous de cette fin heureuse ? pic.twitter.com/qvPTrs790N

— Scott B. Weingart (@scott_bot) 20 août 2019

Si la mort, à quelque heure obscure et lointaine,
Me frappe encore pendant que je dormais, si je rêve encore :
Est-ce ma paix avec une éternité passée ?
[...]
Mais je crains que ce ne soit ni la paix ni le repos
Jusqu'à ce que les étoiles me donnent la pleine lueur de leur lumière
Pour voir tous mes soucis et mes malheurs en un instant.

Merde. pic.twitter.com/QRoi1C3rjj

— Scott B. Weingart (@scott_bot) 20 août 2019

OpenAI était initialement préoccupé par d'éventuelles utilisations malveillantes de leur système. 2019 février il a décidé de publier GPT-2 en quatre parties sur huit mois. Comme ils l'ont expliqué sur leur blog, « En raison de nos inquiétudes concernant les applications malveillantes de la technologie, nous ne publions pas le modèle entraîné. En tant qu'expérience de divulgation responsable, nous publions à la place un modèle beaucoup plus petit que les chercheurs peuvent expérimenter, ainsi qu'un document technique.

Comme expliqué, le modèle complet contient 1.5 milliard de paramètres. "Plus un modèle est entraîné avec de paramètres, plus il semble être" intelligent "- tout comme les humains, la pratique rend parfait."

TNW note qu'initialement OpenAI a publié un modèle avec 124 millions de paramètres, suivi par la suite de versions avec 355 et 774 millions. Selon eux, après avoir testé les modèles publiés, "chaque itération a montré une amélioration significative des capacités par rapport aux itérations précédentes".

Pour éviter les abus, OpenAI a publié des modèles de détection GPT-2 qui sont censés "combattre de manière préventive les abus". De leur propre aveu dans un blog récents, ces modèles de détection nécessitent encore des travaux supplémentaires pour atteindre le niveau de qualité atteint jusqu'à présent dans GPT-2 lui-même.

Les personnes intéressées peuvent télécharger le modèle GPT-2 ici sur Github, consultez la fiche modèle ici, et lisez le billet de blog d'OpenAI ici.

Rubriques connexes:

Ljubinko Zivković

Ancien diplomate et traducteur pour l'ONU, actuellement journaliste/écrivain/chercheur indépendant, se concentrant sur la technologie moderne, l'intelligence artificielle et la culture moderne.

Unite.AI

GPT-2, le générateur de texte d'intelligence artificielle est publié dans son intégralité

Tu peux aimer