Leaders d’opinion
GPT-4 nous rapprotera-t-il d’une véritable révolution de l’IA ?

Il s’est écoulé près de trois ans depuis la sortie de GPT-3, en mai 2020. Depuis, le modèle de génération de texte basé sur l’IA a suscité beaucoup d’intérêt pour sa capacité à créer du texte qui ressemble et sonne comme s’il avait été écrit par un humain. Maintenant, il semble que la prochaine itération du logiciel, GPT-4, soit juste à l’horizon, avec une date de sortie estimée à quelque part au début de 2023.
Malgré la nature très attendue de cette actualité de l’IA, les détails exacts sur GPT-4 ont été plutôt flous. OpenAI, l’entreprise derrière GPT-4, n’a pas publié publiquement beaucoup d’informations sur le nouveau modèle, telles que ses fonctionnalités ou ses capacités. Néanmoins, les progrès récents dans le domaine de l’IA, en particulier en ce qui concerne le traitement automatique des langues (TAL), peuvent offrir quelques indices sur ce que l’on peut attendre de GPT-4.
Qu’est-ce que GPT ?
Avant de plonger dans les détails, il est utile de définir d’abord une base sur ce qu’est GPT. GPT signifie Generative Pre-trained Transformer et fait référence à un modèle de réseau neuronal à apprentissage profond qui est formé sur des données disponibles sur Internet pour créer de grandes quantités de texte généré par machine. GPT-3 est la troisième génération de cette technologie et est l’un des modèles de génération de texte basé sur l’IA les plus avancés actuellement disponibles.
Pensez à GPT-3 comme fonctionnant un peu comme les assistants vocaux, tels que Siri ou Alexa, mais à une échelle beaucoup plus grande. Au lieu de demander à Alexa de jouer votre chanson préférée ou de faire taper à Siri votre texte, vous pouvez demander à GPT-3 d’écrire un eBook entier en quelques minutes ou de générer 100 idées de publications sur les réseaux sociaux en moins d’une minute. Tout ce que l’utilisateur doit faire est de fournir une invite, telle que « Écrivez-moi un article de 500 mots sur l’importance de la créativité ». Tant que l’invite est claire et spécifique, GPT-3 peut écrire à peu près tout ce que vous lui demandez.
Depuis sa sortie au public, GPT-3 a trouvé de nombreuses applications commerciales. Les entreprises l’utilisent pour la synthèse de texte, la traduction de langues, la génération de code et l’automatisation à grande échelle de presque toute tâche d’écriture.
Cela étant dit, bien que GPT-3 soit sans aucun doute très impressionnant dans sa capacité à créer du texte très lisible et ressemblant à celui d’un humain, il est loin d’être parfait. Des problèmes tendent à surgir lorsqu’il est invité à écrire des pièces plus longues, en particulier lorsqu’il s’agit de sujets complexes qui nécessitent une compréhension. Par exemple, une invite pour générer du code informatique pour un site Web peut renvoyer un code correct mais sous-optimal, donc un codeur humain doit encore aller et améliorer. C’est un problème similaire avec les grands documents texte : plus le volume de texte est important, plus il est probable que des erreurs – parfois hilarantes – apparaîtront et devront être corrigées par un écrivain humain.
Simplement dit, GPT-3 n’est pas un remplacement complet pour les écrivains ou les codeurs humains, et il ne devrait pas être considéré comme tel. Au lieu de cela, GPT-3 devrait être considéré comme un assistant d’écriture, qui peut économiser beaucoup de temps aux gens lorsqu’ils ont besoin de générer des idées de billets de blog ou des ébauches pour des copies publicitaires ou des communiqués de presse.
Plus de paramètres = mieux ?
Une chose à comprendre sur les modèles d’IA est la façon dont ils utilisent des paramètres pour faire des prédictions. Les paramètres d’un modèle d’IA définissent le processus d’apprentissage et fournissent une structure pour la sortie. Le nombre de paramètres dans un modèle d’IA a généralement été utilisé comme mesure de performance. Plus il y a de paramètres, plus le modèle est puissant, lisse et prévisible, du moins selon l’hypothèse de mise à l’échelle.
Par exemple, lorsque GPT-1 est sorti en 2018, il avait 117 millions de paramètres. GPT-2, sorti un an plus tard, avait 1,2 milliard de paramètres, tandis que GPT-3 a augmenté le nombre encore plus haut à 175 milliards de paramètres. Selon un entretien d’août 2021 avec Wired, Andrew Feldman, fondateur et PDG de Cerebras, une entreprise qui travaille avec OpenAI, a mentionné que GPT-4 aurait environ 100 billions de paramètres. Cela rendrait GPT-4 100 fois plus puissant que GPT-3, un saut quantique en taille de paramètre qui, compréhensiblement, a rendu beaucoup de gens très excités.
Cependant, malgré la revendication élevée de Feldman, il y a de bonnes raisons de penser que GPT-4 n’aura pas en fait 100 billions de paramètres. Plus le nombre de paramètres est important, plus le modèle devient coûteux à former et à affiner en raison de la grande quantité de puissance de calcul requise.
De plus, il y a plus de facteurs que juste le nombre de paramètres qui déterminent l’efficacité d’un modèle. Prenez par exemple Megatron-Turing NLG, un modèle de génération de texte construit par Nvidia et Microsoft, qui a plus de 500 milliards de paramètres. Malgré sa taille, MT-NLG n’approche pas de GPT-3 en termes de performance. En bref, plus grand ne signifie pas nécessairement mieux.
Il est probable que GPT-4 aura effectivement plus de paramètres que GPT-3, mais il reste à voir si ce nombre sera d’un ordre de grandeur supérieur. Au lieu de cela, il y a d’autres possibilités intrigantes que OpenAI poursuit probablement, telles qu’un modèle plus léger qui se concentre sur les améliorations qualitatives de la conception algorithmique et de l’alignement. L’impact exact de ces améliorations est difficile à prédire, mais ce qui est connu, c’est qu’un modèle sparse peut réduire les coûts de calcul grâce à ce qu’on appelle le calcul conditionnel, c’est-à-dire que tous les paramètres du modèle d’IA ne seront pas activés en permanence, ce qui est similaire à la façon dont les neurones du cerveau humain fonctionnent.
Alors, que pourra faire GPT-4 ?
Jusqu’à ce qu’OpenAI sorte avec une nouvelle déclaration ou même avec GPT-4, nous sommes laissés pour spéculer sur la façon dont il différera de GPT-3. Quoi qu’il en soit, nous pouvons faire quelques prédictions
Bien que l’avenir du développement de l’apprentissage profond de l’IA soit multimodal, GPT-4 restera probablement uniquement textuel. En tant qu’humains, nous vivons dans un monde multisensoriel qui est rempli de différents inputs audio, visuels et textuels. Par conséquent, il est inévitable que le développement de l’IA produira finalement un modèle multimodal qui pourra intégrer une variété d’inputs.
Cependant, un bon modèle multimodal est nettement plus difficile à concevoir qu’un modèle uniquement textuel. La technologie n’est simplement pas encore là et sur la base de ce que nous savons sur les limites de la taille des paramètres, il est probable qu’OpenAI se concentre sur l’expansion et l’amélioration d’un modèle uniquement textuel.
Il est également probable que GPT-4 sera moins dépendant d’une invitation précise. L’un des inconvénients de GPT-3 est que les invites de texte doivent être soigneusement rédigées pour obtenir le résultat souhaité. Lorsque les invites ne sont pas soigneusement rédigées, vous pouvez obtenir des sorties qui sont fausses, toxiques ou même reflétant des points de vue extrémistes. C’est partie de ce qu’on appelle le « problème d’alignement » et il fait référence aux défis de création d’un modèle d’IA qui comprend pleinement les intentions de l’utilisateur. En d’autres termes, le modèle d’IA n’est pas aligné sur les objectifs ou les intentions de l’utilisateur. Puisque les modèles d’IA sont formés à l’aide de jeux de données textuelles provenant d’Internet, il est très facile pour les préjugés humains, les faussetés et les préjugés de se retrouver dans les sorties de texte.
Cela étant dit, il y a de bonnes raisons de croire que les développeurs font des progrès sur le problème d’alignement. Cet optimisme vient de certaines avancées dans le développement d’InstructGPT, une version plus avancée de GPT-3 qui est formée sur les commentaires humains pour suivre les instructions et les intentions de l’utilisateur plus étroitement. Des juges humains ont constaté qu’InstructGPT était nettement moins dépendant que GPT-3 d’une bonne invitation.
Cependant, il convient de noter que ces tests n’ont été menés qu’avec des employés d’OpenAI, un groupe relativement homogène qui peut ne pas différer beaucoup en termes de genre, de religion ou de points de vue politiques. Il est probable qu’un pari sûr que GPT-4 subira une formation plus diverse qui améliorera l’alignement pour différents groupes, même si cela reste à voir.
GPT-4 remplacera-t-il les humains ?
Malgré la promesse de GPT-4, il est peu probable qu’il remplace complètement le besoin d’écrivains et de codeurs humains. Il reste encore beaucoup de travail à faire sur tout, de l’optimisation des paramètres à la multimodalité et à l’alignement. Il se peut que cela prenne de nombreuses années avant que nous voyions un générateur de texte qui puisse atteindre une véritable compréhension humaine des complexités et des nuances de l’expérience réelle.
Même ainsi, il y a encore de bonnes raisons d’être enthousiaste à l’approche de GPT-4. L’optimisation des paramètres – plutôt que la simple croissance des paramètres – conduira probablement à un modèle d’IA qui a beaucoup plus de puissance de calcul que son prédécesseur. Et un meilleur alignement rendra probablement GPT-4 beaucoup plus convivial pour l’utilisateur.
En outre, nous sommes encore seulement au début du développement et de l’adoption d’outils d’IA. De plus en plus d’utilisations de la technologie sont constamment découvertes, et à mesure que les gens gagnent plus de confiance et de confort en utilisant l’IA sur le lieu de travail, il est presque certain que nous verrons une adoption généralisée d’outils d’IA dans presque tous les secteurs d’entreprise dans les années à venir.












