talon GPT-3 : Peu d’apprentissages pour le modèle linguistique ? - Unite.AI
Suivez nous sur

Intelligence artificielle

GPT-3 : Peu d’apprentissages pour le modèle linguistique ?

mm

Publié le

 on

Au cours des dernières années, l'industrie de l'IA et du ML a connu une augmentation fulgurante du développement et de l'application des systèmes NLP, les chercheurs ayant pu mettre en œuvre des pratiques NLP de manière très flexible et indépendante des tâches pour les tâches de transfert en aval. 

Initialement, ce sont les représentations monocouches qui utilisaient des vecteurs de mots, puis étaient intégrées à l'architecture spécifique à la tâche. Ensuite, c'est l'architecture RNN qui a utilisé des représentations multicouches et un état contextuel pour former de meilleures représentations. Et plus récemment, nous avons les modèles de langage de transfert ou les modèles récurrents pré-entraînés qui ont entièrement supprimé le besoin d'architectures spécifiques à des tâches en affinant ces réseaux. 

Les modèles de langage de transfert se sont avérés être un tournant majeur dans l'industrie de la PNL car ils ont permis d'énormes progrès sur des tâches difficiles telles que répondre à des questions, comprendre des textes ou des blocs de texte, impliquer des textes, et bien plus encore. 

Cependant, malgré leurs avantages, les modèles de langage de transfert présentent une limitation majeure car ils nécessitent un réglage précis ou un ensemble de données spécifiques à une tâche pour atteindre les performances souhaitées sur une tâche. De plus, les modèles de langage de transfert obligent également les développeurs à affiner les ensembles de données sur des centaines de milliers d'exemples spécifiques à une tâche particulière. 

Il va sans dire que la suppression de l’exigence d’un ensemble de données spécifiques à une tâche et d’un réglage fin spécifique à une tâche sera hautement souhaitable et bénéfique pour l’industrie de la PNL pour de nombreuses raisons. 

Problèmes avec les modèles linguistiques de transfert pré-entraînés existants ou les modèles récurrents

  • Limiter l'aspect pratique et l'applicabilité

Tout d'abord, l'exigence d'un grand ensemble de données avec des données étiquetées pour chaque tâche limite l'applicabilité et le caractère pratique des modèles de langage. Les modèles linguistiques trouvent leurs applications dans une grande variété de tâches allant de la génération d'une nouvelle à la correction d'erreurs grammaticales, en passant par la génération d'exemples sur un concept. Il est parfois difficile de collecter un vaste ensemble de données supervisées contenant des données étiquetées, en particulier lorsque le processus doit être répété pour chaque tâche individuelle. 

  • Exploiter de fausses corrélations dans les données d'entraînement

Les limites et l'étroitesse de la distribution de la formation, associées à l'expressivité du modèle, peuvent entraîner une croissance fondamentale du potentiel d'exploitation de fausses corrélations dans les données de formation. La possibilité d'exploiter les données de formation peut entraîner des problèmes lors du paradigme de réglage fin et de pré-formation, car les modèles de langage de transfert sont conçus de manière à absorber une grande quantité d'informations pendant la pré-formation. 

De plus, les travaux sur les modèles antérieurs ont indiqué que les grands modèles n'entraînent pas une meilleure distribution à chaque fois. En outre, il a également été indiqué que la généralisation réalisée dans le cadre d'un tel paradigme peut entraîner de mauvaises performances, principalement parce que le modèle est très spécifique aux données d'entraînement et ne peut pas fonctionner correctement dans des situations dépassant la portée des données d'entraînement. 

  • Comparaison avec l'apprentissage humain

Enfin, par rapport aux modèles linguistiques de transfert, les humains n'ont pas besoin d'un grand ensemble de données de formation lorsqu'il s'agit d'apprendre la majorité des tâches linguistiques. Le plus souvent, une brève directive dans la langue naturelle d'une personne ou une petite démonstration de la tâche linguistique est suffisante pour qu'un humain comprenne et exécute une tâche linguistique avec un certain niveau de compétitivité. 

La capacité d'adaptation de l'homme présente de nombreux avantages pratiques, car elle lui permet soit de basculer entre différents ensembles de compétences, soit de les mélanger pour mieux performer dans un dialecte, ce qui dépasse les capacités des systèmes PNL actuels. 

Résoudre les problèmes avec le méta-apprentissage et GPT-3

Une solution possible aux défis ci-dessus est l'utilisation du méta-apprentissage, un concept du ML moderne qui permet à un modèle de développer un ensemble plus vaste et plus large de compétences et de capacités à reconnaître des modèles pendant l'entraînement, puis d'utiliser ces capacités acquises lors d'interférences pour s'adapter. rapidement ou reconnaître la tâche requise. 

Le méta-apprentissage est implémenté dans l'architecture de modèles de langage via une technique appelée «apprentissage en contexte» qui utilise la saisie de texte d'un modèle de langage pré-entraîné comme spécification de tâche. Dans le processus, le modèle conditionne un enseignement en langage naturel, et peut même utiliser quelques démonstrations, et on s'attend alors à ce que le modèle achève le reste de la tâche en prédisant les prochaines étapes. 

Le seul problème majeur du méta-apprentissage est que, même s'il a montré un potentiel positif, il reste inférieur à l'approche de réglage fin de l'architecture du langage naturel et doit encore être amélioré afin de devenir une méthode pratique pour surmonter les tâches linguistiques. 

En plus du méta-apprentissage, une autre méthode qui gagne en popularité consiste à augmenter la capacité des modèles de langage de transformation. Ces dernières années, les modèles de transfert ont connu une augmentation substantielle de leur capacité avec le RSS18 modèle avec 100 millions de paramètres, le DCLT18 modèle avec 300 millions de paramètres, le RWC19 modèle avec 1.5 milliard de paramètres, le SSP19 modèle avec 8 milliard de paramètres, le RSR19 modèle avec 11 milliards de paramètres, et le TUR20 modèle avec 17 milliards de paramètres. 

L'augmentation de la capacité du modèle ou l'augmentation des paramètres ont historiquement entraîné des améliorations dans la synthèse de texte, et il semble que la perte de journal, qui est en corrélation avec les tâches en aval, suit également une tendance régulière à l'amélioration avec l'échelle. 

Cela nous amène au modèle GPT-3 qui compte plus de 175 milliards de paramètres et, lors de son lancement, il s'agissait du modèle de langage de transfert doté de la plus grande capacité. Parlons maintenant du modèle GPT-3. 

Une introduction au modèle GPT-3

Le GPT-3 est un modèle de langage auto-agressif avec plus de 175 milliards de paramètres publié par OpenAI en 2020. GPT-3 est également classé comme un modèle de langage auto-agressif. grand modèle de langage que, tout comme son prédécesseur, le modèle GPT-2 est un modèle de transformateur d'apprentissage en profondeur uniquement par décodeur qui utilise une architecture basée sur la convolution pour générer des données textuelles. 

Le modèle GPT-3 mesure ses propres capacités d'apprentissage du contexte, et le modèle GPT-3 est évalué sur plus de deux douzaines d'ensembles de données PNL et plusieurs tâches nouvelles. Pour chaque tâche individuelle, le modèle GPT-3 est évalué sous trois conditions,

  • Quelques apprentissages par tir ou apprentissage en contexte : En quelques coups d'apprentissage, le modèle GPT-3 permet autant de distributions qui peuvent bien s'intégrer dans la fenêtre contextuelle du modèle. 
  • Apprentissage One Shot : En one shot learning, le modèle ne permet qu’une seule démonstration. 
  • Apprentissage zéro tir : Dans l'apprentissage zéro shot, il n'y a pas de démonstrations et il n'y a qu'une instruction en langage naturel qui est transmise au modèle. 

D'une manière générale, Modèle GPT-3 atteint les performances souhaitées dans les réglages zéro et unique, et dans le réglage quelques coups, il surpasse la plupart du temps les modèles de transfert de pointe. De plus, le modèle GPT-3 fonctionne bien dans les paramètres one-shot et zero-shot pour les tâches en langage naturel conçues pour tester le raisonnement à la volée, ou qui nécessitent une attention rapide, comme l'utilisation de nouveaux mots après une phrase, le déchiffrement de mots ou l'exécution d'arithmétique. opérations. D'un autre côté, lorsqu'il est utilisé dans un contexte de quelques clichés, le modèle GPT-3 génère des articles d'actualité synthétiques qui ressemblent à une écriture humaine lorsqu'ils sont transmis à des évaluateurs humains. 

Modèle GPT-3 : approche

Le modèle GPT-3 utilise une approche de pré-formation conventionnelle qui comprend un modèle, des données et une formation, et ressemble au processus de pré-formation suivi par le modèle de langage de transfert RWC-19. Le modèle GPT-3 augmente la taille du modèle, la taille de l'ensemble de données, la diversité de l'ensemble de données et augmente la durée de la période de formation. 

Le modèle utilise également une approche d'apprentissage en contexte qui ressemble encore une fois à l'approche du modèle RWC-19, mais peaufine un peu les choses en explorant systématiquement différents paramètres de modèles d'apprentissage dans le contexte de l'ensemble de données. 

Commençons donc par explorer ces paramètres et évaluons les performances du modèle GTP-3 sur différents paramètres. 

Autres services

L'affinement du modèle a été l'approche conventionnelle en matière de transfert modèles de langage, et cette approche implique de mettre à jour les poids d'un modèle pré-entraîné en entraînant le modèle sur un ensemble de données supervisé spécifique à la tâche souhaitée, et des centaines de milliers d'exemples étiquetés sont utilisés au cours du processus. 

L’approche de réglage fin est bénéfique car elle génère de solides performances sur de nombreux benchmarks. D'un autre côté, la principale limite de l'utilisation de l'approche de réglage fin est qu'elle nécessite un nouvel et vaste ensemble de données pour chaque tâche individuelle, qu'elle a le potentiel d'exploiter des caractéristiques parasites de l'ensemble de données d'entraînement et qu'elle peut potentiellement entraîner une comparaison injuste avec les performances humaines. , et une mauvaise généralisation de la hors distribution. 

La portée actuelle du modèle GPT-3 ne met pas en œuvre l'approche de réglage fin en raison de ses performances indépendantes des tâches, bien que le réglage fin puisse être appliqué au modèle GPT-3 à l'avenir. 

Quelques tirs

Few Shot est un terme qui fait référence au cadre dans lequel le modèle GPT-3 reçoit quelques démonstrations de la tâche lors d'interférences en tant que conditionnement, mais les poids du modèle ne sont pas mis à jour. Dans les quelques paramètres de prise de vue, l'ensemble de données contient généralement un exemple avec un contexte et une complétion souhaitée (par exemple, une phrase française et sa traduction anglaise). Le réglage de quelques prises de vue donne au modèle K des exemples de contexte et d'achèvement, puis il fournit au modèle un contexte final et s'attend à ce que le modèle fournisse l'achèvement. 

Le principal avantage de l’utilisation du paramètre « quelques plans » est qu’il réduit considérablement le besoin de données spécifiques à une tâche, ainsi que la possibilité d’apprendre une distribution étroite à partir d’un vaste ensemble de données affinées de manière étroite. D'un autre côté, l'inconvénient majeur de l'utilisation de l'apprentissage de quelques plans est que les résultats obtenus avec le réglage de quelques plans ne sont pas à la hauteur et sont nettement médiocres par rapport à d'autres modèles de pointe qui sont réglés avec précision. 

One Shot

Dans le réglage One Shot, le modèle ne reçoit qu'une seule démonstration, et le reste est similaire au réglage à quelques coups. La raison pour laquelle le paramètre one shot est pertinent dans les modèles de langage de transfert est que parmi les trois paramètres, one shot est celui qui ressemble le mieux à la manière dont les tâches sont communiquées aux humains. En effet, dans la plupart des tâches, il est courant de faire une démonstration de la tâche, sinon il pourrait être difficile de comprendre le contexte de la tâche. 

Tir zéro

Dans le cadre du tir zéro, il n'y a pas de démonstration et le modèle reçoit une instruction en langage naturel qui décrit la tâche. La méthode du tir zéro est celle qui offre un maximum de commodité, est robuste et évite également les corrélations parasites, mais c'est aussi le plus difficile des trois paramètres. C'est parce que dans certains cas, il est difficile, même pour nous, les humains, de comprendre le contexte d'une tâche sans voir au préalable une démonstration. 

Quoi qu’il en soit, pour certaines tâches, le réglage zéro est celui qui ressemble le plus à la façon dont les humains effectuent des tâches en langage naturel. 

La figure ci-dessus compare les réglages quelques coups, un coup et zéro lors de l'exécution d'une tâche en langage naturel consistant à prendre une phrase en anglais et à la traduire en français. 

GPT-3 : Architecture du modèle

Le modèle GPT-3 utilise la même architecture que celle utilisée dans le modèle GPT-2 et inclut des techniques de pré-normalisation, d'initialisation modifiée et de tokenisation réversible telles qu'elles étaient utilisées sur le modèle GPT, à l'exception de l'utilisation d'une alternative. stratégie pour des modèles d'attention clairsemés localement et des couches denses alternées dans les couches de transformateur, similaire à Sparse Transformer. 

Pour étudier la dépendance des performances du modèle sur la taille du modèle, les développeurs ont formé 8 tailles de modèle différentes qui s'étendent sur trois ordres de grandeur différents allant de 125 millions à plus de 175 milliards de paramètres, le dernier d'entre eux étant appelé le modèle GPT-3. . Des travaux antérieurs liés aux modèles LLM ont indiqué que la mise à l'échelle de la perte de validation avec une quantité suffisante de données d'entraînement devrait être une loi de puissance douce approximative en fonction de la taille. Des modèles de formation de différentes tailles permettent aux développeurs de tester l'hypothèse pour les tâches linguistiques en aval ainsi que pour la perte de validation. 

La figure ci-dessus compare la taille et l'architecture des 8 modèles différents utilisés pour le développement de GPT-3. Ici, n(params) définit le nombre total de modèles pouvant être entraînés, n(layers) définit le nombre total de couches dans le modèle, d(model) définit le nombre d'unités dans chaque couche du goulot d'étranglement et d(head) définit les dimensions de chaque tête d'attention. La fenêtre contextuelle pour chaque modèle est la même avec 2048 jetons. 

De plus, pour minimiser le transfert de données entre les nœuds, le modèle est partitionné entre les GPU selon la profondeur et la largeur des dimensions. Les paramètres architecturaux de chaque modèle ont été choisis sur la base de l'efficacité informatique et de l'équilibrage de charge afin de maximiser la précision de la disposition des modèles sur les GPU. 

Ensembles de données d'entraînement

En règle générale, les grands modèles de langage utilisent des ensembles de données qui se sont considérablement développés avec les développements récents, et ils culminent dans l'ensemble de données Common Crawl qui comprend plus d'un billion de mots différents. La taille de l'ensemble de données est suffisamment adéquate pour entraîner le modèle GPT-3 sans mettre à jour plusieurs fois la même séquence. Cependant, les études et analyses de performances indiquent que les versions légèrement filtrées ou non filtrées de l'ensemble de données Common Crawl sont de mauvaise qualité par rapport à un ensemble de données plus organisé. 

Pour résoudre le problème de la qualité moyenne de l'ensemble de données, les développeurs ont suivi 3 étapes pour améliorer la qualité de l'ensemble de données. 

  1. Les développeurs ont téléchargé et filtré une version de l'ensemble de données Common Crawl basée sur une gamme similaire à des corpus de référence de haute qualité. 
  2. Les développeurs ont effectué une duplication floue au niveau du document dans l'ensemble de données dans le but de préserver l'intégrité de leur ensemble de validation retenu en tant que mesure efficace du surajustement, et également d'éviter la redondance. 
  3. Les développeurs ont également ajouté des corpus de référence de haute qualité aux données de formation pour augmenter l'ensemble de données Common Crawl et accroître encore la diversité de l'ensemble de données. 

La figure suivante montre la proportion finale ou le mélange des ensembles de données utilisés pour entraîner le modèle GPT-3. Les données Common Crawl comprenaient plus de 45 To de texte brut avant le filtrage, qui ont été réduites à 570 Go de données après le filtrage, soit un équivalent approximatif de plus de 400 milliards de jetons codés par paires d'octets. Il convient de noter que les ensembles de données de la formation qui sont considérés comme de meilleure qualité sont échantillonnés plus fréquemment au lieu d'échantillonner l'ensemble de données proportionnellement à leur taille. Par conséquent, les ensembles de données tels que Books2 et Common Crawl sont échantillonnés moins d'une fois pendant la formation, tandis que les autres ensembles de données sont échantillonnés plusieurs fois. Cela permet au modèle d'accepter une petite quantité de surajustement en échange d'un entraînement sur des données d'entraînement de meilleure qualité. 

Une préoccupation importante avec les grands modèles de langage qui sont pré-entraînés sur une grande quantité de données Internet avec la capacité de mémoriser et d'apprendre une grande quantité de contenu est la contamination potentielle des tâches en aval en voyant leur développement ou leurs ensembles de tests pendant la pré-formation. processus de formation. Pour réduire une telle contamination potentielle, les développeurs ont recherché tout chevauchement avec les ensembles de test et de développement des références étudiées pour GPT-3 et ont tenté de supprimer ces chevauchements. 

L'image ci-dessus montre le calcul total utilisé lors de la formation du modèle GPT-3. Le modèle utilise des lois de mise à l'échelle pour les modèles de langage neuronal pour former des modèles beaucoup plus grands sur moins de jetons que d'habitude. En conséquence, les modèles GPT-3 et RoBERTa-Large, qui sont 10 fois plus petits que le modèle GPT-3, ont nécessité près de 50 pétaflops/jour de calcul pendant le processus de pré-formation. 

Evaluation

Pour les quelques tirs d'apprentissage, le modèle évalue chaque exemple présent dans l'ensemble de données d'évaluation en tirant K exemples au hasard à partir de l'ensemble de données d'entraînement de cette tâche comme conditionnement, et le délimite par 1 ou 2 nouvelles lignes en fonction de la tâche. Pour Storycloze et LAMBADA, le modèle tire des exemples de conditionnement de l'ensemble de développement et les évalue sur l'ensemble de test en raison de l'indisponibilité d'un ensemble de formation supervisé. Pour Winograd, il n’existe qu’un seul ensemble de données et les échantillons de conditionnement en sont donc tirés directement. 

K peut être n'importe quelle valeur allant de 0 au montant maximum autorisé par la fenêtre contextuelle du modèle qui est nposte = 2048 pour tous les modèles, et cela correspond généralement à environ 10 à 100 exemples. Des valeurs de K plus grandes donnent souvent de meilleurs résultats, mais pas toujours. C'est pourquoi, lorsque le modèle dispose d'un ensemble de test et d'un ensemble de développement distinct disponible, le modèle expérimente quelques valeurs de K sur l'ensemble de développement et, en fonction des résultats. , il exécute la meilleure valeur sur l'ensemble de test. 

De plus, pour les tâches qui nécessitent de sélectionner une complétion correcte parmi plusieurs options, les développeurs fournissent K exemples de correction plus complétion du contexte, et le suivent en fournissant un exemple de contexte uniquement, et les tâches sont ensuite comparées sur la base de la probabilité LM. de chaque réalisation. Pour les tâches qui nécessitent une classification binaire, les modèles donnent souvent des options de manière plus sémantique et avec des noms plus significatifs, puis traitent la tâche comme un choix multiple et encadrent parfois également la tâche de manière similaire à ce qui est fait par le modèle et l'architecture RSR. 

Pour les tâches qui nécessitent une réalisation de forme libre, le modèle utilise une recherche de faisceau avec des paramètres identiques à ceux utilisés dans le cadre RSR, avec un faisceau de longueur 4 et une pénalité de 0.6. Le modèle est ensuite noté à l'aide du score de similarité F1, de la correspondance exacte ou du BLEU, selon la norme de l'ensemble de données. 

Résultats

La figure ci-dessus affiche les courbes de formation pour les 8 modèles utilisés dans l'architecture du modèle GPT-3, comme décrit dans les sections précédentes. Semblable aux résultats du modèle de langage KMH, les performances du modèle GPT-3 suivent une loi appropriée lors de l'utilisation efficace du calcul d'entraînement. Il n’y a une légère différence par rapport à la loi que lorsque la tendance est prolongée de deux ordres de grandeur supplémentaires. Il peut arriver à l’esprit des gens que les améliorations de la perte d’entropie croisée pourraient être le résultat d’une modélisation de détails erronés du corpus de formation. Cependant, les améliorations de la perte d’entropie croisée conduisent à des gains constants dans les performances globales sur un large spectre de tâches de PNL. 

Avant d'évaluer les 8 modèles différents sur un large éventail de données d'entraînement, les ensembles de données sont regroupés en 8 catégories différentes qui représentent des tâches similaires. Ces catégories sont

  1. Évaluation des tâches de modélisation de langage traditionnelles et des tâches qui ressemblent à la modélisation de langage comme les tâches de Cloze ou les tâches de complétion de phrases/paragraphes. 
  2. Évaluation sur des tâches de réponse à des questions « à livre fermé ». 
  3. Évaluer la capacité du modèle à traduire entre les langues (en particulier en un seul coup et en quelques coups)
  4. Évaluation des performances du modèle sur des tâches de type Winograd Schema. 
  5. Évaluer sur des ensembles de données qui impliquent un raisonnement de bon sens ou des réponses à des questions. 
  6. Évaluation des tâches de compréhension écrite. 
  7. Évaluation sur la suite de benchmarks SuperGLUE. 
  8. Explorer NLI. 

Tâches de modélisation, d'achèvement et de fermeture du langage

Dans cette section, les performances du modèle GPT-3 sont évaluées sur les tâches de modélisation de langage traditionnelles ainsi que sur les tâches qui nécessitent la prédiction d'un seul mot d'intérêt, ou la complétion d'un paragraphe ou d'une phrase, ou la complétion d'un morceau de texte. Discutons-en brièvement en détail. 

Modélisation du langage

Le modèle GPT-3 calcule la perplexité du tir nul sur le jeu de données PTB ou Penn Tree Bank. Le modèle omet les tâches liées à Wikipédia car elles sont déjà incluses dans les données d'entraînement du modèle, et le benchmark d'un milliard de mots est également omis car il provoque une quantité importante de frictions entre l'ensemble de données et les données d'entraînement. Cependant, l’ensemble de données PTB résout ces problèmes car il peut être antérieur à l’Internet moderne. Le plus grand modèle de l'architecture de modèle GPT-3 établit un nouveau SOTA sur l'ensemble de données PTB avec une marge remarquable de 15 points et atteint une perplexité de 20.50. 

LAMBADA

Le jeu de données LAMBADA est utilisé pour tester la modélisation du modèle sur les dépendances à longue portée dans les paragraphes ou les textes. Cela signifie qu'il est demandé au modèle de prédire le dernier mot d'une phrase après avoir lu le paragraphe pour le contexte. De plus, la mise à l’échelle continue des modèles linguistiques produit des rendements décroissants sur le benchmark. 

Le modèle GPT-3 atteint une précision de 76 % sur LAMBADA et présente un gain de plus de 8 % par rapport aux meilleurs modèles précédents. De plus, le modèle LAMBADA démontre la flexibilité de l'apprentissage en quelques coups car il aborde le problème d'une manière qui se produit classiquement avec l'ensemble de données. La complétion d'une phrase en LAMBADA est généralement le dernier mot de la phrase, mais comme un modèle de langage ne peut pas le savoir, il attribue une probabilité non seulement à la fin correcte, mais également aux autres continuations du paragraphe. 

De plus, lorsque les exemples fournis au modèle GPT-3 sont modifiés d'une certaine manière, le modèle renvoie une précision de plus de 86 %, soit une augmentation de plus de 18 % par rapport aux modèles précédents. De plus, les résultats ont également indiqué que les performances du modèle avec quelques prises de vue augmentent proportionnellement à l'augmentation de la taille du modèle. Bien que cette stratégie réduise de 3 % le plus petit modèle de l'architecture GPT-20, elle améliore de 3 % la précision du modèle GPT-175 principal avec 10 milliards de paramètres. 

Réponse aux questions à livre fermé

La réponse aux questions à livre fermé est une tentative de mesurer la capacité du modèle GPT-3 à répondre à des questions basées sur de vastes connaissances factuelles. Étant donné que de telles questions comportent souvent un grand nombre de requêtes possibles, la tâche est normalement réalisée à l'aide d'un système de recherche d'informations qui permet au modèle de trouver le texte pertinent en combinaison avec le modèle qui apprend à générer une réponse à une réponse étant donné le texte récupéré, et la question. 

L'image ci-dessus compare le résultat du modèle GPT-3 à celui de différents modèles et fonctionnant sur différents ensembles de données. Sur l'ensemble de données TriviaQA, le modèle atteint un score de précision de 64.3 % dans le réglage zéro tir, tandis qu'il atteint un score de précision de 68 % et 71.2 % dans les réglages un coup et quelques coups respectivement. 

On peut évidemment constater que le modèle GPT-3 en réglage zéro surpasse de plus de 5 % le modèle T11-14B affiné. 

La figure ci-dessus montre que les performances du modèle GPT-3 augmentent progressivement avec l'augmentation de la taille du modèle. Les performances suggèrent que les modèles de langage continuent d'apprendre de l'ensemble de données à mesure que leur capacité augmente. 

Réflexions finales

Il serait prudent de dire que GPT-3 a été une phase révolutionnaire dans l'industrie LLM, car GPT-3 a contribué à repousser les limites de ce qu'un modèle de langage pouvait faire. Ce sont les développements réalisés et les obstacles surmontés par GPT-3 qui ont ouvert la voie au grand modèle de langage le plus avancé et le plus précis à ce jour, le GPT-4. 

« Ingénieur de profession, écrivain de cœur ». Kunal est un rédacteur technique avec un amour et une compréhension profonds de l'IA et du ML, dédié à la simplification de concepts complexes dans ces domaines grâce à sa documentation engageante et informative.