Suivez nous sur

GLM-130B : un modèle prĂ©-entraĂ®nĂ© bilingue ouvert

Intelligence Artificielle

GLM-130B : un modèle prĂ©-entraĂ®nĂ© bilingue ouvert

mm

Le framework GLM-130B est un grand modèle linguistique bilingue prĂ©-entraĂ®nĂ© avec plus de 130 milliards de paramètres capables de gĂ©nĂ©rer des sorties de texte en anglais et en chinois. Le framework GLM-130B est une tentative d'ouvrir un modèle de langage Ă  une Ă©chelle de plus de 100 milliards de paramètres et d'expliquer comment des frameworks d'une si grande Ă©chelle peuvent ĂŞtre prĂ©-entraĂ®nĂ©s, car actuellement, la formation d'un modèle d'une si grande Ă©chelle est souvent Ă©branlĂ©e. avec des problèmes tels que les pics de divergence et de perte. 

Dans cet article, nous parlerons du framework GLM-130B, qui tente de concevoir une mĂ©thode permettant de prĂ©-entraĂ®ner efficacement de grands modèles de langage avec des centaines de milliards de paramètres. Nous approfondirons le fonctionnement et l'architecture du cadre GLM-130B ainsi que le processus de formation et les choix de conception qui contribuent non seulement Ă  augmenter l'efficacitĂ©, mais Ă©galement la stabilitĂ©. Les premières expĂ©riences menĂ©es pour tester le fonctionnement du framework GLM-130B sur un large Ă©ventail de tests anglais ont permis au modèle GLM-130B de surpasser l'Ă©tat actuel de la technique. Cadre GPT-3 par une marge considĂ©rable. Commençons donc et explorons comment le framework GLM-130B fournit des rĂ©sultats aussi cohĂ©rents, prĂ©cis et stables. 

Une introduction au cadre GLM-130B

Les grands modèles de langage capables de fonctionner dans des paramètres de faible ou de zĂ©ro, en particulier ceux comportant plus de 100 milliards de paramètres, prĂ©sentent des lois de mise Ă  l'Ă©chelle attrayantes, parmi lesquelles le framework GPT-3 est l'un des frameworks les plus performants qui offre des amĂ©liorations de performances considĂ©rables par rapport Ă  son prĂ©dĂ©cesseur, le framework BERT. Cependant, malgrĂ© la popularitĂ© du cadre GPT-3 et ses applications gĂ©nĂ©ralisĂ©es, le processus de formation et, Ă  certains Ă©gards, le cadre GPT-3 en lui-mĂŞme n'a pas Ă©tĂ© transparent pour le public. De plus, l'Ă©numĂ©ration empirique de toutes les conceptions possibles pour la formation de LLM sur 100 B de paramètres est inabordable en termes de calcul, ce qui rend encore plus critique la mise au point d'une mĂ©thode de prĂ©-formation pour les cadres LLM Ă  grande Ă©chelle. 

Le point ci-dessus fait que le partage du processus de travail et de formation des cadres LLM Ă  grande Ă©chelle de haute qualitĂ© comme GPT-3 est d'une valeur cruciale, et compte tenu des prĂ©occupations Ă©thiques gardĂ©es Ă  l'esprit, le Le framework GLM-130B est une tentative de prĂ©-formation d'un LLM prĂ©cis et open source avec plus de 100 B de paramètres. Au cours de leur tentative, l'Ă©quipe de dĂ©veloppement du GLM-130B a observĂ© que la prĂ©-formation d'un cadre LLM Ă  grande Ă©chelle s'accompagne souvent d'un large Ă©ventail de dĂ©fis d'ingĂ©nierie et techniques en termes de stabilitĂ©, d'efficacitĂ© et de convergence avant la formation. 

Pour ĂŞtre plus prĂ©cis, le GLM-130B est un framework dense bidirectionnel et bilingue composĂ© de plus de 130 milliards de paramètres, prĂ©-entraĂ®nĂ©s sur 400 milliards de jetons sur un cluster de 96 nĹ“uds GPU NVIDIA DGX-A100 sur une pĂ©riode de près de deux mois. De plus, au lieu d'opter pour l'architecture de style GPT, le framework GLM-130B utilise l'algorithme GLM ou General Language Model pour tenter de tirer parti de ses objectifs de remplissage de blancs autorĂ©gressifs et de l'avantage de l'attention bidirectionnelle. Le tableau suivant compare le cadre GLM-130B avec d'autres modèles avec plus de 100B de paramètres, notamment GPT, BLOOM-176B et OPT-175B. 

Les concepts d'ingĂ©nierie et de dĂ©veloppement impliquĂ©s dans le cadre GLM-130B surpassent presque tous les cadres LLM Ă  grande Ă©chelle, y compris GPT-3 et PaLM 540B, avec plus de 500 B de paramètres dans de nombreux cas et sur un large Ă©ventail de rĂ©fĂ©rences. La figure suivante compare les performances du cadre GLM-130B avec des modèles comportant plus de 100 B+ de paramètres, et comme on peut le voir, le cadre GLM-130B a beaucoup moins de toxicitĂ© de gĂ©nĂ©ration et de biais que ses homologues. 

Enfin, le GLM-130B a Ă©tĂ© conçu de manière Ă  permettre au plus grand nombre de dĂ©veloppeurs de mener des Ă©tudes sur des frameworks avec plus de 100B de paramètres, et le framework GLM-130B y parvient de deux manières. Premièrement, au lieu d'utiliser plus de 175 B de paramètres comme BLOOM et OPT, le framework GLM-130B utilise 130 B de paramètres, car la taille du modèle prend en charge les interfĂ©rences mĂŞme sur un seul serveur A100. Deuxièmement, les exigences GPU pour exĂ©cuter le framework GLM-130B sont moindres par rapport aux autres frameworks LLM, et le framework GLM-130B y parvient en quantifiant le framework d'origine en prĂ©cision INT4. La quantification INT4 utilisĂ©e par le cadre GLM-130B amĂ©liore les performances tout en maintenant une dĂ©gradation nĂ©gligeable des performances. 

GLM-130B : Architecture

Le biais inductif d'un modèle d'apprentissage automatique est dĂ©crit par son architecture, et il n'est pas surprenant que les dĂ©veloppeurs ne puissent pas explorer diverses conceptions architecturales pour grands modèles de langage compte tenu de l’accessibilitĂ© informatique et de la viabilitĂ©. Cela Ă©tant dit, jetons un coup d'Ĺ“il Ă  l'architecture du GLM-130B. 

Les frameworks LLM Ă  grande Ă©chelle tels que PaLM, GPT et bien d'autres comportent plus de 100 milliards de paramètres et sont construits sur l'architecture conventionnelle de style GPT rĂ©servĂ©e aux dĂ©codeurs pour la modĂ©lisation de langage autorĂ©gressive. D'autre part, le framework GLM-130B explore la possibilitĂ© d'utiliser un Modèle de langage gĂ©nĂ©ral bidirectionnel ou GLM, un modèle de langage basĂ© sur un transformateur qui vise Ă  tirer parti du remplissage autorĂ©gressif comme objectif de formation, comme fondement. En bref, pour une sĂ©quence de texte donnĂ©e, le framework GLM Ă©chantillonne les Ă©tendues de texte qui sont ensuite remplacĂ©es par un seul jeton de masque. 

L'attention bidirectionnelle du modèle de langage gĂ©nĂ©ral sur les contextes non corrompus ou non masquĂ©s est ce qui sĂ©pare le cadre GLM-130B de l'approche de style GPT qui utilise une approche unidirectionnelle. De plus, pour prendre en charge Ă  la fois la gĂ©nĂ©ration et la comprĂ©hension des donnĂ©es, le cadre GLM fusionne deux stratĂ©gies de corruption, chacune Ă©tant indiquĂ©e par un jeton de masque spĂ©cial et unique. 

  • [MASQUER] : [MASK] est une stratĂ©gie de corruption qui utilise de courts espaces dans les phrases, dont la longueur totalise un certain pourcentage de l'entrĂ©e. 
  • [gMASQUE] : [gMASK] est une stratĂ©gie de corruption qui utilise des espaces de longueur alĂ©atoire vers la fin de la phrase avec les contextes de prĂ©fixe. 

L'approche suivie par le framework GLM est ce qui permet au framework d'enregistrer un score de prĂ©cision de plus de 80 % sur la modĂ©lisation du langage LAMBADA sans tir, et surpasse Ă  la fois le PaLM 540B et le framework GPT-3. 

Normalisation des calques

L'un des principaux dĂ©fis rencontrĂ©s par les dĂ©veloppeurs lors de la formation d'un cadre LLM est l'instabilitĂ© de la formation, et l'utilisation d'un LN (Layer Normalization) appropriĂ© pourrait aider Ă  la formation des LLM. Le framework GLM-130B utilise une approche Post-LN grâce Ă  ses performances sur les tâches en aval. 

FFN et codage positionnel

Les rĂ©seaux de neurones feedforward ou FFN et le codage positionnel sont deux approches adoptĂ©es par le cadre GLM-130B pour introduire des performances en aval haut de gamme et une stabilitĂ© de formation. 

Configuration préalable à la formation

Les objectifs de prĂ©-formation du cadre GLM-130B incluent non seulement l'apprentissage multitâche pour un petit nombre de jetons, mais incluent Ă©galement le GLM auto-supervisĂ© pour le remplissage autorĂ©gressif des blancs, dans l'espoir que cette approche aidera le GLM -130B framework dans les tâches en aval. Cela Ă©tant dit, la configuration de prĂ©-formation du framework GLM-130B ressemble Ă  ce qui suit. 

Remplissage de blancs auto-supervisé

Comme dĂ©jĂ  mentionnĂ©, le cadre GLM-130B utilise deux stratĂ©gies de corruption, Ă  savoir [MASK] et [gMASK], et l'une de ces stratĂ©gies est appliquĂ©e indĂ©pendamment Ă  chaque sĂ©quence de formation individuelle, une Ă  la fois. Pour remplir les blancs, la stratĂ©gie [MASK] masque les Ă©tendues consĂ©cutives dans 30 % de la sĂ©quence d'entraĂ®nement, oĂą les longueurs des Ă©tendues totalisent jusqu'Ă  15 % de l'entrĂ©e, et suit une distribution de Poisson. Pour les 70 % restants de la sĂ©quence, le prĂ©fixe de chaque sĂ©quence est conservĂ© comme contexte, et la stratĂ©gie [gMASK] aide Ă  masquer le reste, et la longueur masquĂ©e est ensuite Ă©chantillonnĂ©e Ă  l'aide de la distribution uniforme. 

Instructions multitâches

Il a Ă©tĂ© indiquĂ© qu'en suivant une approche d'apprentissage multi-tâches pour la prĂ©-formation, les modèles peuvent donner de meilleurs rĂ©sultats qu'un rĂ©glage fin, afin d'amĂ©liorer les transferts de tâches dans un contexte de zĂ©ro tir. Par la suite, le cadre GLM-130B propose d'utiliser un ensemble d'ensembles de donnĂ©es guidĂ©s par des instructions, notamment la gĂ©nĂ©ration, la comprĂ©hension et l'extraction d'informations du langage pendant la prĂ©-formation. 

Par rapport Ă  d'autres approches de transfert de tâches sans tir qui utilisent un rĂ©glage fin multi-tâches, l'approche de prĂ©-formation aux instructions multi-tâches suivie par le cadre GLM-130B ne reprĂ©sente que 5 % du total des jetons, et il est dĂ©fini pendant la phase de prĂ©-formation pour tenter d'Ă©viter de gâcher d'autres capacitĂ©s du cadre LLM ou en d'autres termes, gĂ©nĂ©ration libre inconditionnelle

Stratégie parallèle 3D

Il existe de facto deux pratiques pour entraĂ®ner des modèles Ă  grande Ă©chelle avec des milliards de paramètres, le parallĂ©lisme du modèle tensoriel et le parallĂ©lisme des donnĂ©es. Dans le but de minimiser l'utilisation du GPU et de rĂ©pondre aux immenses besoins du GPU, le framework GLM-130B implĂ©mente une stratĂ©gie parallèle 3D qui combine la stratĂ©gie de parallĂ©lisme du modèle de pipeline avec le parallĂ©lisme du modèle tenseur et les stratĂ©gies de parallĂ©lisme des donnĂ©es. 

GLM-130B : Stabilité d'entraînement

La stabilitĂ© de la formation est un facteur important pour dĂ©terminer la qualitĂ© d'un LLM, et la stabilitĂ© de la formation est fortement influencĂ©e en fonction du nombre de jetons traversĂ©s. De plus, il est essentiel d'Ă©tablir un compromis entre stabilitĂ© et efficacitĂ© en ce qui concerne les formats Ă  virgule flottante compte tenu des contraintes informatiques. Par exemple, les formats Ă  virgule flottante de faible prĂ©cision amĂ©liorent l'efficacitĂ© du calcul, mais ils entraĂ®nent souvent des Ă©checs de formation car ils sont sujets Ă  des erreurs de dĂ©passement et de dĂ©passement de capacitĂ©. 

Précision mixte

Dans le but d'amĂ©liorer la prĂ©cision de l'entraĂ®nement et de rĂ©duire l'utilisation de la mĂ©moire, le cadre GLM-130B suit la pratique courante consistant Ă  utiliser des prĂ©cisions mixtes, c'est-Ă -dire FP16 pour l'avant et l'arrière, et FP32 pour les poids principaux et les Ă©tats d'optimisation. Tout comme d'autres frameworks LLM populaires, notamment BLOOM-176B et OPT-175B, la phase de formation du framework GLM-130B utilisant la stratĂ©gie de prĂ©cision mixte est confrontĂ©e Ă  de frĂ©quents pics de pertes, et la frĂ©quence de ces pertes de pics a tendance Ă  augmenter Ă  mesure que le modèle continue de s'entraĂ®ner. . En outre, les dĂ©veloppeurs sont confrontĂ©s Ă  des problèmes majeurs lorsqu’ils dĂ©veloppent les transformateurs. 

Premièrement, l'Ă©chelle de valeur de la branche principale du transformateur peut ĂŞtre vaste dans les couches plus profondes lors de l'utilisation du Pre-LN, et dans le cadre GLM-130B, elle est abordĂ©e en utilisant un Pre-LN basĂ© sur DeepNorm, qui garantit que la valeur l’échelle reste limitĂ©e Ă  tout moment. Deuxièmement, Ă  mesure que le modèle Ă©volue, les scores d'attention augmentent jusqu'Ă  dĂ©passer la fourchette du FP16. 

Rétrécissement dégradé de couche d'intégration ou EGS

Les dĂ©veloppeurs travaillant sur le cadre GLM-130B ont identifiĂ© que la norme de gradient peut servir d'indicateur informatif pour les effondrements d'entraĂ®nement, et qu'un effondrement d'entraĂ®nement est gĂ©nĂ©ralement en retard par rapport Ă  un pic de la norme de gradient. La cause de ces pics est les gradients anormaux de la couche d'intĂ©gration, et les dĂ©veloppeurs ont observĂ© que, comparĂ©e Ă  la norme de gradient des autres couches, la norme de gradient des couches d'intĂ©gration est plus grande de plusieurs amplitudes, et elle a Ă©galement tendance Ă  fluctuer considĂ©rablement au cours de la pĂ©riode. formation prĂ©coce du framework. Modèles de vision sont Ă©galement confrontĂ©s Ă  ce problème, et il est rĂ©solu en gelant la couche de projection du patch. Cependant, la mĂŞme approche ne peut pas ĂŞtre appliquĂ©e aux LLM comme dans les modèles de langage, vous ne pouvez pas geler les couches de projection. 

GLM-130B : Résultats et performances

Pour Ă©valuer les performances du GLM-130B pour les tâches en anglais, il implĂ©mente les mĂŞmes paramètres suivis par les frameworks LLM courants, notamment PaLM et GPT-3, et comme le GLM-130B est un framework bilingue, il est Ă©galement Ă©valuĂ© selon plusieurs benchmarks chinois. Les performances du cadre GLM-130B seront mesurĂ©es Ă  travers plusieurs critères de rĂ©fĂ©rence, notamment ModĂ©lisation du langage, MMLU ou Massive Multitask Language Understanding, BIG-Bench ou Beyond the Imitation Game Benchmark, et CLUE ou Ă©valuation de la comprĂ©hension de la langue chinoise. Alors, commençons. 

Modélisation du langage

Le test de rĂ©fĂ©rence de modĂ©lisation du langage sur le framework GLM-130B est effectuĂ© sur deux ensembles de donnĂ©es : LAMBADA et Pile. 

L'ensemble de donnĂ©es LAMBADA est utilisĂ© pour tester les capacitĂ©s de modĂ©lisation ultime des LLM, et le cadre GLM-130B atteint un score de prĂ©cision zĂ©ro de 80.2 dans un environnement bilingue et, en cours de route, Ă©tablit un nouveau record de rĂ©fĂ©rence sur l'ensemble de donnĂ©es LAMBADA. 

D'autre part, Pile est un ensemble de tests qui comprend une sĂ©rie de tests de rĂ©fĂ©rence pour les modèles de langage. En moyenne, par rapport au GPT-3 et au Jurassic-1, le framework GLM-130B offre ses meilleures performances sur 18 ensembles de tests partagĂ©s en termes de BPB pondĂ©rĂ©s. Les rĂ©sultats dĂ©montrent les fortes capacitĂ©s linguistiques du framework GLM-130B et sont inclus dans le tableau ci-dessous. 

MMLU ou compréhension du langage multitâche massif

MMLU ou comprĂ©hension du langage multitâche massif est un benchmark diversifiĂ© qui comprend plus de 50 tâches de rĂ©ponses Ă  des questions Ă  choix multiples concernant l'intelligence et les connaissances humaines, allant du niveau secondaire au niveau expert, et il est publiĂ© après l'exploration de l'ensemble de tests Pile et constitue donc un outil idĂ©al. test-best pour Ă©valuer les capacitĂ©s d'apprentissage en quelques Ă©tapes d'un LLM. 

Comme on peut le voir, dans quelques rĂ©glages de prise de vue (5 prises de vue), les performances du framework GLM-130B se rapprochent des performances du modèle GPT-3 après avoir visualisĂ© près de 300B de jetons. Les performances continuent de s'amĂ©liorer Ă  mesure que la formation avance, et lorsque la formation se termine, le framework atteint un score de prĂ©cision de 44.8 après avoir visualisĂ© un total de 400 milliards de jetons. 

BIG-Bench ou au-delĂ  du benchmark des jeux d'imitation

BIG-Banc ou Au-delĂ  des tests de rĂ©fĂ©rence du jeu d'imitation, des tâches difficiles testent la capacitĂ© d'un modèle en termes de connaissances, de raisonnement et de bon sens. Comme le dĂ©montrent les figures suivantes, en configuration zĂ©ro tir, le framework GLM-130B surpasse Ă  la fois les frameworks PaLM 540B et GPT-3 175B, ce qui pourrait ĂŞtre dĂ» au MIP et Ă  l'attention bidirectionnelle accordĂ©e au contexte pour amĂ©liorer les performances du GLM-130B dans les tâches invisibles dans rĂ©glage zĂ©ro tir. De plus, Ă  mesure que le nombre de prises de vue augmente, les performances du framework GLM-130B s'amĂ©liorent Ă©galement, surpassant systĂ©matiquement le framework GPT-3. 

CLUE ou évaluation de la compréhension de la langue chinoise

Les performances de tir zĂ©ro chinois du GLM-130B sont Ă©valuĂ©es sur des tâches de rĂ©fĂ©rence NLP Ă©tablies, notamment CLUE et FewCLUE, et sont comparĂ©es au 260B ERNIE Titan 3.0, le plus grand modèle en langue chinoise existant. Comme on peut l'observer, le framework GLM-130B surpasse constamment le framework 260B ERNIE Titan 3.0 dans 12 tâches diffĂ©rentes et fonctionne près de 260 % ​​mieux que le framework ERNIE sur deux ensembles de donnĂ©es MRC abstraits. 

Conclusion

Dans cet article, nous avons parlĂ© de GLM-130B, un grand modèle linguistique bilingue prĂ©-entraĂ®nĂ© qui vise Ă  promouvoir une recherche LLM inclusive. Les projets d'architecture, d'ingĂ©nierie et techniques visent Ă  fournir Ă  la communautĂ© de l'IA un meilleur aperçu de l'architecture des cadres LLM, de l'efficacitĂ© et de la stabilitĂ© de la formation, des objectifs de prĂ©-formation et des interfĂ©rences abordables. 

« IngĂ©nieur de profession, Ă©crivain de cĹ“ur Â». Kunal est un rĂ©dacteur technique avec un amour et une comprĂ©hension profonds de l'IA et du ML, dĂ©diĂ© Ă  la simplification de concepts complexes dans ces domaines grâce Ă  sa documentation engageante et informative.