Kunstig intelligens

GLM-130B: En åben tosproget prætrænet model

Published November 7, 2023

Updated April 4, 2026

Kunal Kejriwal

GLM-130B-rammen er en tosproget prætrænet stor sprogmodel med over 130 milliarder parametre, der kan generere tekstoutput i både engelsk og kinesisk. GLM-130B-rammen er et forsøg på at åbne en sprogmodel i en skala på over 100 milliarder parametre og diskutere, hvordan rammer af så stor skala kan prætrænes, da træning af en model af så stor skala ofte er forstyrret af problemer som divergens og tabsspidser.

I denne artikel vil vi tale om GLM-130B-rammen, der forsøger at udvikle en metode til effektivt at prætræne store sprogmodeller med hundredvis af milliarder parametre. Vi vil dykke dybere i GLM-130B-rammens funktionsmåde og arkitektur samt træningsprocessen og designvalg, der ikke kun hjælper med at øge effektiviteten, men også stabiliteten. De initielle eksperimenter, der er udført for at teste GLM-130B-rammens funktionsmåde på en bred vifte af engelske benchmarks, resulterede i, at GLM-130B-modellen overgik den nuværende tilstand af kunst GPT-3-ramme med en betydelig margin. Så lad os begynde og udforske, hvordan GLM-130B-rammen leverer så konsekvent, præcis og stabil resultater.

En introduktion til GLM-130B-rammen

Store sprogmodeller, der kan fungere i few-shot- og zero-shot-indstillinger, især de med over 100 milliarder parametre, præsenterer attraktive skala_lov, hvoraf GPT-3-rammen er en af de bedst performende rammer, der leverer betydelige ydelsesforbedringer i forhold til sin forgænger, BERT-rammen. Men på trods af GPT-3-rammens popularitet og dets omfattende anvendelser, har træningsprocessen og på visse måder GPT-3-rammen i sig selv været ikke-transparent for offentligheden. Desuden er det empirisk at opregne alle mulige designs for træning af LLM’er med over 100 milliarder parametre komputermæssigt urentabelt, hvilket gør det endnu mere kritisk at komme med en prætræningsmetode for store LLM-rammer.

Det ovennævnte punkt gør det kritisk at dele GLM-130B-rammens funktionsmåde og træningsproces med offentligheden, og med øjnene på de etiske bekymringer, er GLM-130B-rammen et forsøg på at prætræne en præcis og åben sprogmodel med over 100 milliarder parametre. Under udviklingen observerede GLM-130B-udviklingsteamet, at prætræning af en stor skala LLM-ramme ofte ledsages af en række tekniske og tekniske udfordringer i forhold til prætræningsstabilitet, effektivitet og konvergens.

For at være mere specifik er GLM-130B en bidirectional og tosproget tæt ramme, der består af over 130 milliarder parametre, prætrænet på 400 milliarder tokens på en cluster af 96 NVIDIA DGX-A100 GPU-noder over en periode på næsten to måneder. Desuden bruger GLM-130B-rammen i stedet for GPT-stilen en GLM eller en generel sprogmodel, der søger at udnytte autoregressiv blank-fyldning som træningsobjekt, og den bidirectionelle opmærksomhedsfordel. Følgende tabel sammenligner GLM-130B-rammen med andre modeller med over 100 milliarder parametre, herunder GPT, BLOOM-176B og OPT-175B.

De tekniske og tekniske koncepter, der er involveret i GLM-130B-rammen, overgår næsten alle store LLM-rammer, herunder GPT-3 og PaLM 540B med over 500 milliarder parametre i mange tilfælde og på en bred vifte af benchmarks. Følgende figur sammenligner GLM-130B-rammens ydelse med modeller med over 100 milliarder parametre, og som det kan ses, har GLM-130B-rammen betydeligt mindre generations-toxicitet og bias end sine modparter.

Til sidst er GLM-130B designede til at tillade så mange udviklere som muligt at udføre studier på rammer med over 100 milliarder parametre, og der er to måder, hvorpå GLM-130B-rammen opnår dette. Først bruger GLM-130B-rammen 130 milliarder parametre i stedet for 175 milliarder parametre som BLOOM og OPT, fordi størrelsen af modellen understøtter interferens, selv på en enkelt A100-server. For det andet er GPU-kravene til at køre GLM-130B-rammen lavere i forhold til andre LLM-rammer, og GLM-130B-rammen opnår dette ved at kvantificere den originale ramme til INT4-præcision. INT4-kvantificeringen, der bruges af GLM-130B-rammen, forbedrer ydelsen, mens den opretholder en ubetydelig ydelsesnedgang.

GLM-130B: Arkitektur

Den induktive bias af en maskinlæringsmodel beskrives af dens arkitektur, og det kommer ikke som en overraskelse, når udviklere ikke kan udforske forskellige arkitektoniske designs for store sprogmodeller, given den komputermæssige accept og bæredygtighed. Med det sagt, lad os se på GLM-130B’s arkitektur.

Store LLM-rammer som PaLM, GPT og mere har over 100 milliarder parametre og er bygget på den konventionelle decoder-kun GPT-stil-arkitektur for autoregressiv sprogmodellering. På den anden side udforsker GLM-130B-rammen muligheden for at bruge en bidirectional General Language Model eller GLM, en transformer-baseret sprogmodel, der søger at udnytte autoregressiv blank-fyldning som træningsobjekt, som grundlag. Kort sagt, for en given tekstsekvens sampler GLM-rammen tekstspænd, der derefter erstattes med en enkelt masketoken.

Den bidirectionelle opmærksomhed af den generelle sprogmodel over upåvirkede eller umaskerede kontekster er, hvad der adskiller GLM-130B-rammen fra GPT-stilen, der bruger en unidirectional tilgang. Desuden til at understøtte både generation og forståelse af data kombinerer GLM-rammen to korruptionsstrategier, hver af dem angivet med en særlig og unik masketoken.

[MASK] : [MASK] er en korruptionsstrategi, der bruger korte blanker i sætninger, hvis længder adderer op til en vis procentdel af input.
[gMASK] : [gMASK] er en korruptionsstrategi, der bruger tilfældige blanker mod slutningen af sætningen med prefix-kontekster.

Tilgangen, der følges af GLM-rammen, er, hvad der tillader rammen at optage en nøjagtighedsscore på over 80% på zero-shot LAMBADA-sprogmodellering og overgår både PaLM 540B og GPT-3-rammen.

Lag-normalisering

En af de største udfordringer, som udviklere står over for, når de træner en LLM-ramme, er træningsinstabiliteten, og brugen af en passende LN (Lag-normalisering) kan hjælpe med træningen af LLM’er. GLM-130B-rammen bruger en Post-LN-tilgang takket være dens ydelse på downstream-opgaver.

FFN’er og positionskodning

Feedforward Neural Networks eller FFN’er og positionskodning er to tilgange, der er valgt af GLM-130B-rammen til at introducere højendehåndtering og træningsstabilitet.

Prætræningsopsætning

GLM-130B-rammens prætræningsobjektiver omfatter ikke kun multi-task-læring for et lille antal tokens, men også selv-supervised GLM for autoregressiv blank-fyldning, med forventningen om, at denne tilgang vil hjælpe GLM-130B-rammen i downstream-opgaver.

Selv-supprimeret blank-fyldning

Som allerede nævnt bruger GLM-130B-rammen to korruptionsstrategier, nemlig [MASK] og [gMASK], og en af disse strategier anvendes uafhængigt på hver enkelt træningssekvens, en ad gangen.

Multi-task-instruktioner-prætræning

Det er blevet indikeret, at følge en multi-task-lærings tilgang for prætræning af modeller kan levere bedre resultater end finjustering, for at forbedre opgaveoverførsler i en zero-shot-indstilling.

Når det sammenlignes med andre tilgange for zero-shot-opgaveoverførsel, der bruger multi-task-promptet finjustering, kræver GLM-130B-rammens multi-task-instruktioner-prætræningstilgang kun 5% af de samlede tokens og er fastsat under prætræningsfasen i et forsøg på at forhindre at ødelægge andre evner i LLM-rammen eller med andre ord, ubetinget fri generation.

3D-parallelt-strategi

Der er to de facto-praksisser for træning af store modeller med milliarder af parametre, tensor-model-parallellisme og data-parallellisme.

GLM-130B: Træningsstabilitet

Træningsstabilitet er en vigtig faktor, når det kommer til at bestemme en LLM’s kvalitet, og træningsstabiliteten påvirkes kraftigt af antallet af tokens, den passerer igennem.

Blandet præcision

For at forbedre træningsnøjagtighed og reducere hukommelsesforbrug følger GLM-130B-rammen den almindelige praksis med at bruge blandet præcision, dvs. FP16 for både fremad- og bagad-retning og FP32 for både master-vejne og optimizer-tilstande.

Først kan værdiskalaen af hovedgrenen af transformeren være enorm i de dybere lag, når der bruges Pre-LN, og i GLM-130B-rammen håndteres det ved at bruge en DeepNorm-baseret Pre-LN, der sikrer, at værdiskalaen forbliver begrænset på alle tidspunkter.

Indlejring-lag-gradientsammenfald eller EGS

Udviklerne, der arbejder på GLM-130B-rammen, fandt ud af, at gradientnormen kan fungere som en informativ indikator for træningskollaps, og en træningskollaps følger normalt efter en spids i gradientnormen.

GLM-130B: Resultater og ydelse

For at evaluere GLM-130B’s ydelse på engelske opgaver implementerer den samme indstillinger, der følges af almindelige LLM-rammer, herunder PaLM og GPT-3, og da GLM-130B er en tosproget ramme, evalueres den også på flere kinesiske benchmarks.

Sprogmodellering

Sprogmodelleringstesten på GLM-130B-rammen udføres på to datasets: LAMBADA og Pile.

LAMBADA-datasættet bruges til at teste sidste ord-modelleringsevner af LLM’er, og GLM-130B-rammen opnår en zero-shot-nøjagtighed på 80,2 i en tosproget indstilling og sætter dermed en ny benchmark-rekord på LAMBADA-datasættet.

Pile er en test, der består af en række benchmarks for sprogmodeller.

MMLU eller Massive Multitask Language Understanding

MMLU eller Massive Multitask Language Understanding er en diversificeret benchmark, der består af over 50 multiple-choice-spørgsmål omkring menneskelig intelligens og viden, der spænder fra high school til eksperterniveau, og det er frigivet efter crawling af Pile-testsettet og fungerer derfor som en ideal test-bench til at evaluere few-shot-lærings-evnerne af en LLM.

Som det kan ses, i few-shot-indstillinger (5-shot), nærmer GLM-130B-rammens ydelse sig GPT-3-modellens ydelse efter at have set næsten 300 milliarder tokens.

BIG-Bench eller Beyond the Imitation Game Benchmark

BIG-Bench eller Beyond the Imitation Game Benchmarks udfordrende opgaver tester en models evne til viden, resonnering og fællessans.

CLUE eller Chinese Language Understanding Evaluation

GLM-130B’s kinesiske zero-shot-ydelse evalueres på etablerede NLP-benchmark-opgaver, herunder CLUE og FewCLUE, og sammenlignes med 260B ERNIE Titan 3.0, den største eksisterende kinesiske sprogmodel.