Artificiell intelligens

GLM-130B: Ett öppet tvåspråkigt förtränat modell

Published November 7, 2023

Updated April 4, 2026

Kunal Kejriwal

GLM-130B-ramverket är ett tvåspråkigt förtränat stort språkmodell med över 130 miljarder parametrar som kan generera textutdata på både engelska och kinesiska. GLM-130B-ramverket är ett försök att öppna källkoden för ett språkmodell i skalan över 100 miljarder parametrar och diskutera hur ramverk av sådan stor skala kan förtränas eftersom det för närvarande oftast är förenat med problem som divergens och förlustspikar.

I den här artikeln kommer vi att prata om GLM-130B-ramverket, som försöker utveckla en metod för att effektivt förträna stora språkmodeller med hundratals miljarder parametrar. Vi kommer att dyka djupare in i GLM-130B-ramverkets funktion och arkitektur samt utbildningsprocessen och designval som inte bara hjälper till att öka effektiviteten, utan också stabiliteten. De första experimenten som utfördes för att testa GLM-130B-ramverkets funktion på en stor mängd engelska benchmarkresultat resulterade i att GLM-130B-modellen överträffade den nuvarande state-of-the-art GPT-3-ramverket med en betydande marginal. Så låt oss börja och utforska hur GLM-130B-ramverket levererar så konsekventa, precisa och stabila resultat.

En introduktion till GLM-130B-ramverket

Stora språkmodeller som kan fungera i few-shot- och zero-shot-lägen, särskilt de med över 100 miljarder parametrar, presenterar attraktiva skalningslagar, varav GPT-3-ramverket är ett av de bäst presterande ramverken som levererar betydande prestandauppgraderingar jämfört med dess föregångare, BERT-ramverket. Men trots GPT-3-ramverkets popularitet och dess omfattande tillämpningar, har utbildningsprocessen och i vissa avseenden GPT-3-ramverket i sig varit icke transparenta för allmänheten. Dessutom är det empiriskt möjligt att räkna upp alla möjliga designalternativ för utbildning av LLM med över 100 miljarder parametrar, vilket gör det ännu viktigare att komma med en förträningsmetod för stora LLM-ramverk.

Ovanstående punkt gör att det är av stort värde att dela det arbete och utbildningsprocessen för högkvalitativa storskaliga LLM-ramverk som GPT-3, och med etiska överväganden i åtanke, är GLM-130B-ramverket ett försök att förträna en exakt och öppen källkods-LLM med över 100 miljarder parametrar. Under utvecklingen av GLM-130B-ramverket observerade utvecklingsteamet att förträning av ett stort LLM-ramverk ofta åtföljs av en mängd tekniska och tekniska utmaningar i termer av förträningsstabilitet, effektivitet och konvergens.

Mer specifikt är GLM-130B ett tvingande och tvåspråkigt tätt ramverk som består av över 130 miljarder parametrar, förtränat på 400 miljarder token på en kluster av 96 NVIDIA DGX-A100 GPU-noder under en period av nästan två månader. Dessutom, istället för att välja GPT-stilens arkitektur, använder GLM-130B-ramverket GLM eller det allmänna språkmodellsalgoritmen i ett försök att utnyttja dess autoregressiva blankfyllningsobjektiv och den bidirektionella uppmärksamhetsfördelen. Följande tabell jämför GLM-130B-ramverket med andra modeller med över 100 miljarder parametrar, inklusive GPT, BLOOM-176B och OPT-175B.

De tekniska och tekniska koncepten som är involverade i GLM-130B-ramverket överträffar nästan alla storskaliga LLM-ramverk, inklusive GPT-3 och PaLM 540B med över 500 miljarder parametrar i många fall och över en stor mängd benchmarkresultat. Följande figur jämför prestandan hos GLM-130B-ramverket med modeller med över 100 miljarder parametrar, och som det kan ses, har GLM-130B-ramverket betydligt mindre generationsgift och förspänning än dess motsvarigheter.

Till slut har GLM-130B utformats för att tillåta så många utvecklare som möjligt att genomföra studier på ramverk med över 100 miljarder parametrar, och det finns två sätt som GLM-130B-ramverket uppnår detta. Först, istället för att använda över 175 miljarder parametrar som BLOOM och OPT, använder GLM-130B-ramverket 130 miljarder parametrar, eftersom modellens storlek stöder interferens även på en ensam A100-server. För det andra är GPU-kraven för att köra GLM-130B-ramverket lägre jämfört med andra LLM-ramverk, och GLM-130B-ramverket uppnår detta genom att kvantisera den ursprungliga ramen till INT4 precision. Den INT4-kvantifiering som används av GLM-130B-ramverket förbättrar prestandan samtidigt som den bibehåller en försumbar prestandaförsämring.

GLM-130B : Arkitektur

Den induktiva förutfattningen hos en maskinlärningsmodell beskrivs av dess arkitektur, och det kommer inte som en överraskning när utvecklare inte kan utforska olika arkitekturdesigner för stora språkmodeller med tanke på den beräkningsmässiga åtkomligheten och genomförbarheten. Med det sagt, låt oss titta på GLM-130B:s arkitektur.

Storskaliga LLM-ramverk som PaLM, GPT och fler har över 100 miljarder parametrar och är byggda på den konventionella decoder-only GPT-stilens arkitektur för autoregressivt språkmodellering. Å andra sidan utforskar GLM-130B-ramverket möjligheten att använda en bidirektionell allmän språkmodell eller GLM, en transformerbaserad språkmodell som syftar till att utnyttja autoregressiv blankfyllning som utbildningsobjektiv, som grund. Kort sagt, för en given textsekvens provar GLM-ramverket textspannor som sedan ersätts med en enda masktoken.

Den bidirektionella uppmärksamheten hos den allmänna språkmodellen över orenade eller omaskerade sammanhang är vad som skiljer GLM-130B-ramverket från GPT-stilens tillvägagångssätt som använder ett unidirektionellt tillvägagångssätt. Dessutom, för att stödja både generering och förståelse av data, kombinerar GLM-ramverket två korruptionsstrategier, var och en av dem indikeras med en särskild och unik masktoken.

[MASK] : [MASK] är en korruptionsstrategi som använder korta blanker i meningar, vars längder adderar upp till en viss procent av indata.
[gMASK] : [gMASK] är en korruptionsstrategi som använder slumpmässiga blanker mot slutet av meningen med prefixsammanhang.

Tillvägagångssättet som följs av GLM-ramverket är vad som tillåter ramen att registrera en noggrannhetspoäng på över 80% på zero-shot LAMBADA-språkmodellering och överträffar både PaLM 540B och GPT-3-ramverket.

Lagernormalisering

En av de stora utmaningarna som utvecklare möter när de tränar ett LLM-ramverk är utbildningsinstabiliteten, och användning av en lämplig LN (Lagernormalisering) kan hjälpa till med utbildningen av LLM. GLM-130B-ramverket använder en Post-LN-ansats tack vare dess prestanda på nedströmsuppgifter.

FFN och positionskodning

Feedforward Neural Networks eller FFN och positionskodning är två tillvägagångssätt som antagits av GLM-130B-ramverket för att introducera högpresterande nedströmsprestanda och utbildningsstabilitet.

Förträningsinställning

GLM-130B-ramverkets förträningsobjektiv inkluderar inte bara multitaskinlärning för ett litet antal token, utan också självinlärda GLM för autoregressiv fyllning av blanker, med förväntningen att detta tillvägagångssätt kommer att hjälpa GLM-130B-ramverket i nedströmsuppgifter. Med det sagt, ser GLM-130B-ramverkets förträningsinställning ut som följer.

Självinlärda blankfyllning

Som redan nämnts, använder GLM-130B-ramverket två korruptionsstrategier, nämligen [MASK] och [gMASK], och en av dessa strategier tillämpas oberoende på varje enskild utbildningsserie, en i taget. För att fylla i blanker, använder [MASK]-strategin maskerade sammanhängande spannor i 30% av utbildningsserien, där längderna på spannorna adderar upp till 15% av indata, och följer en Poissonfördelning. För de återstående 70% av serien, hålls prefixet för varje serie som sammanhang, och [gMASK]-strategin hjälper till att maskera resten, och den maskerade längden provas sedan med hjälp av den enhetliga fördelningen.

Multiuppgiftsinstruktioner förträningsutbildning

Det har indikerats att att följa en multiuppgiftsinlärningsansats för förträning av modellerna kan leverera bättre resultat än finjustering, för att förbättra uppgiftsöverföring i ett zero-shot-läge. Följaktligen föreslår GLM-130B-ramverket att använda en mängd instruktionspromptade dataset, inklusive språkgenerering, förståelse och informationsutvinning under förträning.

När det jämförs med andra tillvägagångssätt för zero-shot-uppgiftsöverföring som använder multiuppgiftspromptad finjustering, står multiuppgiftsinstruktioner förträningsansatsen som följs av GLM-130B-ramverket endast för 5% av de totala token, och den ställs in under förträningsfasen i ett försök att förhindra att andra färdigheter hos LLM-ramverket eller med andra ord, ovillkorlig fri generering, förstörs.

3D-parallell strategi

Det finns två faktiska metoder för att träna stora modeller med miljarder parametrar, tensor modellparallelism och dataparallelism. I ett försök att minimera GPU-användningen och hantera enorma GPU-krav, implementerar GLM-130B-ramverket en 3D-parallell strategi som kombinerar pipeline modellparallelism strategin med tensor modellparallelism och dataparallelism strategierna.

GLM-130B : Träningsstabilitet

Träningsstabilitet är en viktig faktor när man bestämmer en LLM:s kvalitet, och träningsstabiliteten påverkas kraftigt beroende på antalet token den passerar genom. Dessutom är det viktigt att etablera en avvägning mellan stabilitet och effektivitet med hänsyn till flyttalsformat med tanke på beräkningsbegränsningar. Till exempel, lågprecisions flyttalsformat förbättrar beräkningsEffektiviteten, men de resulterar ofta i träningskollapsar eftersom de är benägna att underflödes- och överflödesfel.

Blandad precision

I ett försök att förbättra utbildningsnoggrannheten och minska minnesanvändningen, följer GLM-130B-ramverket den vanliga metoden att använda blandad precision, d.v.s. FP16 för både framåt och bakåt, och FP32 för både huvudvikt och optimerarstillstånd. Liksom andra populära LLM-ramverk, inklusive BLOOM-176B och OPT-175B, möter GLM-130B-ramverkets utbildningsfas med hjälp av den blandade precisionen ofta frekventa förlustspikar, och frekvensen av dessa förlustspikar tenderar att öka allteftersom modellen fortsätter att utbildas. Dessutom finns det stora problem som utvecklare möter när de skalar upp transformerarna.

Först, kan värdeskalan för transformerens huvudgren vara enorm i de djupare lagren när man använder Pre-LN, och i GLM-130B-ramverket, hanteras det genom att använda en DeepNorm-baserad Pre-LN, som säkerställer att värdeskalan förblir begränsad vid alla tillfällen. För det andra, när modellen skalar upp, växer uppmärksamhetsskoren till en punkt där de överstiger FP16:s omfång.

Inbäddningslagers gradientminskning eller EGS

Utvecklare som arbetar med GLM-130B-ramverket identifierade att gradientnormen kan fungera som en informativ indikator för utbildningskollaps, och en utbildningskollaps ligger vanligtvis efter en spik i gradientnormen. Orsaken till dessa spikar är de onormala gradienterna av inbäddningslagret, och utvecklare observerade att när de jämfördes med gradientnormen av andra lager, var gradientnormen av inbäddningslagret större med flera storleksordningar, och den tenderade också att fluktuera dramatiskt under den tidiga utbildningen av ramverket. Visionmodeller möter också detta problem, och det hanteras genom att frysa patchprojiceringsskiktet. Men samma tillvägagångssätt kan inte tillämpas på LLM, eftersom man inte kan frysa projiceringsskikt i språkmodeller.

GLM-130B : Resultat och prestanda

För att utvärdera GLM-130B:s prestanda för engelska uppgifter, implementerar det samma inställningar som följs av vanliga LLM-ramverk, inklusive PaLM och GPT-3, och eftersom GLM-130B är ett tvåspråkigt ramverk, utvärderas det också över flera kinesiska benchmarkresultat. GLM-130B-ramverkets prestanda kommer att mätas över flera benchmarkresultat, inklusive språkmodellering, MMLU eller Massive Multitask Language Understanding, BIG-Bench eller Beyond the Imitation Game Benchmark, och CLUE eller Chinese Language Understanding Evaluation. Så låt oss börja.

Språkmodellering

Språkmodelleringstestet på GLM-130B-ramverket utförs över två dataset: LAMBADA och Pile.

LAMBADA-datasetet används för att testa den sista ordmodelleringens förmåga hos LLM, och GLM-130B-ramverket uppnår en zero-shot-noggrannhetspoäng på 80,2 i ett tvåspråkigt läge, och på vägen, satte det ett nytt benchmarkrekord på LAMBADA-datasetet.

Å andra sidan är Pile en testuppsättning som består av en serie benchmarkresultat för språkmodeller. I genomsnitt, i jämförelse med GPT-3 och Jurassic-1, levererar GLM-130B-ramverket sin bästa prestanda på 18 delade testuppsättningar i termer av vägda BPB. Resultaten demonstrerar den starka språkförmågan hos GLM-130B-ramverket, och resultaten ingår i tabellen nedan.

MMLU eller Massive Multitask Language Understanding

MMLU eller Massive Multitask Language Understanding är en mångfacetterad benchmark som består av över 50 flervalsfrågor som rör mänsklig intelligens och kunskap, som sträcker sig från gymnasienivå till expertnivå, och det är släppt efter att Pile-testuppsättningen har skrapats, och därmed fungerar det som en ideal testuppsättning för att utvärdera few-shot-inlärningsförmågan hos en LLM.

Som det kan ses, i few-shot-lägen (5-shot), närmar sig GLM-130B-ramverkets prestanda GPT-3-modellens prestanda efter att ha sett nästan 300 miljarder token. Prestandan fortsätter att förbättras allteftersom utbildningen fortskrider, och när utbildningen är klar, uppnår ramverket en noggrannhetspoäng på 44,8 efter att ha sett totalt 400 miljarder token.

BIG-Bench eller Beyond the Imitation Game Benchmark

BIG-Bench eller Beyond the Imitation Game Benchmarks utmanande uppgifter testar en modells förmåga på kunskap, resonemang och sunt förnuft. Som visas i följande figurer, i zero-shot-läge, överträffar GLM-130B-ramverket både PaLM 540B och GPT-3 175B-ramverken, vilket kan bero på MIP och den bidirektionella kontextuppmärksamheten för att förbättra GLM-130B:s prestanda i osynliga uppgifter i zero-shot-läge. Dessutom, allteftersom antalet skott ökar, förbättras GLM-130B-ramverkets prestanda och överträffar konsekvent GPT-3-ramverket.

CLUE eller Chinese Language Understanding Evaluation

GLM-130B:s kinesiska zero-shot-prestanda utvärderas på etablerade NLP-benchmarkuppgifter, inklusive CLUE och FewCLUE, och jämförs med 260B ERNIE Titan 3.0, den största existerande kinesiska språkmodellen. Som det kan observeras, överträffar GLM-130B-ramverket konsekvent 260B ERNIE Titan 3.0-ramverket över 12 olika uppgifter och presterar nästan 260% bättre än ERNIE-ramverket på två abstrakta MRC-dataset.

Slutsats

I den här artikeln har vi talat om GLM-130B, ett tvåspråkigt förtränat stort språkmodell som syftar till att främja inkluderande LLM-forskning. Arkitekturen, tekniska och tekniska insatser syftar till att ge AI-samhället en bättre inblick i arkitekturen hos LLM-ramverk, utbildningseffektivitet och stabilitet, förträningsobjektiv och överkomlig interferens.