Tekoäly

GLM-130B: Avoin Kaksikielinen Esikoulutettu Malli

Published November 7, 2023

Updated April 4, 2026

Kunal Kejriwal

GLM-130B-kehys on kaksikielinen esikoulutettu suuri kielen malli, jolla on yli 130 miljardia parametriä, ja se kykenee tuottamaan tekstin sekä englanniksi että kiinaksi. GLM-130B-kehys on yritys avata kielen malli, jossa on yli 100 miljardin parametrin mittakaava, ja keskustella siitä, miten tällaiset suuret mittakaavat voidaan esikoulutus, koska tällä hetkellä mallin kouluttaminen on usein ongelmia, kuten divergenssi ja tappiohyppy.

Tässä artikkelissa puhumme GLM-130B-kehyksestä, joka yrittää kehittää menetelmän tehokkaaseen esikoulutukseen suurten kielen mallien kanssa, joissa on satoja miljardeja parametreja. Puhumme syvemmällä GLM-130B-kehyksen toiminnasta ja arkkitehtuurista sekä koulutusprosessista ja suunnitteluratkaisuista, jotka auttavat sekä tehokkuuden että vakauden lisäämisessä. Alkuvaiheen kokeet, joissa testattiin GLM-130B-kehyksen toimintaa laajalla valikoimalla englannin kielen mittareita, johtivat siihen, että GLM-130B-malli ylitti nykyisen GPT-3-kehyksen merkittävällä marginaalilla. Joten aloitetaan, ja tutkitaan, miten GLM-130B-kehys toimii ja tarjoaa näin johdonmukaisia, tarkkoja ja vakaita tuloksia.

GLM-130B-kehyksen Johdanto

Suuret kielen mallit, jotka voivat toimia vähäisen ja nollan shot-asetelmissa, erityisesti ne, joissa on yli 100 miljardin parametriä, tarjoavat houkuttelevat skaalautumisen lait, joista GPT-3-kehys on yksi parhaiten suorittavista kehyksistä, joka tarjoaa merkittäviä suorituskyvyn parannuksia edeltäjäänsä, BERT-kehykseen verrattuna. Kuitenkin GPT-3-kehyksen suosion ja laajan soveltamisen huolimatta, koulutusprosessi ja jossain määrin GPT-3-kehys itsessään on ollut ei-transparentti julkaistuille. Lisäksi, empiirisesti luetella kaikki mahdolliset suunnittelut large language mallien koulutukseen yli 100 miljardin parametrin kanssa on laskennallisesti kallista, mikä tekee siitä vielä kriittisempää kehittää esikoulutusmenetelmä suurten kielen mallien kehyksille.

Edellinen pointti tekee jaettavaksi GLM-130B-kehyksen toiminnan ja koulutusprosessin korkealaatuisille suurille kielen mallille, kuten GPT-3, on kriittinen arvo, ja eettisten huolenaiheiden ollessa mielessä, GLM-130B-kehys on yritys esikoulutus tarkkaa ja avoimen lähdekoodin kielen mallia yli 100 miljardin parametrin kanssa. Kehityksen aikana GLM-130B-kehys havaittiin, että suuren kielen mallin esikoulutus on usein saatavilla laaja valikoima insinööri- ja teknisiä haasteita esikoulutuksen vakauden, tehokkuuden ja konvergenssin suhteen.

Tarkemmin sanottuna, GLM-130B on kaksisuuntainen, tiheä kehys, joka koostuu yli 130 miljardia parametriä, esikoulutettu yli 400 miljardin tokenin kanssa 96 NVIDIA DGX-A100 GPU-solmujen klusterissa lähes kahden kuukauden ajan. Lisäksi, sen sijaan, että valittaisiin GPT-tyylinen arkkitehtuuri, GLM-130B-kehys käyttää GLM:ää eli yleistä kielen mallia, joka pyrkii hyödyntämään autoregressiivisen tyhjän täyttämisen koulutuskohteen, ja kaksisuuntaisen huomion etua. Seuraava taulukko vertaa GLM-130B-kehystä muihin malleihin, joissa on yli 100 miljardin parametriä, mukaan lukien GPT, BLOOM-176B ja OPT-175B.

Insinööri- ja kehityskäsitteet, jotka ovat mukana GLM-130B-kehyksessä, ylittävät lähes jokaisen suuren kielen mallin, mukaan lukien GPT-3 ja PaLM 540B, joissa on yli 500 miljardin parametriä, monissa tapauksissa ja laajalla valikoimalla mittareita. Seuraava kuva vertaa GLM-130B-kehyksen suorituskykyä malleihin, joissa on yli 100 miljardin parametriä, ja kuten voidaan nähdä, GLM-130B-kehys on merkittävästi vähemmän generoivan myrkyllisyyttä ja vinoutta verrattuna vastineisiinsa.

Lopulta, GLM-130B on suunniteltu sallimaan kehittäjille suorittaa tutkimuksia kehyksistä, joissa on yli 100 miljardin parametriä, ja on kaksi tapaa, joilla GLM-130B-kehys saavuttaa tämän. Ensinnäkin, sen sijaan, että käytettäisiin yli 175 miljardin parametriä, kuten BLOOM ja OPT, GLM-130B-kehys käyttää 130 miljardin parametriä, koska mallin koko tukee interferenssiä jopa yksittäisellä A100-palvelimella. Toiseksi, GPU-vaatimukset GLM-130B-kehyksen suorittamiseen ovat vähäisemmät verrattuna muihin kielen mallikehyksiin, ja GLM-130B-kehys saavuttaa tämän kvantisoimalla alkuperäisen kehyksen INT4-tarkkuuteen. INT4-kvantisaatio, jota GLM-130B-kehys käyttää, parantaa suorituskykyä säilyttäen merkityksettömän suorituskyvyn heikkenemisen.

GLM-130B : Arkkitehtuuri

Konstituutio machine learning -mallin on kuvattu sen arkkitehtuurilla, ja se ei tule yllätyksenä, kun kehittäjät eivät voi tutkia erilaisia arkkitehtuureja suurten kielen mallien suhteen laskennallisesta kustannuksesta ja toteuttamiskelpoisuudesta. Sanottuna, tarkastellaan GLM-130B:n arkkitehtuuri.

Suuret kielen mallikehykset, kuten PaLM, GPT ja muut, joissa on yli 100 miljardin parametriä, on rakennettu perinteiselle decoder-vain GPT-tyyliselle arkkitehtuurille autoregressiiviselle kielen mallinnukselle. Toisaalta GLM-130B-kehys tutkii mahdollisuutta käyttää kaksisuuntaista yleistä kielen mallia eli GLM:aa, joka on transformer-pohjainen kielen malli, joka pyrkii hyödyntämään autoregressiivisen tyhjän täyttämisen koulutuskohteen, ja kaksisuuntaisen huomion etua. Lyhyesti, annetun tekstin jonoa varten GLM-kehys ottaa tekstin osat, jotka korvataan yhdellä maski-tunnisteella.

Kaksisuuntainen huomio yleisestä kielen mallista puhtaiden tai maskittujen kontekstien yli erottaa GLM-130B-kehyksen GPT-tyylisestä lähestymistavasta, joka käyttää yksisuuntaista lähestymistapaa. Lisäksi tukea sekä datan generoimiselle ja ymmärtämiselle varten GLM-kehys yhdistää kaksi korruptiostrategiaa, joista kumpikin on osoitettu erityisellä ja yksilöllisellä maski-tunnisteella.

[MASK] : [MASK] on korruptiostrategia, joka käyttää lyhyitä tyhjiä lauseissa, joiden pituudet lisäävät tietyn prosenttimäärän syötteen.
[gMASK] : [gMASK] on korruptiostrategia, joka käyttää satunnaispituisten tyhjien lopussa lauseita prefix-kontekstien kanssa.

GLM-kehyksen lähestymistapa on se, joka sallii kehykselle saavuttaa tarkkuuspisteen yli 80% nollan shot-LAMBADA-kielen mallinnuksessa, ja ylittää sekä PaLM 540B- että GPT-3-kehyksen.

Kerrosnormalisointi

Yksi suurimmista haasteista, joita kehittäjät kohtaavat suuren kielen mallin kouluttamisessa, on koulutusvakaus, ja sopivan LN (Kerrosnormalisointi) käyttäminen voi auttaa kielen mallien koulutuksessa. GLM-130B-kehys käyttää Post-LN-lähestymistapaa sen suorituskyvyn vuoksi alimmissa tehtävissä.

FFN:t ja Positional Encoding

Feedforward Neuroverkkorakenteet (FFN) ja positionaalinen koodaus ovat kaksi lähestymistapaa, joita GLM-130B-kehys ottaa käyttöön johdonmukaisen alimman suorituskyvyn ja koulutusvakauden saavuttamiseksi.

Esikoulutusasettelu

GLM-130B-kehyksen esikoulutuskohteet eivät sisällä ainoastaan monitehtävänoppimista pienelle määrälle tokenia, vaan myös itsesääteisen GLM:n autoregressiivisen tyhjien täyttämisen, olettaen, että tämä lähestymistapa auttaa GLM-130B-kehyksessä alimmissa tehtävissä. Sanottuna, GLM-130B-kehyksen esikoulutusasettelu näyttää seuraavalta.

Itsensäteinen Tyhjien Täyttäminen

Kuten jo mainittu, GLM-130B-kehys käyttää kahta korruptiostrategiaa, [MASK] ja [gMASK], ja yksi näistä strategioista sovelletaan riippumattomasti kullekin koulutusjoukolle, yksi kerrallaan. Tyhjien täyttämiseksi [MASK]-strategia maskittaa peräkkäisiä osia 30%:ssa koulutusjoukosta, joiden pituudet lisäävät 15%:iin syötteen, ja seuraa Poisson-jakaumaa. Loput 70%:ssa joukosta prefix-joukon jokainen säilytetään kontekstina, ja [gMASK]-strategia auttaa maskittamaan loput, ja maskittu pituus otetaan Yhdenmukaisen jakauman mukaan.

Monitehtävänä Ohjeiden Esikoulutus

On osoitettu, että monitehtävänä oppimisen seuraaminen esikoulutuksessa voi tarjota parempia tuloksia kuin hienosäätö, jotta tehtävän siirtäminen nollan shot-asettelussa parannetaan. Seuraavasti, GLM-130B-kehys ehdottaa käyttää joukkoa ohjeistettuja tietokantoja, mukaan lukien kielen generointi, ymmärtäminen ja tietojen poisto esikoulutuksen aikana.

Vertaillessa muihin lähestymistapoihin nollan shot-tehtävän siirtämiseksi, jotka käyttävät monitehtävänä ohjeistettua hienosäätöä, GLM-130B-kehyksen monitehtävänä ohjeiden esikoulutusmenetelmä vastaa ainoastaan 5%:ia kaikista tokenien määrästä, ja se asetetaan esikoulutusvaiheessa pyrkimyksenä estää pilkkoa muita LLM-kehyksen kykyjä eli ehtymätön vapaan generointi.

3D-rinnakkaisuusstrategia

On kaksi de facto -käytäntöä suurten mallien kouluttamiseen, joissa on miljardeja parametreja, tensorin malliparallelismi ja datan parallelismi. Pyrkimyksenä vähentää GPU-käyttöä ja käsitellä valtavia GPU-vaatimuksia, GLM-130B-kehys toteuttaa 3D-rinnakkaisuusstrategian, joka yhdistää putkiputkien malliparallelismin strategian tensorin malliparallelismin ja datan parallelismin strategioihin.

GLM-130B : Koulutusvakaus

Koulutusvakaus on tärkeä tekijä, joka määrittää LLM:n laadun, ja koulutusvakaus vaikuttaa voimakkaasti riippuen tokenien määrästä, jonka se kulkee läpi. Lisäksi on tärkeää luoda tasapaino vakauden ja tehokkuuden välillä liukuvien pistekohtien muodossa laskennallisten rajoitusten vuoksi. Esimerkiksi, matalan tarkkuuden liukuvat pistekohtaiset muodot lisäävät laskennan tehokkuutta, mutta ne johtavat usein koulutusromahduksiin, koska ne ovat alttiita alivirran ja ylivirran virheille.

Seoksen tarkkuus

Pyrimyksenä parantaa koulutustarkkuutta ja vähentää muistin käyttöä, GLM-130B-kehys noudattaa yleistä käytäntöä käyttämällä seoksen tarkkuutta, eli FP16 sekä eteen- ja taaksepäin, ja FP32 sekä pääpaino- ja optimoijan tiloissa. Kuten muut suositut LLM-kehykset, mukaan lukien BLOOM-176B ja OPT-175B, GLM-130B-kehyksen koulutusvaihe seoksen tarkkuuden strategian mukaisesti kohtaa usein tappiohyppyjä, ja näiden tappiohyppyjen tiheys lisääntyy, kun malli jatkaa koulutusta. Lisäksi on suuria ongelmia, joita kehittäjät kohtaavat skaalautuessaan transformer-malleja.

Ensinnäkin, päähaaran arvo transformerissa voi olla laaja syvemmmissä kerroksissa käyttäen Pre-LN:ää, ja GLM-130B-kehyksessä se on ratkaistu käyttämällä DeepNorm-pohjaista Pre-LN:ää, joka varmistaa, että arvon asteikko on rajattu aina. Toiseksi, kun malli skaalautuu, huomioarvot kasvavat pisteeseen, jossa ne ylittävät FP16:n alueen.

Upotuskerroksen Gradientin Pienennys eli EGS

GLM-130B-kehyksen kehittäjät havaitsivat, että gradientin normi voi toimia tietoisena osoittimena koulutusromahduksille, ja koulutusromahdus yleensä jää gradientin normin hyppylle. Näiden hyppyjen syy on upotuskerrosten epänormaaleja gradientteja, ja kehittäjät havaitsivat, että verrattuna muiden kerrosten gradientin normiin, upotuskerrosten gradientin normi on suurempi useilla kertaa, ja se myös vaihtelee dramaattisesti koulutuksen alkuvaiheessa. Visiomallit kohtaavat myös tämän ongelman, ja se on ratkaistu jäädyttämällä patch-projektiokerros. Kuitenkin sama lähestymistapa ei voida soveltaa LLM-malleihin, koska kielen malleissa ei voida jäädyttää projektiokerroksia.

GLM-130B : Tulokset ja Suorituskyky

Arvioidakseen GLM-130B:n suorituskyvyn englannin kielisissä tehtävissä, se toteuttaa samat asetukset, joita yleiset LLM-kehykset, kuten PaLM ja GPT-3, noudattavat, ja koska GLM-130B on kaksikielinen kehys, se arvioidaan myös useilla kiinalaisilla mittareilla. GLM-130B-kehyksen suorituskyky mitataan useilla mittareilla, mukaan lukien kielen mallinnus, MMLU eli Massive Multitask Language Understanding, BIG-Bench eli Beyond the Imitation Game Benchmark, ja CLUE eli Chinese Language Understanding Evaluation. Joten aloitetaan.

Kielen Mallinnus

Kielen mallinnuksen benchmark-testi GLM-130B-kehyksessä suoritetaan kahdella datasetillä: LAMBADA ja Pile.

LAMBADA-datasettiä käytetään testaamaan LLM:n viimeisen sanan mallinnuskykyä, ja GLM-130B-kehys saavuttaa nollan shot-tarkkuuspisteen 80,2 kaksikielisessä asettelussa, ja asettaa uuden benchmark-ennätyksen LAMBADA-datasetissä.

Toisaalta Pile on testijoukko, joka koostuu sarjasta kielen mallien benchmark-mittareita. Keskimäärin verrattuna GPT-3:een ja Jurassic-1:een, GLM-130B-kehys tarjoaa parhaimman suorituskyvyn 18:lla jaettulla testijoukolla painotettujen BPB:iden suhteen. Tulokset osoittavat GLM-130B-kehyksen vahvan kielen kyvyt, ja tulokset on sisällytetty taulukkoon alla.

MMLU eli Massive Multitask Language Understanding

MMLU eli Massive Multitask Language Understanding on monipuolinen benchmark, joka koostuu yli 50 monivalintakysymyksen vastaamisen tehtävistä, jotka liittyvät ihmisen älykkyyteen ja tietämykseen, aina lukiosta asiantuntijatasolle, ja se on julkaistu Pile-testijoukon ryöstämisen jälkeen, ja siten se palvelee ihanteellisena testibenchmarkkina LLM:n vähäisen shotin oppimiskyvyn arvioimiseksi.

Kuten voidaan nähdä, vähäisessä shot-asettelussa (5-shot), GLM-130B-kehyksen suorituskyky lähestyy GPT-3-mallin suorituskykyä lähellä 300 miljardin tokenin katselun jälkeen. Suorituskyky jatkaa parantumista, kun koulutus jatkuu, ja kun koulutus päättyy, kehys saavuttaa tarkkuuspisteen 44,8 lähellä 400 miljardin tokenin katselun jälkeen.

BIG-Bench eli Beyond the Imitation Game Benchmark

BIG-Bench eli Beyond the Imitation Game Benchmarkin haastavat tehtävät testaavat mallin kykyä tietämyksessä, päättelyssä ja arkikokemuksessa. Kuten on osoitettu seuraavissa kuvissa, nollan shot-asettelussa GLM-130B-kehys ylittää sekä PaLM 540B- että GPT-3 175B -kehykset, mikä johtunee MIP:stä ja kaksisuuntaisesta kontekstihuomiosta, jotta GLM-130B:n suorituskyky parannetaan näkymättömissä tehtävissä nollan shot-asettelussa. Lisäksi, kun shotien määrä kasvaa, GLM-130B-kehyksen suorituskyky paranee, ja se ylittää jatkuvasti GPT-3-kehyksen.

CLUE eli Chinese Language Understanding Evaluation

GLM-130B:n kiinalainen nollan shot-suorituskyky arvioidaan vakiintuneilla NLP-benchmark-tehtävillä, mukaan lukien CLUE ja FewCLUE, ja se verrataan 260B ERNIE Titan 3.0:aan, joka on suurin olemassa oleva kiinalainen kielen malli. Kuten voidaan havaita, GLM-130B-kehys ylittää jatkuvasti 260B ERNIE Titan 3.0 -kehyksen 12 eri tehtävää kohti, ja se suorittaa lähes 260% paremmin kuin ERNIE-kehys kahdessa abstraktissa MRC-datasetissä.

Johtopäätös

Tässä artikkelissa puhumme GLM-130B:sta, kaksikielisestä esikoulutetusta suuresta kielen mallista, joka pyrkii edistämään inklusiivista LLM-tutkimusta. Arkkitehtuuri, insinööri- ja tekniset toteutukset pyrkivät antamaan AI-yhteisölle paremman ymmärryksen LLM-kehyksistä, koulutustehokkuudesta ja -vakaudesta, esikoulutuskohteista ja edullisesta interferenssistä.