TekoÀly

GLM-130B: Avoin Kaksikielinen Esikoulutettu Malli

mm

GLM-130B-kehys on kaksikielinen esikoulutettu suuri kielen malli, jossa on yli 130 miljardia parametriä, ja se pystyy tuottamaan tekstiulostuksia sekä englanniksi että kiinaksi. GLM-130B-kehys on yritys avata kielen malli, jossa on yli 100 miljardin parametrin mittakaava, ja keskustella siitä, miten tällaisia suurimittaisia kehyksiä voidaan esikouluttaa, koska tällä hetkellä mallin kouluttaminen on usein ongelmia, kuten divergenssi ja tappiohyppyjen kanssa.

Tässä artikkelissa puhumme GLM-130B-kehyksestä, joka pyrkii kehittämään menetelmän suurten kielen mallien esikoulutukseen satojen miljardien parametrejä. Puhumme syvemmällä GLM-130B-kehyksen toiminnasta ja arkkitehtuurista sekä koulutusprosessista ja suunnitteluratkaisuista, jotka auttavat lisäämään tehokkuutta ja vakautta. Alkuvaiheen kokeet, joissa testattiin GLM-130B-kehyksen toimintaa laajalla valikoimalla englannin kielen mittareita, osoittivat, että GLM-130B-malli ylitti nykyisen GPT-3-kehyksen merkittävästi. Joten aloitetaan, ja tutustumme, miten GLM-130B-kehys toimii ja miten se tarjoaa johdonmukaisia, tarkkoja ja vakaita tuloksia.

GLM-130B-kehyksen Johdanto

Suuret kielen mallit, jotka pystyvät toimimaan vähä- ja nollatilanteissa, erityisesti ne, joilla on yli 100 miljardin parametriä, tarjoavat houkuttelevat skaalautumislaatua, ja GPT-3-kehys on yksi parhaiten suorittavista kehyksistä, joka tarjoaa merkittäviä suorituskyvyn parannuksia edeltäjäänsä, BERT-kehykseen verrattuna. Kuitenkin GPT-3-kehyksen suosion ja laajan soveltamisen huolimatta, koulutusprosessi ja joissakin tapauksissa GPT-3-kehys itsessään on ollut epäselvä yleisölle. Lisäksi, empiirisesti luetellaan kaikki mahdolliset suunnitteluratkaisut yli 100 miljardin parametrin LLM-koulutukseen on laskennallisesti kallista, mikä tekee siitä vielä tärkeämmän kehittää esikoulutusmenetelmä suurten LLM-kehyksien koulutukseen.

Edellä mainittu pointti tekee siitä, että jakaminen GLM-130B-kehyksen toiminnasta ja koulutusprosessista on erittäin tärkeää, ja GLM-130B-kehys on yritys esikouluttaa tarkka ja avoin LLM yli 100 miljardin parametrin kanssa. Kehityksen aikana GLM-130B-kehys havaittiin, että suurten LLM-kehyksien esikoulutus on usein liitetty laajaan joukkoon teknisiä ja insinööritieteellisiä haasteita, kuten esikoulutuksen vakauden, tehokkuuden ja suppenevuuden suhteen.

Tarkemmin sanottuna, GLM-130B on kaksisuuntainen ja kaksikielinen tiheä kehys, jossa on yli 130 miljardin parametriä, joka on esikoulutettu 400 miljardin tokenin yli 96 NVIDIA DGX-A100 GPU-solmun klusterissa lähes kahden kuukauden ajan. Lisäksi, sen sijaan, että GPT-tyyppinen arkkitehtuuri olisi valittu, GLM-130B-kehys käyttää GLM- eli yleistä kielen mallia, joka pyrkii hyödyntämään autoregressiivisen tyhjän täyttämisen koulutuskohteena, ja kaksisuuntaisen huomion etua. Seuraava taulukko vertaa GLM-130B-kehyksen muihin malleihin, joilla on yli 100 miljardin parametriä, mukaan lukien GPT, BLOOM-176B ja OPT-175B.

GLM-130B-kehyksen insinööritieteelliset ja tekniset käsitteet ylittävät lähes jokaisen suuren LLM-kehyksen, mukaan lukien GPT-3 ja PaLM 540B, joilla on yli 500 miljardin parametriä, monissa tapauksissa ja laajalla valikoimalla mittareita. Seuraava kuva vertaa GLM-130B-kehyksen suorituskykyä malleihin, joilla on yli 100 miljardin parametriä, ja nähdään, että GLM-130B-kehys on merkittävästi vähemmän generatiivista myrkyllisyyttä ja harhaa kuin sen vastineet.

Lopulta, GLM-130B on suunniteltu sallimaan kehittäjien suorittaa tutkimuksia kehyksistä, joilla on yli 100 miljardin parametriä, ja on kaksi tapaa, joilla GLM-130B-kehys saavuttaa tämän. Ensinnäkin, sen sijaan, että BLOOM- ja OPT-mallit, joilla on yli 175 miljardin parametriä, GLM-130B-kehys käyttää 130 miljardin parametriä, koska mallin koko tukee häiriötä jopa yksittäisellä A100-palvelimella. Toiseksi, GLM-130B-kehyksen GPU-vaatimukset ovat vähäisemmät verrattuna muihin LLM-kehyksiin, ja GLM-130B-kehys saavuttaa tämän kvantisoimalla alkuperäisen kehyksen INT4-tarkkuuteen. INT4-kvantisaatio, jota GLM-130B-kehys käyttää, parantaa suorituskykyä säilyttäen merkityksettömän suorituskyvyn heikentymisen.

GLM-130B: Arkkitehtuuri

Konvektionaalisen oppimismallin induktiivinen vinouma kuvataan sen arkkitehtuurilla, ja se ei tule yllätyksenä, kun kehittäjät eivät voi tutkia erilaisia arkkitehtuureja suurten kielen mallien kehittämiseksi laskennallisesti ja taloudellisesti. Sanottuna, tarkastellaan GLM-130B:n arkkitehtuuria.

Suuret LLM-kehykset, kuten PaLM, GPT ja muut, joilla on yli 100 miljardin parametriä, on rakennettu perinteiselle decoder-vain GPT-tyyliselle arkkitehtuurille autoregressiivisen kielen mallinnuksen vuoksi. Toisaalta GLM-130B-kehys tutkii mahdollisuutta käyttää kaksisuuntaista yleistä kielen mallia eli GLM:ää, joka on transformer-pohjainen kielen malli, joka pyrkii hyödyntämään autoregressiivisen tyhjän täyttämisen koulutuskohteena, perustanaan.

GLM-130B-kehyksen kaksisuuntainen huomio yhdistää kaksi korruptiomenetelmää, joista kumpikin on osoitettu erityisellä ja yksilöllisellä maskitunnuksella.

  • [MASK]: [MASK] on korruptiomenetelmä, joka käyttää lyhyitä tyhjiä lauseissa, joiden pituus lisätään prosentteina syötteen mukaan.
  • [gMASK]: [gMASK] on korruptiomenetelmä, joka käyttää satunnaispituista tyhjiä lauseen lopussa, jossa on etuliitekonteksti.

GLM-kehyksen lähestymistapa on se, mikä mahdollistaa kehyksen saavuttaa yli 80 prosentin oikeudenmukaisuuden nollatilanteessa LAMBADA-kielen mallinnuksessa, ja ylittää sekä PaLM 540B- että GPT-3-kehyksen.

Kerrosnormalisointi

Yksi suurimmista haasteista, joita kehittäjät kohtaavat suurten LLM-kehyksien koulutuksessa, on koulutuksen epävakaus, ja sopivan LN (kerrosnormalisoinnin) käyttäminen voi auttaa LLM-mallien koulutuksessa. GLM-130B-kehys käyttää Post-LN-lähestymistapaa sen suorituskyvyn vuoksi alimmissa tehtävissä.

FFN:t ja Paikallistaminen

Syötteen eteenpäin kulkevat neuroniverkot (FFN) ja paikallistaminen ovat kaksi lähestymistapaa, joita GLM-130B-kehys käyttää korkean tason alimpien tehtävien suorituskyvyn ja koulutuksen vakauden saavuttamiseksi.

Esikoulutusasettelu

GLM-130B-kehyksen esikoulutuskohteet eivät sisällä vain monitehtävään oppimista pienelle määrälle tokenia, vaan myös itseohjautuvaa GLM:ää autoregressiivisen tyhjän täyttämisen kautta, olettaen, että tämä lähestymistapa auttaa GLM-130B-kehyksen alimmissa tehtävissä. Sanottuna, GLM-130B-kehyksen esikoulutusasettelu näyttää seuraavalta.

Itseohjautuva Tyhjän Täyttäminen

Kuten jo mainittu, GLM-130B-kehys käyttää kahta korruptiomenetelmää, [MASK] ja [gMASK], ja yksi näistä menetelmistä sovelletaan itsenäisesti jokaiselle koulutusjaksolle, yksi kerrallaan. Tyhjien täyttämiseksi [MASK]-menetelmä maskittaa peräkkäisiä jaksoja 30 prosentissa koulutusjaksosta, jossa jaksojen pituus lisätään 15 prosenttiin syötteen mukaan, ja seurailee Poisson-jakaumaa. Loput 70 prosenttia jaksosta pidetään kontekstina, ja [gMASK]-menetelmä maskittaa loput, ja maskitun pituus otetaan Yhdenmukaisen jakauman mukaan.

Monitehtävän Ohjeiden Esikoulutus

On osoitettu, että monitehtävään oppimisen seuraaminen esikoulutuksessa voi tuottaa parempia tuloksia kuin hienosäätö, jotta tehtävien siirtäminen nollatilanteessa parannettaisiin. Seuraavasti, GLM-130B-kehys ehdottaa käyttämään joukkoa ohjeiden ohjattuja tietokantoja, mukaan lukien kielen generointi, ymmärrys ja tietojen poisto esikoulutuksen aikana.

GLM-130B-kehyksen monitehtävän ohjeiden esikoulutuslähestymistapa eroaa muista nollatilanteen tehtävän siirtämisen lähestymistavoista, jotka käyttävät monitehtävään hienosäätöä. GLM-130B-kehyksen lähestymistapa edellyttää vain 5 prosenttia kaikista tokenista, ja se asetetaan esikoulutusvaiheessa estämään muiden LLM-kehyksen kykyjen vahingoittuminen eli ehdottoman vapaan generoinnin.

3D-Rinnakkaisuusstrategia

On kaksi de facto -käytäntöä suurten mallien koulutukseen, joilla on miljardeja parametreja, tensorin malliparallelius ja datan parallelius. GLM-130B-kehys toteuttaa 3D-rinnakkaisuusstrategian, joka yhdistää putkiputkien malliparalleliusstrategian tensorin malliparallelius- ja datan paralleliusstrategioihin.

GLM-130B: Koulutuksen Vakaus

Koulutuksen vakaus on tärkeä tekijä LLM:n laadun määrittämisessä, ja koulutuksen vakaus vaikuttaa voimakkaasti tokenien määrään, jotka se kulkee läpi. Lisäksi on tärkeää löytää tasapaino vakauden ja tehokkuuden välillä liukuvien pistekohtien suhteen laskennallisten rajoitusten vuoksi. Esimerkiksi, matalan tarkkuuden liukuvat pistekohtaiset muodot voivat parantaa laskennallista tehokkuutta, mutta ne voivat johtaa koulutuksen romahdukseen, koska ne ovat alttiita alivirran ja ylivirran virheille.

Seoksen Tarkkuus

GLM-130B-kehys seuraa yleistä käytäntöä käyttämällä seoksen tarkkuutta eli FP16:ta eteen- ja taaksepäin, ja FP32:ta pääasiallisille painoille ja optimoijan tilalle. Kuten muut suositut LLM-kehykset, kuten BLOOM-176B ja OPT-175B, GLM-130B-kehyksen koulutusvaihe seoksen tarkkuuden strategian mukaisesti kohtaa usein tappiohyppyjä, ja näiden tappiohyppyjen tiheys kasvaa, kun malli jatkaa koulutusta.

Ensinnäkin, transformerin päähaaran arvon mittakaava voi olla laaja syvemmmissä kerroksissa, kun käytetään Pre-LN:ää, ja GLM-130B-kehyksessä se ratkaistaan käyttämällä DeepNorm-pohjaista Pre-LN:ää, joka varmistaa, että arvon mittakaava on aina rajattu. Toiseksi, kun malli skaalautuu, huomioarvot kasvavat pisteeseen, jossa ne ylittävät FP16:n alueen.

Upotuskerroksen Gradientin Pienentäminen eli EGS

GLM-130B-kehyksen kehittäjät havaitsivat, että gradientin normi voi toimia informatiivisena osoittimena koulutuksen romahdukselle, ja koulutuksen romahdus yleensä seuraa gradientin normin hyppäystä. Gradientin normin hyppäyksen syy on upotuskerroksen epänormaaleja gradientteja, ja kehittäjät havaitsivat, että upotuskerrosten gradienttien normi on suurempi useita kertaa verrattuna muiden kerrosten gradienttien normiin, ja se myös vaihtelee dramaattisesti koulutuksen alkuvaiheessa. Näkömallit kohtaavat myös tämän ongelman, ja se ratkaistaan jäädyttämällä patch-projektiokerros. Kuitenkin sama lähestymistapa ei voida soveltaa LLM-malleihin, koska kielen malleissa et voi jäädyttää projektiokerroksia.

GLM-130B: Tulokset ja Suorituskyky

GLM-130B-kehyksen suorituskyvyn arvioimiseksi englannin kielen tehtävissä se toteuttaa samat asetukset kuin yleiset LLM-kehykset, kuten PaLM ja GPT-3, ja koska GLM-130B on kaksikielinen kehys, se arvioidaan myös useilla kiinalaisilla mittareilla. GLM-130B-kehyksen suorituskyky mitataan useilla mittareilla, mukaan lukien kielen mallinnus, MMLU eli massiivinen monitehtäväinen kielen ymmärrys, BIG-Bench eli Beyond the Imitation Game Benchmark ja CLUE eli kiinalaisen kielen ymmärryksen arviointi. Joten aloitetaan.

Kielen Mallinnus

GLM-130B-kehyksen kielen mallinnuksen mittaus suoritetaan kahdella datatietokannalla: LAMBADA ja Pile.

LAMBADA-datatietyö on testi, jolla arvioidaan LLM-mallien viimeisen sanan mallinnuksen kykyä, ja GLM-130B-kehys saavuttaa nollatilanteen oikeudenmukaisuuden 80,2 prosentilla kaksikielisessä asetelussa ja asettaa uuden ennätyksen LAMBADA-datatietyössä.

Toisaalta Pile on testijoukko, joka koostuu kielen mallien mittareista. Keskimäärin verrattuna GPT-3- ja Jurassic-1-malleihin GLM-130B-kehys saavuttaa parhaimman suorituskykynsä 18 jaettavalla testijoukolla painotettujen BPB:iden suhteen. Tulokset osoittavat GLM-130B-kehyksen vahvan kielen kyvyt, ja tulokset on esitetty seuraavassa taulukossa.

MMLU eli Massiivinen Monitehtäväinen Kielen Ymmärrys

MMLU eli massiivinen monitehtäväinen kielen ymmärrys on monipuolinen mittari, joka koostuu yli 50 valintakysymyksen vastaamisesta, joka liittyy ihmisen älykkyyteen ja tietämykseen, aina lukiosta asiantuntijatasolle, ja se on julkaistu Pile-testijoukon keräämisen jälkeen, ja se palvelee ihanteellisena testinä LLM-mallien vähätilanteen oppimiskykyjen arvioimiseksi.

Kuten voidaan nähdä, vähätilanteessa (5-otoksen) GLM-130B-kehyksen suorituskyky lähestyy GPT-3-mallin suorituskykyä, kun se on katsellut noin 300 miljardia tokenia. Suorituskyky jatkaa parantumistaan, kun koulutus jatkuu, ja kun koulutus on valmis, kehys saavuttaa oikeudenmukaisuuden 44,8 prosentilla, kun se on katsellut yhteensä 400 miljardia tokenia.

BIG-Bench eli Beyond the Imitation Game Benchmark

BIG-Bench eli Beyond the Imitation Game Benchmarkin haastavat tehtävät testaavat mallin kykyä tietämyksessä, päättelyssä ja arkisen älykkyyden suhteen. Kuten seuraavista kuvista voidaan nähdä, nollatilanteessa GLM-130B-kehys ylittää sekä PaLM 540B- että GPT-3 175B -kehykset, mikä voi johtua MIP:stä ja kaksisuuntaisesta kontekstihuomiosta, joka parantaa GLM-130B-kehyksen suorituskykyä näkymättömissä tehtävissä nollatilanteessa.

CLUE eli Kiinalaisen Kielen Ymmärryksen Arviointi

GLM-130B-kehyksen kiinalaisen kielen nollatilanteen suorituskyky arvioidaan vakiintuneilla NLP-mittareilla, mukaan lukien CLUE ja FewCLUE, ja se verrataan 260B ERNIE Titan 3.0:aan, joka on suurin olemassa oleva kiinalainen kielen malli. Kuten voidaan nähdä, GLM-130B-kehys ylittää jatkuvasti 260B ERNIE Titan 3.0 -kehyksen 12 eri tehtävää kohti, ja se suorittaa lähes 260 prosenttia paremmin kuin ERNIE-kehys kahdessa abstraktissa MRC-datatietyössä.

Johtopäätös

Tässä artikkelissa olemme puhuneet GLM-130B:stä, kaksikielisestä esikoulutetusta suuresta kielen mallista, joka pyrkii edistämään inklusiivista LLM-tutkimusta. Arkkitehtuuri, insinööritieteelliset ja tekniset pyrkimykset pyrkivät tarjoamaan AI-yhteisölle paremman ymmärryksen LLM-kehyksistä, koulutuksen tehokkuudesta ja vakaudesta, esikoulutuskohteista ja edullisesta häiriöstä.

Ammattina insinööri, sydÀmen vuoksi kirjailija. Kunal on tekninen kirjailija, jolla on syvÀ rakkaus ja ymmÀrrys AI: sta ja ML: stÀ, omistautunut yksinkertaistamaan monimutkaisia kÀsitteitÀ nÀissÀ aloissa hÀnen viihdyttÀvÀn ja informatiivisen dokumentaationsa kautta.