Ühenda meile

Tehisintellekt

Kas saate poole hinnaga ehitada suuri keelemudeleid, nagu ChatGPT?

mm

avaldatud

 on

Suured keelemudelid (LLM-id), nagu GPT-3 ja ChatGPT, on muutnud tehisintellektis revolutsiooni, pakkudes loomuliku keele mõistmise ja sisu genereerimise võimalusi. Kuid nende arendamine on kõrge hinnaga, mis piirab juurdepääsetavust ja täiendavaid uuringuid. Teadlaste hinnangul läks GPT-3 väljaõpe OpenAI-le maksma umbes $ 5 miljonit. Sellegipoolest mõistis Microsoft potentsiaali ja investeeris $ 1 miljardit aastal 2019 ja $ 10 miljardit aastal 2023 OpenAI GPT-3 ja ChatGPT ettevõtmises.

LLM-id on masinõppemudelid, mis on koolitatud NLP-rakenduste ulatuslike tekstiandmete põhjal. Need põhinevad trafo arhitektuuril ja kasutavad tähelepanumehhanisme NLP-ülesannete jaoks, nagu küsimustele vastamine, masintõlge, sentimentide analüüs jne.

Tekib küsimus: kas nende suurte mudelite tõhusust saab suurendada, vähendades samal ajal arvutuskulusid ja koolitusaega?

Mitu lähenemist, nt Progressiivsed närvivõrgud, Võrgu morfism, kihisisese mudeli paralleelsus, teadmiste pärandjne on välja töötatud, et vähendada närvivõrkude koolitamise arvutuskulusid. Romaan LiGO (Linear Growth Operator) lähenemisviis, mida arutame, on uue võrdlusaluse seadmine. See vähendab LLM-ide koolituse arvutuskulusid poole võrra.

Enne selle tehnika üle arutlemist on oluline uurida LLM-ide tegemise kõrget hinda soodustavaid tegureid.

Suurte keelemudelite ehitamise hind

LLM-ide arendamise kolm peamist kulu on järgmised:

1. Arvutusressursid

LLM-ide loomine nõuab tohutuid arvutusressursse, et treenida suurtel andmekogumitel. Nad peavad töötlema miljardeid parameetreid ja õppima tohututest tekstiandmetest keerulisi mustreid.

Investeeringud spetsiaalsesse riistvarasse, näiteks graafikaprotsessoritesse (GPU) ja Tensor Processing Units (TPU-d) on vajalikud LLM-ide ehitamiseks ja koolitamiseks, et saavutada tipptasemel jõudlus.

Näiteks GPT-3 koolitati a superarvuti 10000 100 ettevõtteklassi GPU-ga (H100 ja A285,000) ja XNUMX XNUMX protsessorituumaga.

2. Energiatarbimine

LLM-ide ehitamiseks vajalikud intensiivsed arvutusressursid põhjustavad märkimisväärset energiatarbimist. Näiteks 175 miljardi GPT-3 parameetri väljaõpetamiseks kulus 14.8 päeva kasutades 10,000 100 V3.55 GPU-d, mis vastab XNUMX miljonile GPU tunnile. Nii kõrgel energiatarbimisel on ka märkimisväärne keskkonnamõju.

3. Andmete salvestamine ja haldamine

LLM-id on koolitatud suurte andmekogumitega. Näiteks GPT-3 koolitati suurel hulgal tekstimaterjalidel andmed, sealhulgas teiste allikate hulgas Common Crawl, WebText2, Books1, Books2 ja Wikipedia. Nende andmekogumite kogumiseks, kureerimiseks ja salvestamiseks on vaja märkimisväärseid infrastruktuuriinvesteeringuid.

Samuti on andmete salvestamiseks vaja pilvesalvestust ning andmete eeltöötluseks ja versioonikontrolliks inimteadmisi. Lisaks suurendab kulusid ka andmestrateegia vastavuse tagamine sellistele määrustele nagu GDPR.

LiGO tehnika: vähendage suurte keelemudelite ehitamise kulusid poole võrra

LiGO (Linear Growth Operator) on uudne tehnika, mille on välja töötanud MIT-i teadlased, et vähendada LLM-ide koolitamise arvutuskulusid 50%. Meetod hõlmab suuremate mudelite kaalude lähtestamist väiksemate eelkoolitatud mudelite omadest, võimaldades närvivõrkude tõhusat skaleerimist.

Yoon Kim, artikli vanemautor, ütleb:

"Arvatakse, et ChatGPT eeldatava mastaabiga treeningmudelite jaoks võib kuluda miljoneid dollareid ainult ühe treeningu jaoks. Kas saame parandada nende koolitusmeetodite tõhusust, et saaksime siiski häid mudeleid lühema ajaga ja väiksema raha eest? Teeme selleks ettepaneku kasutada väiksemaid keelemudeleid, mida on varem koolitatud.

See meetod säilitab suuremate mudelite jõudluse eelised väiksema arvutuskulude ja koolitusajaga võrreldes suure mudeli nullist koolitamisega. LiGO kasutab andmepõhist lineaarset kasvuoperaatorit, mis ühendab optimaalse jõudluse saavutamiseks sügavuse ja laiuse operaatorid.

Töös kasutati tekstipõhiste katsete läbiviimiseks erinevaid andmekogumeid, sealhulgas ingliskeelset Wikipedia korpust BERT ja RoBERTa mudelite koolitamiseks ning C4 andmekogumit GPT2 koolitamiseks.

LiGO tehnika katsetamine hõlmas BERT-Small kasvatamist BERT-Base'iks, BERT-Base'i kasvatamist BERT-Large'iks, RoBERTaSmall'i kasvatamist RoBERTa-Base'iks, GPT2-Base'i kasvatamist GPT2-Mediumiks ja CaiT-XS kasvatamist CaiT-S-ks.

Teadlased võrdlesid oma lähenemisviisi mitme teise lähtetasemega, sealhulgas nullist koolituse, järkjärgulise koolituse, bert2BERT ja KI-ga.

LiGO tehnika pakkus 44.7% kokkuhoidu FLOP-ides (ujukomatoimingud sekundis) ja 40.7% seinaaja kokkuhoidu võrreldes BERT-Base'i nullist väljaõppega, kasutades BERT-Small mudelit. LiGO kasvuoperaator edestab tõhusa koolituse osas StackBERT, MSLT, bert2BERT ja KI.

Treeningu optimeerimise tehnika, nagu LiGO, kasutamise eelised

LiGO on tõhus närvivõrgu koolitusmeetod, millel on järgmised eelised:

1. Kiirem koolitus

Nagu varem öeldud, on LiGO tehnika peamine eelis kiirem treening. See koolitab LLM-e poole ajaga, suurendades tootlikkust ja vähendades kulusid.

2. Ressursitõhus

LiGO on ressursitõhus, kuna see minimeerib seinale kuluvat aega ja FLOP-e, mis tagab kulutõhusama ja keskkonnasõbralikuma lähenemisviisi suurte trafomudelite koolitamisele.

3. Üldistus

LiGO tehnika on parandanud nii keele- kui ka nägemistrafode jõudlust, mis viitab sellele, et see on üldistatav tehnika, mida saab rakendada erinevate ülesannete jaoks.

Kaubanduslike tehisintellektitoodete ehitamine on vaid üks tahk AI-süsteemidega seotud üldkuludest. Teine oluline kulukomponent tuleneb igapäevatoimingutest. Näiteks maksab see OpenAI-le umbes $700,000 iga päev, et vastata küsimustele ChatGPT abil. Teadlased peaksid jätkama selliste lähenemisviiside uurimist, mis muudavad LLM-id koolituse ajal kulutõhusaks ja käitusajal paremini juurdepääsetavaks.

Rohkem AI-ga seotud sisu vaatamiseks külastage ühenda.ai.