Intelliġenza Artifiċjali

Tista' Tibni Mudelli Kbar tal-Lingwa Bħal ChatGPT B'Nofs Ispiża?

ippubblikat

12 xhur ilu

Jista 11, 2023

Mudelli Kbar tal-Lingwa (LLMs) bħal GPT-3 u ChatGPT irrevoluzzjonaw l-AI billi offrew il-Fehim tal-Lingwa Naturali u l-kapaċitajiet tal-ġenerazzjoni tal-kontenut. Iżda l-iżvilupp tagħhom jiġi bi prezz kbir li jillimita l-aċċessibilità u aktar riċerka. Riċerkaturi jistmaw li t-taħriġ GPT-3 jiswa OpenAI madwar $ 5 miljun. Madankollu, Microsoft għarfet il-potenzjal u investiet $ 1 biljun fil 2019 u $ 10 biljun fl-2023 fl-impriża GPT-3 u ChatGPT ta' OpenAI.

LLMs huma mudelli ta' tagħlim bil-magni mħarrġa fuq dejta testwali estensiva għal applikazzjonijiet NLP. Huma bbażati fuq l-arkitettura tat-transformer u jużaw mekkaniżmi ta 'attenzjoni għal kompiti NLP bħal tweġibiet għall-mistoqsijiet, traduzzjoni awtomatika, analiżi tas-sentimenti, eċċ.

Tqum il-mistoqsija: l-effiċjenza ta 'dawn il-mudelli kbar tista' tiżdied filwaqt li fl-istess ħin tnaqqas l-ispiża tal-komputazzjoni u l-ħin tat-taħriġ?

Diversi approċċi, bħal Netwerks Newrali Progressivi, Morfiżmu tan-Netwerk, paralleliżmu mudell intra-saff, wirt tal-għarfien, eċċ., Ġew żviluppati biex inaqqsu l-ispiża komputazzjonali tat-taħriġ tan-netwerks newrali. Ir-rumanz LiGO (Linear Growth Operator) l-approċċ li se niddiskutu huwa li jistabbilixxi punt ta 'referenza ġdid. Tnaqqas bin-nofs l-ispiża komputazzjonali tat-taħriġ LLMs.

Qabel ma tiddiskuti din it-teknika, huwa essenzjali li jiġu eżaminati l-fatturi li jikkontribwixxu għall-prezz għoli li jsiru l-LLMs.

Spiża tal-Bini ta' Mudelli Kbar tal-Lingwa

Tliet spejjeż ewlenin għall-iżvilupp tal-LLMs huma kif ġej:

1. Riżorsi Komputali

LLMs tal-bini jeħtieġu riżorsi komputazzjonali massivi biex jitħarrġu fuq settijiet ta' dejta kbar. Għandhom jipproċessaw biljuni ta 'parametri u jitgħallmu mudelli kumplessi minn data testwali massiva.

Investiment f'ħardwer speċjalizzat bħal Graphics Processing Units (GPUs) u Tensor Processing Units (TPUs) huma meħtieġa għall-bini u t-taħriġ tal-LLMs biex jiksbu prestazzjoni mill-aktar avvanzata.

Per eżempju, GPT-3 kien imħarreġ fuq a superkompjuter b'10000 GPU ta 'grad intrapriża (H100 u A100) u 285,000 CPU core.

2. Konsum ta 'Enerġija

Ir-riżorsi komputazzjonali intensivi meħtieġa għall-bini ta' LLMs jirriżultaw f'konsum sinifikanti ta' enerġija. Per eżempju, it-taħriġ ta '175 biljun parametru GPT-3 ħa 14.8 jiem bl-użu ta '10,000 GPU V100, ekwivalenti għal 3.55 miljun siegħa GPU. Livell daqshekk għoli ta' konsum ta' enerġija għandu effetti ambjentali sinifikanti wkoll.

3. Ħażna u Ġestjoni tad-Data

LLMs huma mħarrġa fuq settijiet ta' dejta kbar. Pereżempju, GPT-3 ġie mħarreġ fuq corpus vast ta 'testwali data, inklużi Common Crawl, WebText2, Books1, Books2, u Wikipedija, fost sorsi oħra. Huwa meħtieġ investiment sinifikanti fl-infrastruttura biex jinġabru, jiġu kkurati u jinħażnu dawn is-settijiet tad-dejta.

Ukoll, il-ħażna tas-sħab hija meħtieġa għall-ħażna tad-dejta, u l-kompetenza umana għall-ipproċessar minn qabel tad-dejta u l-kontroll tal-verżjoni. Barra minn hekk, l-iżgurar li l-istrateġija tad-dejta tiegħek tikkonforma ma’ regolamenti bħall-GDPR iżżid ukoll l-ispiża.

Teknika LiGO: Naqqas l-ispiża tal-Bini ta' Mudelli Kbar tal-Lingwa għal nofs

LiGO (Linear Growth Operator) hija teknika ġdida żviluppata minn riċerkaturi fil-MIT biex tnaqqas l-ispiża komputazzjonali tat-taħriġ tal-LLMs b'50%. Il-metodu jinvolvi l-inizjalizzazzjoni tal-piżijiet ta 'mudelli akbar minn dawk ta' mudelli iżgħar mħarrġa minn qabel, li jippermetti skalar effiċjenti ta 'netwerks newrali.

Immaġni mill-Karta: Tagħlim Tkabbar Mudelli Mħarrġa minn qabel Għal Taħriġ Effiċjenti ta' Transformers

Yoon Kim, l-awtur anzjan tad-dokument, jgħid:

“Ġie stmat li mudelli ta’ taħriġ fl-iskala ta’ dak li ChatGPT huwa ipotetizzat li jaħdem fuqu jistgħu jieħdu miljuni ta’ dollari biss għal ġirja waħda ta’ taħriġ. Nistgħu ntejbu l-effiċjenza ta 'dawn il-metodi ta' taħriġ, sabiex xorta nistgħu niksbu mudelli tajbin f'inqas ħin u għal inqas flus? Nipproponu li nagħmlu dan billi nisfruttaw mudelli lingwistiċi iżgħar li qabel ġew imħarrġa.”

Dan il-metodu jżomm il-benefiċċji tal-prestazzjoni ta 'mudelli akbar bi spiża komputazzjonali mnaqqsa u ħin ta' taħriġ meta mqabbel mat-taħriġ ta 'mudell kbir mill-bidu. LiGO tutilizza operatur tat-tkabbir lineari mmexxi mid-dejta li jgħaqqad operaturi tal-fond u tal-wisa 'għal prestazzjoni ottimali.

Id-dokument utilizzat diversi settijiet ta 'dejta biex twettaq esperimenti bbażati fuq test, inkluż il-corpus tal-Wikipedija Ingliża għat-taħriġ tal-mudelli BERT u RoBERTa u s-sett tad-dejta C4 għat-taħriġ GPT2.

L-esperimentazzjoni tat-teknika LiGO inkludiet it-tkabbir ta 'BERT-Small għal BERT-Base, BERT-Base għal BERT-Large, RoBERTaSmall għal RoBERTa-Base, GPT2-Base għal GPT2-Medium, u CaiT-XS għal CaiT-S.

Ir-riċerkaturi qabblu l-approċċ tagħhom ma 'diversi linji bażi oħra, inkluż taħriġ mill-bidu, taħriġ progressiv, bert2BERT, u KI.

It-teknika LiGO offriet iffrankar ta '44.7% f'FLOPs (operazzjonijiet b'punt li jvarja kull sekonda) u ffrankar ta' 40.7% fil-ħin tal-ħajt meta mqabbel mat-taħriġ BERT-Base mill-bidu billi uża mill-ġdid il-mudell BERT-Small. L-operatur tat-tkabbir LiGO jissupera lil StackBERT, MSLT, bert2BERT, u KI f'taħriġ effiċjenti.

Benefiċċji ta 'l-użu ta' Teknika ta 'Ottimizzazzjoni tat-Taħriġ Bħal LiGO

LiGO huwa metodu effiċjenti ta 'taħriġ tan-netwerk newrali li għandu diversi benefiċċji elenkati kif ġej:

1. Taħriġ aktar mgħaġġel

Kif intqal qabel, taħriġ aktar mgħaġġel huwa l-vantaġġ ewlieni tat-teknika LiGO. Hija tħarreġ LLMs f'nofs il-ħin, iżid il-produttività u jnaqqas l-ispejjeż.

2. Riżorsi Effiċjenti

LiGO huwa effiċjenti fir-riżorsi peress li jimminimizza l-ħin tal-ħajt u l-FLOPs, li jwassal għal approċċ aktar kost-effettiv u favur l-ambjent għat-taħriġ ta 'mudelli ta' transformer kbar.

3. Ġeneralizzazzjoni

It-teknika LiGO tejbet il-prestazzjoni kemm tat-trasformaturi tal-lingwa kif ukoll tal-viżjoni li tissuġġerixxi li hija teknika ġeneralizzabbli li tista 'tiġi applikata għal diversi kompiti.

Il-bini ta' prodotti kummerċjali tal-AI huwa biss aspett wieħed tal-ispejjeż ġenerali assoċjati mas-sistemi tal-AI. Komponent sinifikanti ieħor tal-ispejjeż ġej mill-operazzjonijiet ta 'kuljum. Per eżempju, jiswa OpenAI madwar $700,000 kuljum biex twieġeb mistoqsijiet billi tuża ChatGPT. Ir-riċerkaturi huma mistennija li jkomplu jesploraw approċċi li jagħmlu l-LLMs kosteffettivi waqt it-taħriġ u aktar aċċessibbli fuq runtime.

Għal aktar kontenut relatat mal-AI, żur jgħaqqdu.ai.