Kunsmatige Intelligensie

Kan jy groot taalmodelle soos ChatGPT teen halfkoste bou?

Gepubliseer

12 maande gelede

Mag 11, 2023

Groot taalmodelle (LLM's) soos GPT-3 en ChatGPT het KI 'n rewolusie teweeggebring deur natuurlike taalbegrip en inhoudgenerering-vermoëns aan te bied. Maar hul ontwikkeling kom teen 'n stewige prys wat toeganklikheid en verdere navorsing beperk. Navorsers skat dat opleiding GPT-3 OpenAI ongeveer gekos het Van $ 5 miljoen. Nietemin het Microsoft die potensiaal erken en belê Van $ 1 miljard in 2019 en Van $ 10 miljard in 2023 in OpenAI se GPT-3- en ChatGPT-onderneming.

LLM's is masjienleermodelle wat opgelei is op uitgebreide tekstuele data vir NLP-toepassings. Hulle is gebaseer op transformatorargitektuur en gebruik aandagmeganismes vir NLP-take soos vraag-antwoord, masjienvertaling, sentimentanalise, ens.

Die vraag ontstaan: kan die doeltreffendheid van hierdie groot modelle verhoog word en terselfdertyd berekeningskoste en opleidingstyd verminder?

Verskeie benaderings, soos Progressiewe neurale netwerke, Netwerk morfisme, intra-laag model parallelisme, kennis oorerwing, ens., is ontwikkel om die berekeningskoste van die opleiding van neurale netwerke te verminder. Die roman LiGO (Lineêre Groei-operateur)-benadering wat ons sal bespreek, is om 'n nuwe maatstaf te stel. Dit halveer die berekeningskoste van opleiding LLM's.

Voordat hierdie tegniek bespreek word, is dit noodsaaklik om die faktore wat bydra tot die hoë prys van die maak van LLM's te ondersoek.

Koste om groot taalmodelle te bou

Drie groot uitgawes vir die ontwikkeling van LLM's is soos volg:

1. Rekenaarhulpbronne

Die bou van LLM's vereis massiewe rekenaarhulpbronne om op groot datastelle op te lei. Hulle moet miljarde parameters verwerk en komplekse patrone uit massiewe tekstuele data leer.

Belegging in gespesialiseerde hardeware soos grafiese verwerkingseenhede (GPU's) en Tensor-verwerkingseenhede (TPU's) word benodig vir die bou en opleiding van LLM's om die nuutste prestasie te behaal.

Byvoorbeeld, GPT-3 is opgelei op 'n supercomputer met 10000 100 GPU's van ondernemingsgraad (H100 en A285,000) en XNUMX XNUMX SVE-kerne.

2. Energieverbruik

Die intensiewe berekeningshulpbronne wat benodig word vir die bou van LLM's lei tot aansienlike energieverbruik. Byvoorbeeld, opleiding van 175 miljard parameters wat GPT-3 geneem het 14.8 dae gebruik 10,000 100 V3.55 GPU's, gelykstaande aan XNUMX miljoen GPU-ure. So 'n hoë vlak van energieverbruik het ook aansienlike omgewingseffekte.

3. Databerging en -bestuur

LLM's word opgelei op groot datastelle. Byvoorbeeld, GPT-3 is opgelei op 'n groot korpus van tekstuele data, insluitend Common Crawl, WebText2, Books1, Books2 en Wikipedia, onder andere bronne. Beduidende infrastruktuurinvestering is nodig om hierdie datastelle te versamel, saam te stel en te berg.

Ook word wolkberging benodig vir databerging, en menslike kundigheid vir datavoorverwerking en weergawebeheer. Om te verseker dat u datastrategie aan regulasies soos GDPR voldoen, dra ook by tot die koste.

LiGO-tegniek: Verminder die koste om groot taalmodelle te bou tot die helfte

LiGO (Linear Growth Operator) is 'n nuwe tegniek wat deur navorsers by MIT ontwikkel is om die berekeningskoste van opleiding LLM's met 50% te verminder. Die metode behels die inisiasie van die gewigte van groter modelle van dié van kleiner vooraf-opgeleide modelle, wat doeltreffende skaal van neurale netwerke moontlik maak.

Beeld uit die koerant: Leer om voorafopgeleide modelle te groei vir doeltreffende transformatoropleiding

Yoon Kim, die senior skrywer van die koerant, sê:

“Daar word beraam dat opleidingsmodelle op die skaal van waarop ChatGPT veronderstel is om te hardloop miljoene dollars kan neem net vir 'n enkele oefenlopie. Kan ons die doeltreffendheid van hierdie opleidingsmetodes verbeter, sodat ons steeds goeie modelle in minder tyd en vir minder geld kan kry? Ons stel voor om dit te doen deur gebruik te maak van kleiner taalmodelle wat voorheen opgelei is.”

Hierdie metode handhaaf die prestasievoordele van groter modelle met verminderde berekeningskoste en opleidingstyd in vergelyking met die opleiding van 'n groot model van nuuts af. LiGO gebruik 'n data-gedrewe lineêre groei-operateur wat diepte- en breedte-operateurs kombineer vir optimale werkverrigting.

Die referaat het verskeie datastelle gebruik om teksgebaseerde eksperimente uit te voer, insluitend die Engelse Wikipedia-korpus vir opleiding van BERT- en RoBERTa-modelle en die C4-datastel vir opleiding GPT2.

Die LiGO-tegniek-eksperimentering het die groei van BERT-Small tot BERT-Base, BERT-Base na BERT-Large, RoBERTaSmall tot RoBERTa-Base, GPT2-Base na GPT2-Medium en CaiT-XS na CaiT-S ingesluit.

Die navorsers het hul benadering met verskeie ander basislyne vergelyk, insluitend opleiding van nuuts af, progressiewe opleiding, bert2BERT en KI.

LiGO-tegniek het 44.7% besparings in FLOPs (swewendepuntbewerkings per sekonde) en 40.7% besparings in muurtyd gebied in vergelyking met die opleiding van BERT-Base van nuuts af deur die BERT-Small-model te hergebruik. LiGO-groeioperateur presteer beter as StackBERT, MSLT, bert2BERT en KI in doeltreffende opleiding.

Voordele van die gebruik van 'n opleidingsoptimaliseringstegniek soos LiGO

LiGO is 'n doeltreffende neurale netwerk opleidingsmetode wat verskeie voordele inhou wat soos volg gelys word:

1. Vinniger opleiding

Soos vroeër genoem, is vinniger opleiding die grootste voordeel van die LiGO-tegniek. Dit lei LLM's in die helfte van die tyd op, wat produktiwiteit verhoog en koste verlaag.

2. Hulpbrondoeltreffend

LiGO is hulpbrondoeltreffend aangesien dit muurtyd en FLOP's tot die minimum beperk, wat lei tot 'n meer koste-effektiewe en eko-vriendelike benadering om groot transformatormodelle op te lei.

3. Veralgemening

Die LiGO-tegniek het die werkverrigting van beide taal- en visie-transformators verbeter, wat daarop dui dat dit 'n veralgemeenbare tegniek is wat op verskeie take toegepas kan word.

Die bou van kommersiële KI-produkte is net een faset van die algehele uitgawes verbonde aan KI-stelsels. Nog 'n belangrike komponent van koste kom van daaglikse bedrywighede. Byvoorbeeld, dit kos OpenAI ongeveer $700,000 elke dag om navrae te beantwoord met ChatGPT. Daar word van navorsers verwag om voort te gaan met die ondersoek van benaderings wat LLM's koste-effektief maak tydens opleiding en meer toeganklik tydens looptyd.

Vir meer KI-verwante inhoud, besoek verenig.ai.