stomp Beperk die groeiende kragbehoeftes van masjienleer - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

Beperk die groeiende kragbehoeftes van masjienleer

mm
Opgedateer on

In die lig van toenemende kommer oor die energievereistes van groot masjienleermodelle, het 'n onlangse studie van MIT Lincoln Laboratory en Northeastern University die besparings ondersoek wat gemaak kan word deur kragbeperkende GPU's wat in modelopleiding en -afleidings gebruik word, sowel as verskeie ander tegnieke en metodes om KI-energieverbruik te verminder.

Die nuwe werk vra ook dat nuwe KI-vraestelle afgesluit word met 'n 'Energieverklaring' (soortgelyk aan die onlangse neiging vir 'etiese implikasie'-stellings in referate uit die masjienleer-navorsingsektor).

Die belangrikste voorstel uit die werk is dat kragbeperking (beperk die beskikbare krag tot die GPU wat die model oplei) waardevolle energiebesparende voordele bied, veral vir Masked Language Modeling (MLM), en raamwerke soos BERT en sy afgeleides.

Drie taalmodelleringsnetwerke werk teen 'n persentasie van die verstek 250W-instellings (swart lyn), in terme van kragverbruik. Beperking van kragverbruik beperk nie opleidingsdoeltreffendheid of akkuraatheid op 'n 1-1 basis nie, en bied kragbesparings wat op skaal opvallend is. Bron: https://arxiv.org/pdf/2205.09646.pdf

Drie taalmodelleringsnetwerke werk teen 'n persentasie van die verstek 250W-instellings (swart lyn), in terme van kragverbruik. Beperking van kragverbruik beperk nie opleidingsdoeltreffendheid of akkuraatheid op 'n 1-1 basis nie, en bied kragbesparings wat op skaal opvallend is. Bron: https://arxiv.org/pdf/2205.09646.pdf

Vir groterskaalse modelle, wat die afgelope paar jaar aandag getrek het as gevolg van hiperskaal datastelle en nuwe modelle met miljarde of triljoene parameters, kan soortgelyke besparings verkry word as 'n afweging tussen opleidingstyd en energieverbruik.

Opleiding van meer formidabele NLP-modelle op skaal onder kragbeperkings. Die gemiddelde relatiewe tyd onder 'n 150W-dop word in blou getoon, en die gemiddelde relatiewe energieverbruik vir 150W in oranje.

Opleiding van meer formidabele NLP-modelle op skaal onder kragbeperkings. Die gemiddelde relatiewe tyd onder 'n 150W-dop word in blou getoon, en die gemiddelde relatiewe energieverbruik vir 150W in oranje.

Vir hierdie hoërskaalse ontplooiings het die navorsers gevind dat 'n 150W-gebonde kragbenutting 'n gemiddelde 13.7% verlaging in energieverbruik verkry het in vergelyking met die verstek 250W maksimum, sowel as 'n relatief klein 6.8% toename in opleidingstyd.

Daarbenewens merk die navorsers op dat, ten spyte van die nuus dat die koste van modelopleiding die afgelope paar jaar opgedoen het, is die energiekoste van die werklike gebruik van die opgeleide modelle ver hoër*.

'Vir taalmodellering met BERT is energiewinste deur kragbeperking merkbaar groter wanneer afleidings uitgevoer word as vir opleiding. As dit konsekwent is vir ander KI-toepassings, kan dit beduidende gevolge hê in terme van energieverbruik vir grootskaalse of wolkrekenaarplatforms wat afleidingstoepassings vir navorsing en industrie bedien.'

Verder, en miskien die mees omstrede, stel die koerant voor dat groot opleiding van masjienleermodelle na die kouer maande van die jaar en na nag verskuif word om op verkoelingskoste te bespaar.

Hierbo, PUE-statistieke vir elke dag van 2020 in die outeurs se datasentrum, met 'n noemenswaardige en volgehoue ​​styging/plato in die somermaande. Hieronder, die gemiddelde uurlikse variasie in PUE vir dieselfde plek in die loop van 'n week, met energieverbruik wat teen die middel van die dag styg, aangesien beide die interne GPU-verkoelingshardeware en die omringende datasentrumverkoeling sukkel om 'n werkbare temperatuur te handhaaf.

Hierbo, PUE-statistieke vir elke dag van 2020 in die outeurs se datasentrum, met 'n noemenswaardige en volgehoue ​​styging/plato in die somermaande. Hieronder, die gemiddelde uurlikse variasie in PUE vir dieselfde plek in die loop van 'n week, met energieverbruik wat teen die middel van die dag styg, aangesien beide die interne GPU-verkoelingshardeware en die omringende datasentrumverkoeling sukkel om 'n werkbare temperatuur te handhaaf.

Die skrywers sê:

'Klaarblyklik is swaar NLP-werkladings tipies baie minder doeltreffend in die somer as dié wat gedurende die winter uitgevoer word. Gegewe die groot seisoenale variasie, indien daar berekeningsduur eksperimente is wat tot koeler maande verreken kan word, kan hierdie tydsberekening die koolstofvoetspoor aansienlik verminder.'

Die referaat gee ook erkenning aan die ontluikende energiebesparingsmoontlikhede wat moontlik is deur snoei en optimalisering van modelargitektuur en werkvloeie – alhoewel die skrywers verdere ontwikkeling van hierdie weg aan ander inisiatiewe oorlaat.

Ten slotte stel die skrywers voor dat nuwe wetenskaplike referate uit die masjienleersektor aangemoedig word, of dalk beperk word, om af te sluit met 'n verklaring wat die energieverbruik van die werk wat in die navorsing gedoen is, en die potensiële energie-implikasies van die aanvaarding van inisiatiewe wat in die werk voorgestel word, verklaar. .

Die referaat, wat deur voorbeeld lei, verduidelik die energie-implikasies van sy eie navorsing.

Die referaat, wat deur voorbeeld lei, verduidelik die energie-implikasies van sy eie navorsing.

Die papier is getiteld Groot krag, groot verantwoordelikheid: Aanbevelings vir die vermindering van energie vir die opleiding van taalmodelle, en kom van ses navorsers regoor MIT Lincoln en Northeastern.

Masjienleer se dreigende energiegryp

Soos die berekeningsvereistes vir masjienleermodelle het verhoog tesame met die bruikbaarheid van die resultate, stel die huidige ML-kultuur energieverbruik gelyk aan verbeterde werkverrigting – ten spyte van sommige noemenswaardige kampvegters, soos Andrew Ng, wat daarop dui dat datakurasie 'n kan wees belangriker faktor.

In een sleutel MIT-samewerkingVanaf 2020 is daar beraam dat 'n tienvoudige verbetering in modelwerkverrigting 'n 10,000 XNUMX-voudige toename in berekeningsvereistes behels, tesame met 'n ooreenstemmende hoeveelheid energie.

Gevolglik het navorsing oor minder kragintensiewe effektiewe ML-opleiding oor die laaste paar jaar toegeneem. Die nuwe referaat, beweer die skrywers, is die eerste wat die effek van kraglimiete op masjienleeropleiding en -afleidings diep bekyk, met die klem op NLP-raamwerke (soos die GPT-reeks).

Aangesien kwaliteit van afleiding 'n uiterste bekommernis is, stel die skrywers aan die begin van hul bevindings:

'[Hierdie] metode beïnvloed nie die voorspellings van opgeleide modelle of gevolglik hul prestasieakkuraatheid op take nie. Dit wil sê, as twee netwerke met dieselfde struktuur, beginwaardes en bondeldata opgelei word vir dieselfde aantal groepe onder verskillende kragdoppe, sal die gevolglike parameters identies wees en slegs die energie wat benodig word om hulle te produseer, mag verskil.'

Verminder die krag vir NLP

Om die impak van kragpette op opleiding en afleiding te bepaal, het die skrywers die nvidia-SMI (Stelselbestuurkoppelvlak) opdragreëlhulpmiddel, tesame met 'n MLM-biblioteeky van HuggingFace.

Die skrywers het Natuurlike Taalverwerkingsmodelle opgelei BERT, DistilBERT en Groot Voël oor MLM, en hul kragverbruik in opleiding en ontplooiing gemonitor.

Die modelle is teen DeepAI's opgelei WikiText-103 datastel vir 4 tydperke in groepe van agt, op 16 V100 GPU's, met vier verskillende kragkappe: 100W, 150W, 200W en 250W (die verstek, of basislyn, vir 'n NVIDIA V100 GPU). Die modelle het kras-opgeleide parameters en ewekansige initwaardes vertoon om vergelykbare opleidingsevaluasies te verseker.

Soos gesien in die eerste prent hierbo, toon die resultate goeie energiebesparing by nie-lineêre, gunstige toenames in oefentyd. Die skrywers sê:

'Ons eksperimente dui daarop dat die implementering van kragdoppe energieverbruik aansienlik kan verminder ten koste van opleidingstyd.'

Afslank van 'Big NLP'

Vervolgens het die skrywers dieselfde metode toegepas op 'n meer veeleisende scenario: opleiding van BERT met MLM op verspreide konfigurasies oor verskeie GPU's - 'n meer tipiese gebruiksgeval vir goed befondsde en goed-gepubliseerde FAANG NLP-modelle.

Die belangrikste verskil in hierdie eksperiment was dat 'n model enige plek tussen 2-400 GPU's per opleidingsinstansie kan gebruik. Dieselfde beperkings vir kraggebruik is toegepas, en dieselfde taak is gebruik (WikiText-103). Sien tweede prent hierbo vir grafieke van die resultate.

Die artikel sê:

'Gemiddeld oor elke keuse van konfigurasie, het 'n 150W-gebonde kragbenutting gelei tot 'n gemiddelde afname van 13.7% in energieverbruik en 6.8% toename in opleidingstyd vergeleke met die verstekmaksimum. [Die] 100W-instelling het aansienlik langer oefentye (gemiddeld 31.4% langer). 'n 200W-limiet stem ooreen met byna dieselfde oefentyd as 'n 250W-limiet, maar meer beskeie energiebesparings as 'n 150W-limiet.'

Die skrywers stel voor dat hierdie resultate kragbeperking by 150W ondersteun vir GPU-argitekture en die toepassings wat daarop loop. Hulle merk ook op dat die energiebesparings wat verkry is, oor hardewareplatforms vertaal word, en die toetse weer uitgevoer om die uitkomste vir NVIDIA K80, T4 en A100 GPU's te vergelyk.

Besparings verkry oor drie verskillende NVIDIA GPU's.

Besparings verkry oor drie verskillende NVIDIA GPU's.

Afleiding, nie opleiding nie, eet krag

Die koerant haal verskeie vorige studies aan wat aantoon dat, ten spyte van die opskrifte, dit is afleiding (die gebruik van 'n voltooide model, soos 'n NLP-model) en nie opleiding wat die grootste hoeveelheid krag trek nie, wat daarop dui dat soos gewilde modelle gekommodifiseer word en die hoofstroom, kan kragverbruik 'n groter probleem word as wat dit tans is in hierdie meer ontluikende stadium van NLP-ontwikkeling.

So het die navorsers die impak van afleiding op kragverbruik gemeet, en gevind dat die oplegging van kragpette 'n noemenswaardige uitwerking op afleidingslatensie het:

'Vergeleke met 250W, het 'n 100W-instelling dubbel die afleidingstyd vereis ('n 114% toename) en het 11.0% minder energie verbruik, 150W het 22.7% meer tyd benodig en 24.2% die energie bespaar, en 200W het 8.2% meer tyd benodig met 12.0% minder energie.'

Winter opleiding

Die referaat stel voor dat opleiding (indien nie afleiding nie, om ooglopende redes) geskeduleer kan word op tye wanneer die datasentrum op die hoogste kragverbruikdoeltreffendheid (PUE) is – effektief, dit is in die winter en snags.

'Beduidende energiebesparing kan verkry word as werkladings geskeduleer kan word op tye wanneer 'n laer PUE verwag word. Byvoorbeeld, die verskuiwing van 'n kortlopende werk van dag na nag kan 'n vermindering van ongeveer 10% bied, en die verskuiwing van 'n langer, duur werk (bv. 'n taalmodel wat weke neem om te voltooi) van somer na winter kan 'n vermindering van 33% meebring.

'Terwyl dit moeilik is om die besparings wat 'n individuele navorser kan bereik te voorspel, beklemtoon die inligting wat hier aangebied word die belangrikheid van omgewingsfaktore wat die algehele energie wat deur hul werklading verbruik word, beïnvloed.'

Hou dit bewolk

Laastens merk die koerant op dat tuisgemaakte verwerkingshulpbronne waarskynlik nie dieselfde doeltreffendheidsmaatreëls as groot datasentrums en hoëvlak-wolkrekenaarspelers geïmplementeer het nie, en dat omgewingsvoordele verkry kan word deur werkladings oor te dra na plekke wat baie in goeie PUE belê het.

'Terwyl dit gerief is om privaat rekenaarhulpbronne te hê wat toeganklik is, kom hierdie gerief teen 'n prys. Oor die algemeen word energiebesparing en impak makliker op groter skale verkry. Datasentrums en wolkrekenaarverskaffers maak aansienlike beleggings in die doeltreffendheid van hul fasiliteite.'

 

* Pertinente skakels gegee deur die koerant.