škrbina Omejitev naraščajočih potreb strojnega učenja po moči – Unite.AI
Povežite se z nami

Umetna inteligenca

Omejitev naraščajočih potreb po moči strojnega učenja

mm
Posodobljeno on

V luči naraščajoče zaskrbljenosti glede energetskih potreb velikih modelov strojnega učenja je nedavna študija laboratorija MIT Lincoln in severovzhodne univerze raziskala prihranke, ki jih je mogoče doseči z grafičnimi procesorji z omejevanjem moči, ki se uporabljajo pri usposabljanju in sklepanju modelov, ter več drugih tehnike in metode za zmanjšanje porabe energije AI.

Novo delo prav tako zahteva, da se novi dokumenti AI zaključijo z „energetsko izjavo“ (podobno kot nedavni trend za izjave o 'etičnih posledicah' v dokumentih iz raziskovalnega sektorja strojnega učenja).

Glavni predlog dela je, da omejevanje moči (omejitev razpoložljive moči za GPE, ki usposablja model) nudi vredne prednosti pri varčevanju z energijo, zlasti za maskirano jezikovno modeliranje (MLM) in ogrodja, kot je BERT in njegove izpeljanke.

Omrežja za modeliranje treh jezikov, ki delujejo v odstotkih privzetih nastavitev 250 W (črna črta), glede na porabo energije. Omejevanje porabe energije ne omejuje učinkovitosti ali natančnosti vadbe na osnovi 1-1 in ponuja prihranke energije, ki so opazni v velikem obsegu. Vir: https://arxiv.org/pdf/2205.09646.pdf

Omrežja za modeliranje treh jezikov, ki delujejo v odstotkih privzetih nastavitev 250 W (črna črta), glede na porabo energije. Omejevanje porabe energije ne omejuje učinkovitosti ali natančnosti vadbe na osnovi 1-1 in ponuja prihranke energije, ki so opazni v velikem obsegu. Vir: https://arxiv.org/pdf/2205.09646.pdf

Pri modelih večjega obsega, ki so v zadnjih letih pritegnili pozornost zaradi naborov podatkov v hiperrazmerju in novih modelov z milijardami ali trilijoni parametrov, je mogoče podobne prihranke doseči kot kompromis med časom usposabljanja in porabo energije.

Usposabljanje mogočnejših modelov NLP v obsegu pod omejitvami moči. Povprečni relativni čas pod omejitvijo 150 W je prikazan modro, povprečna relativna poraba energije za 150 W pa oranžno.

Usposabljanje mogočnejših modelov NLP v obsegu pod omejitvami moči. Povprečni relativni čas pod omejitvijo 150 W je prikazan modro, povprečna relativna poraba energije za 150 W pa oranžno.

Za te uvedbe v višjem obsegu so raziskovalci ugotovili, da je omejitev porabe energije 150 W dosegla povprečno 13.7-odstotno nižjo porabo energije v primerjavi s privzetim maksimumom 250 W, pa tudi razmeroma majhno 6.8-odstotno povečanje časa usposabljanja.

Poleg tega raziskovalci ugotavljajo, da kljub naslovi da so se stroški usposabljanja modelov zbrali v zadnjih nekaj letih, so stroški energije dejanske uporabe usposobljenih modelov daleč več*.

„Pri jezikovnem modeliranju z BERT so pridobitve energije z omejevanjem moči opazno večje pri izvajanju sklepanja kot pri usposabljanju. Če je to skladno z drugimi aplikacijami umetne inteligence, bi to lahko imelo pomembne posledice v smislu porabe energije za velike platforme ali platforme za računalništvo v oblaku, ki služijo aplikacijam za sklepanje za raziskave in industrijo.'

Nadalje, in morda najbolj kontroverzno, dokument predlaga, da se večje usposabljanje modelov strojnega učenja prestavi na hladnejše mesece v letu in na nočni čas, da bi prihranili pri stroških hlajenja.

Zgoraj statistika PUE za vsak dan v letu 2020 v podatkovnem centru avtorjev, z opaznim in trajnim skokom/platojem v poletnih mesecih. Spodaj je povprečna urna sprememba PUE za isto lokacijo v enem tednu, pri čemer poraba energije narašča proti sredini dneva, saj tako notranja strojna oprema za hlajenje GPU kot hlajenje okoljskega podatkovnega centra težko vzdržujeta delovno temperaturo.

Zgoraj statistika PUE za vsak dan v letu 2020 v podatkovnem centru avtorjev, z opaznim in trajnim skokom/platojem v poletnih mesecih. Spodaj je povprečna urna sprememba PUE za isto lokacijo v enem tednu, pri čemer poraba energije narašča proti sredini dneva, saj tako notranja strojna oprema za hlajenje GPU kot hlajenje okoljskega podatkovnega centra težko vzdržujeta delovno temperaturo.

Avtorji navajajo:

Očitno je, da so velike obremenitve NLP poleti običajno veliko manj učinkovite kot tiste, ki se izvajajo pozimi. Glede na velike sezonske razlike, če obstajajo, so računsko dragi poskusi, ki jih je mogoče časovno prilagoditi hladnejšim mesecem, lahko ta čas znatno zmanjša ogljični odtis.'

Prispevek prav tako priznava nastajajoče možnosti za varčevanje z energijo, ki so možne z obrezovanjem in optimizacijo arhitekture modela in delovnih tokov – čeprav avtorji nadaljnji razvoj te poti prepuščajo drugim pobudam.

Nazadnje avtorji predlagajo, da se nove znanstvene članke iz sektorja strojnega učenja spodbuja ali morda omeji, da se končajo z izjavo, ki navaja porabo energije dela, opravljenega v raziskavi, in možne energetske posledice sprejetja pobud, predlaganih v delu. .

Prispevek z zgledom pojasnjuje energetske posledice lastnih raziskav.

Prispevek z zgledom pojasnjuje energetske posledice lastnih raziskav.

O papirja je naslovljen Velika moč, velika odgovornost: Priporočila za zmanjšanje energije za usposabljanje jezikovnih modelov, prihaja pa od šestih raziskovalcev iz MIT Lincoln in Northeastern.

Grozeče grabljenje energije strojnega učenja

Tako kot računalniške zahteve za modele strojnega učenja povečal v tandemu z uporabnostjo rezultatov trenutna kultura ML enači porabo energije z izboljšano učinkovitostjo – kljub nekaterim pomembnim aktivistom, kot je Andrew Ng, kar nakazuje, da je skrbništvo podatkov lahko a pomembnejši dejavnik.

V enem ključno sodelovanje MITod leta 2020 je bilo ocenjeno, da desetkratno izboljšanje zmogljivosti modela pomeni 10,000-kratno povečanje računalniških zahtev, skupaj z ustrezno količino energije.

Posledično se je v zadnjih nekaj letih povečalo število raziskav učinkovitega ML, ki zahteva manj energije. Novi članek, trdijo avtorji, je prvi, ki je poglobljeno preučil učinek omejitev moči na usposabljanje in sklepanje strojnega učenja, s poudarkom na okvirih NLP (kot je serija GPT).

Ker je kakovost sklepanja najpomembnejša skrb, avtorji svoje ugotovitve navajajo na začetku:

„[Ta] metoda ne vpliva na napovedi usposobljenih modelov ali posledično na njihovo natančnost delovanja pri nalogah. To pomeni, da če sta dve omrežji z enako strukturo, začetnimi vrednostmi in paketnimi podatki usposobljeni za enako število paketov pod različnimi omejitvami moči, bodo njuni posledični parametri enaki in le energija, potrebna za njihovo proizvodnjo, se lahko razlikuje.'

Zmanjšanje moči za NLP

Za oceno vpliva omejitev moči na usposabljanje in sklepanje so avtorji uporabili nvidia-smi (System Management Interface) pripomoček ukazne vrstice, skupaj z MLM knjižnicay od HuggingFace.

Avtorji so usposobili modele obdelave naravnega jezika BERTI, DestilBERT in Velika ptica prek MLM in spremljal njihovo porabo energije pri usposabljanju in uvajanju.

Modeli so bili usposobljeni proti DeepAI WikiBesedilo-103 nabor podatkov za 4 obdobja v serijah po osem, na 16 grafičnih procesorjih V100, s štirimi različnimi omejitvami moči: 100 W, 150 W, 200 W in 250 W (privzeta ali osnovna vrednost za grafični procesor NVIDIA V100). Modeli so vsebovali parametre, usposobljene s praskami, in naključne začetne vrednosti, da bi zagotovili primerljive ocene usposabljanja.

Kot je razvidno iz prve zgornje slike, rezultati kažejo dobre prihranke energije pri nelinearnih, ugodnih povečanjih časa vadbe. Avtorji navajajo:

"Naši poskusi kažejo, da lahko uvedba omejitev moči znatno zmanjša porabo energije na račun časa usposabljanja."

Hujšanje 'Veliki NLP'

Nato so avtorji uporabili isto metodo za zahtevnejši scenarij: usposabljanje BERT z MLM na porazdeljenih konfiguracijah v več grafičnih procesorjih – bolj tipičen primer uporabe za dobro financirane in dobro oglaševane modele FAANG NLP.

Glavna razlika v tem poskusu je bila, da lahko model uporablja kjer koli med 2–400 grafičnimi procesorji na primerek usposabljanja. Uporabljene so bile enake omejitve za porabo energije in uporabljena ista naloga (WikiText-103). Za grafe rezultatov glejte drugo sliko zgoraj.

Članek navaja:

„Povprečje pri vsaki izbiri konfiguracije je omejitev porabe energije 150 W povzročila povprečno 13.7-odstotno zmanjšanje porabe energije in 6.8-odstotno povečanje časa vadbe v primerjavi s privzetim maksimumom. [Nastavitev] 100 W ima znatno daljši čas vadbe (v povprečju 31.4 % daljši). Omejitev 200 W ustreza skoraj enakemu času vadbe kot omejitev 250 W, vendar je prihranek energije skromnejši od omejitve 150 W.'

Avtorji predlagajo, da ti rezultati podpirajo omejevanje moči pri 150 W za arhitekture GPU in aplikacije, ki se na njih izvajajo. Ugotavljajo tudi, da se pridobljeni prihranki energije prenašajo na platforme strojne opreme, in znova izvedli teste, da bi primerjali rezultate za grafične procesorje NVIDIA K80, T4 in A100.

Prihranki, doseženi pri treh različnih grafičnih procesorjih NVIDIA.

Prihranki, doseženi pri treh različnih grafičnih procesorjih NVIDIA.

Sklepanje, ne usposabljanje, požira moč

Prispevek navaja več predhodnih študij, ki dokazujejo, da kljub naslovom največjo moč črpa sklepanje (uporaba končnega modela, kot je model NLP) in ne usposabljanje, kar nakazuje, da so priljubljeni modeli poblagovljeni in vstopijo v mainstream, bi lahko poraba energije postala večji problem, kot je trenutno na tej bolj nastajajoči stopnji razvoja NLP.

Tako so raziskovalci izmerili vpliv sklepanja na porabo energije in ugotovili, da ima uvedba omejitev moči opazen učinek na zakasnitev sklepanja:

V primerjavi z 250 W je nastavitev 100 W zahtevala dvojni čas sklepanja (114-odstotno povečanje) in porabila 11.0 % manj energije, 150 W je zahtevala 22.7 % več časa in prihranila 24.2 % energije, 200 W pa je zahtevala 8.2 % več časa z 12.0 % manj. energija.'

Zimski trening

Članek predlaga, da bi lahko usposabljanje (če ne sklepanje, iz očitnih razlogov) načrtovali ob urah, ko je podatkovni center dosegel največjo učinkovitost porabe energije (PUE) – dejansko je to pozimi in ponoči.

„Pomembne prihranke energije je mogoče doseči, če je mogoče delovne obremenitve načrtovati ob časih, ko se pričakuje nižji PUE. Na primer, premik kratkotrajnega dela iz dnevnega v nočni čas lahko zagotovi približno 10-odstotno znižanje, premik daljšega in dragega dela (npr. jezikovni model, ki traja nekaj tednov za dokončanje) iz poletja v zimo pa lahko povzroči 33-odstotno znižanje.

'Čeprav je težko napovedati prihranke, ki jih lahko doseže posamezen raziskovalec, tukaj predstavljene informacije poudarjajo pomen okoljskih dejavnikov, ki vplivajo na skupno energijo, ki jo porabijo njihove delovne obremenitve.'

Naj bo oblačno

Na koncu prispevek ugotavlja, da je malo verjetno, da bi domači procesorski viri uvedli enake ukrepe za učinkovitost kot veliki podatkovni centri in igralci računalništva v oblaku na visoki ravni, in da bi okoljske koristi lahko pridobili s prenosom delovnih obremenitev na lokacije, ki so veliko vložile v dober PUE.

„Čeprav je dostop do zasebnih računalniških virov udoben, ima to udobje svojo ceno. Na splošno je prihranke energije in učinek lažje doseči v večjih obsegih. Podatkovni centri in ponudniki računalništva v oblaku znatno vlagajo v učinkovitost svojih zmogljivosti.«

 

* Ustrezne povezave, ki jih daje članek.