ciot Limitarea nevoilor de putere în creștere ale învățării automate - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Limitarea nevoilor de putere în creștere ale învățării automate

mm
Actualizat on

Având în vedere îngrijorarea crescândă cu privire la cerințele energetice ale modelelor mari de învățare automată, un studiu recent de la MIT Lincoln Laboratory și Northeastern University a investigat economiile care pot fi făcute prin GPU-uri cu limitare a puterii utilizate în antrenamentul și inferența modelelor, precum și alte câteva alte tehnici și metode de reducere a consumului de energie AI.

Noua lucrare solicită, de asemenea, ca noi documente AI să se încheie cu o „Declarație privind energia” (similar cu tendință recentă pentru declarații de „implicație etică” în lucrări din sectorul cercetării învățării automate).

Sugestia principală a lucrării este că limitarea puterii (limitarea puterii disponibile la GPU-ul care antrenează modelul) oferă beneficii valoroase de economisire a energiei, în special pentru Masked Language Modeling (MLM) și cadre precum BERT și derivatele sale.

Rețele de modelare în trei limbi care funcționează la un procent din setările implicite de 250 W (linie neagră), în ceea ce privește consumul de energie. Constrângerea consumului de energie nu limitează eficiența sau acuratețea antrenamentului pe o bază 1-1 și oferă economii de energie care sunt notabile la scară. Sursa: https://arxiv.org/pdf/2205.09646.pdf

Rețele de modelare în trei limbi care funcționează la un procent din setările implicite de 250 W (linie neagră), în ceea ce privește consumul de energie. Constrângerea consumului de energie nu limitează eficiența sau acuratețea antrenamentului pe o bază 1-1 și oferă economii de energie care sunt notabile la scară. Sursă: https://arxiv.org/pdf/2205.09646.pdf

Pentru modelele la scară mai mare, care au captat atenția în ultimii ani datorită seturilor de date hiperscale și modelelor noi cu miliarde sau trilioane de parametri, economii similare pot fi obținute ca un compromis între timpul de antrenament și consumul de energie.

Antrenarea unor modele NLP mai formidabile la scară sub constrângeri de putere. Timpul relativ mediu sub un plafon de 150 W este afișat în albastru, iar consumul relativ mediu de energie pentru 150 W în portocaliu.

Antrenarea unor modele NLP mai formidabile la scară sub constrângeri de putere. Timpul relativ mediu sub un plafon de 150 W este afișat în albastru, iar consumul relativ mediu de energie pentru 150 W în portocaliu.

Pentru aceste implementări la scară mai mare, cercetătorii au descoperit că o limitare a utilizării energiei de 150 W a obținut o scădere medie a consumului de energie cu 13.7%, comparativ cu maximul implicit de 250 W, precum și o creștere relativ mică de 6.8% a timpului de antrenament.

În plus, cercetătorii notează că, în ciuda faptului că titluri costul pregătirii modelelor a acumulat în ultimii câțiva ani, costurile energetice ale utilizării efective a modelelor instruite sunt departe superior*.

„Pentru modelarea limbajului cu BERT, câștigurile de energie prin limitarea puterii sunt considerabil mai mari atunci când se efectuează inferențe decât pentru antrenament. Dacă acest lucru este consecvent pentru alte aplicații AI, acest lucru ar putea avea ramificații semnificative în ceea ce privește consumul de energie pentru platformele de calcul la scară largă sau cloud care servesc aplicații de inferență pentru cercetare și industrie.

În plus, și poate cel mai controversat, lucrarea sugerează că antrenarea majoră a modelelor de învățare automată să fie retrogradată în lunile mai reci ale anului și pe timp de noapte, pentru a economisi costurile de răcire.

Mai sus, statisticile PUE pentru fiecare zi a anului 2020 în centrul de date al autorilor, cu un vârf/plato notabil și susținut în lunile de vară. Mai jos, variația medie orară a PUE pentru aceeași locație în cursul unei săptămâni, consumul de energie crescând spre mijlocul zilei, deoarece atât hardware-ul intern de răcire a GPU-ului, cât și răcirea centrului de date ambiental se luptă să mențină o temperatură funcțională.

Mai sus, statisticile PUE pentru fiecare zi a anului 2020 în centrul de date al autorilor, cu un vârf/plato notabil și susținut în lunile de vară. Mai jos, variația medie orară a PUE pentru aceeași locație în cursul unei săptămâni, consumul de energie crescând spre mijlocul zilei, deoarece atât hardware-ul intern de răcire a GPU-ului, cât și răcirea centrului de date ambiental se luptă să mențină o temperatură funcțională.

Autorii afirmă:

„În mod evident, sarcinile grele de lucru NLP sunt de obicei mult mai puțin eficiente vara decât cele executate în timpul iernii. Având în vedere variația sezonieră mare, dacă există experimente costisitoare din punct de vedere computațional, care pot fi programate la luni mai reci, acest moment poate reduce semnificativ amprenta de carbon.

Lucrarea recunoaște, de asemenea, posibilitățile emergente de economisire a energiei care sunt posibile prin tăierea și optimizarea arhitecturii modelului și a fluxurilor de lucru - deși autorii lasă dezvoltarea ulterioară a acestei căi altor inițiative.

În cele din urmă, autorii sugerează că noile lucrări științifice din sectorul învățării automate să fie încurajate, sau poate constrânse, să se încheie cu o declarație care declară consumul de energie al lucrărilor efectuate în cercetare și implicațiile energetice potențiale ale adoptării inițiativelor sugerate în lucrare. .

Lucrarea, conducând prin exemplu, explică implicațiile energetice ale propriilor cercetări.

Lucrarea, conducând prin exemplu, explică implicațiile energetice ale propriilor cercetări.

hârtie se intitulează Mare putere, mare responsabilitate: Recomandări pentru reducerea energiei pentru formarea modelelor lingvisticeși provine de la șase cercetători din MIT Lincoln și Northeastern.

Învățare automată se apropie de energie

Așa cum cerințele de calcul pentru modelele de învățare automată au a crescut în tandem cu utilitatea rezultatelor, cultura actuală ML echivalează cheltuiala cu energie cu o performanță îmbunătățită – în ciuda unor activiști de seamă, precum Andrew Ng, sugerând că curatarea datelor poate fi a factor mai important.

Într-una colaborare cheie MITn începând cu 2020, s-a estimat că o îmbunătățire de zece ori a performanței modelului implică o creștere de 10,000 de ori a cerințelor de calcul, împreună cu o cantitate corespunzătoare de energie.

În consecință, cercetările în domeniul antrenamentelor ML mai puțin consumatoare de energie au crescut în ultimii ani. Noua lucrare, susțin autorii, este prima care analizează în profunzime efectul limitelor de putere asupra instruirii și inferenței învățării automate, cu accent pe cadrele NLP (cum ar fi seria GPT).

Deoarece calitatea inferenței este o preocupare primordială, autorii afirmă de la început constatările lor:

„[Această] metodă nu afectează predicțiile modelelor antrenate sau, în consecință, acuratețea performanței acestora la sarcini. Adică, dacă două rețele cu aceeași structură, valori inițiale și date în loturi sunt antrenate pentru același număr de loturi sub diferite limite de putere, parametrii lor rezultați vor fi identici și numai energia necesară pentru a le produce poate diferi.

Reducerea puterii pentru NLP

Pentru a evalua impactul limitelor de putere asupra instruirii și inferenței, autorii au folosit nvidia-smi (System Management Interface) utilitar de linie de comandă, împreună cu un Biblioteca MLMy de la HuggingFace.

Autorii au instruit modele de procesare a limbajului natural OARET, DistilBERT și Pasăre mare peste MLM și le-au monitorizat consumul de energie în formare și implementare.

Modelele au fost antrenate împotriva DeepAI WikiText-103 set de date pentru 4 epoci în loturi de opt, pe 16 GPU-uri V100, cu patru limite de putere diferite: 100 W, 150 W, 200 W și 250 W (prestabilit, sau linia de bază, pentru un GPU NVIDIA V100). Modelele prezentau parametri antrenați prin scratch și valori de inițializare aleatorii, pentru a asigura evaluări comparabile de antrenament.

După cum se vede în prima imagine de mai sus, rezultatele demonstrează economii bune de energie la creșteri neliniare, favorabile ale timpului de antrenament. Autorii afirmă:

„Experimentele noastre indică faptul că implementarea limitelor de putere poate reduce semnificativ consumul de energie cu prețul timpului de antrenament”.

Slăbirea „Big NLP”

În continuare, autorii au aplicat aceeași metodă într-un scenariu mai solicitant: antrenarea BERT cu MLM pe configurații distribuite pe mai multe GPU - un caz de utilizare mai tipic pentru modelele FAANG NLP bine finanțate și bine mediatizate.

Principala diferență în acest experiment a fost că un model ar putea folosi oriunde între 2-400 de GPU-uri per instanță de antrenament. Au fost aplicate aceleași constrângeri pentru utilizarea energiei și aceeași sarcină folosită (WikiText-103). Vezi a doua imagine de mai sus pentru grafice ale rezultatelor.

Lucrarea afirmă:

„În medie pentru fiecare alegere de configurație, o limitare a utilizării energiei de 150 W a dus la o scădere medie de 13.7% a consumului de energie și la o creștere de 6.8% a timpului de antrenament, comparativ cu valoarea maximă implicită. [Setarea] 100W are timpi de antrenament semnificativ mai lungi (în medie cu 31.4% mai lungi). O limită de 200 W corespunde cu aproape același timp de antrenament ca o limită de 250 W, dar economii de energie mai modeste decât o limită de 150 W.'

Autorii sugerează că aceste rezultate acceptă limitarea puterii la 150 W pentru arhitecturile GPU și aplicațiile care rulează pe acestea. Ei observă, de asemenea, că economiile de energie obținute se traduc pe platformele hardware și au efectuat din nou testele pentru a compara rezultatele pentru GPU-urile NVIDIA K80, T4 și A100.

Economii obținute pe trei GPU-uri NVIDIA diferite.

Economii obținute pe trei GPU-uri NVIDIA diferite.

Inferență, nu antrenament, mănâncă putere

Lucrarea citează mai multe studii anterioare care demonstrează că, în ciuda titlurilor, inferența (folosirea unui model finit, cum ar fi un model NLP) și nu antrenamentul atrage cea mai mare cantitate de putere, sugerând că, pe măsură ce modelele populare sunt comercializate și intră în curent, consumul de energie ar putea deveni o problemă mai mare decât este în prezent în acest stadiu mai incipient al dezvoltării NLP.

Astfel, cercetătorii au măsurat impactul inferenței asupra consumului de energie, constatând că impunerea limitelor de putere are un efect notabil asupra latenței de inferență:

„În comparație cu 250W, o setare de 100W a necesitat dublu timp de inferență (o creștere cu 114%) și a consumat cu 11.0% mai puțină energie, 150W a necesitat cu 22.7% mai mult timp și a economisit cu 24.2% din energie, iar 200W a necesitat cu 8.2% mai mult timp cu 12.0% mai puțin. energie.'

Antrenament de iarnă

Lucrarea sugerează că antrenamentul (dacă nu deducere, din motive evidente) ar putea fi programat în momentele în care centrul de date este la eficiența maximă a consumului de energie (PUE) - în mod eficient, iarna și noaptea.

„Se pot obține economii semnificative de energie dacă sarcinile de lucru pot fi programate în momente în care este de așteptat un PUE mai mic. De exemplu, mutarea unui loc de muncă de scurtă durată din timpul zilei în timpul nopții poate oferi o reducere de aproximativ 10%, iar mutarea unui loc de muncă mai lung și costisitor (de exemplu, un model de limbă care durează săptămâni până la finalizare) din vară în iarnă poate înregistra o reducere de 33%.

„Deși este dificil de prezis economiile pe care le poate realiza un cercetător individual, informațiile prezentate aici evidențiază importanța factorilor de mediu care afectează energia totală consumată de sarcinile lor de lucru”.

Ține-l înnorat

În cele din urmă, lucrarea observă că este puțin probabil ca resursele de procesare autohtone să fi implementat aceleași măsuri de eficiență ca centrele de date majore și jucătorii de cloud compute la nivel înalt și că beneficiile de mediu ar putea fi obținute prin transferul sarcinilor de lucru în locații care au investit mult în PUE bun.

„Deși există o comoditate în a avea resurse de calcul private care sunt accesibile, această comoditate are un cost. În general, economiile de energie și impactul sunt obținute mai ușor la scară mai mare. Centrele de date și furnizorii de cloud computing fac investiții semnificative în eficiența instalațiilor lor.'

 

* Linkuri pertinente date de lucrare.