Unghiul lui Anderson
Înfrânarea necesarului tot mai mare de energie al învățării automate

În lumina preocupărilor crescânde cu privire la cerințele de energie ale modelelor mari de învățare automată, o studiu recent de la MIT Lincoln Laboratory și Universitatea Northeastern a investigat economiile care pot fi realizate prin limitarea puterii GPU-urilor utilizate în antrenarea și inferența modelului, precum și prin alte tehnici și metode de reducere a consumului de energie AI.
Noua lucrare solicită, de asemenea, ca noile lucrări științifice din domeniul învățării automate să se încheie cu o “Declarație de energie” (similară cu tendința recentă de “declarații de implicații etice” în lucrările de cercetare din sectorul învățării automate).
Principala sugestie a lucrării este că limitarea puterii (limitarea puterii disponibile pentru GPU-ul care antrenează modelul) oferă avantaje semnificative de economisire a energiei, în special pentru modelarea limbajului mascat (MLM) și cadre precum BERT și derivatele sale.

Trei rețele de modelare a limbajului care funcționează la un procent din setările implicite de 250W (linie neagră), în ceea ce privește consumul de energie. Limitarea consumului de energie nu afectează eficiența antrenării sau precizia pe o bază 1-la-1 și oferă economii de energie notabile la scară largă. Sursă: https://arxiv.org/pdf/2205.09646.pdf
Pentru modele mai mari, care au atras atenția în ultimii ani datorită seturilor de date hiperscalabile și a noilor modele cu miliarde sau trilioane de parametri, se pot obține economii similare ca urmare a unui compromis între timpul de antrenare și consumul de energie.

Antrenarea unor modele NLP mai puternice la scară, sub constrângeri de putere. Timpul mediu relativ sub o limită de 150W este afișat în albastru, iar consumul mediu de energie relativ pentru 150W este afișat în portocaliu.
Pentru aceste implementări la scară mai mare, cercetătorii au constatat că o limită de 150W pentru utilizarea puterii a obținut o scădere medie de 13,7% a consumului de energie, comparativ cu limita maximă implicită de 250W, precum și o creștere relativ mică de 6,8% a timpului de antrenare.
În plus, cercetătorii notează că, în ciuda titlurilor care au apărut în ultimii ani cu privire la costul antrenării modelului, costurile energetice ale utilizării efective a modelelor antrenate sunt mult mai mari*.
‘Pentru modelarea limbajului cu BERT, câștigurile de energie prin limitarea puterii sunt mult mai mari atunci când se efectuează inferență decât atunci când se efectuează antrenarea. Dacă acest lucru este valabil și pentru alte aplicații AI, acesta ar putea avea implicații semnificative în ceea ce privește consumul de energie pentru platformele de calcul la scară largă sau cloud care servesc aplicații de inferență pentru cercetare și industrie.’
Mai mult, și poate cel mai controversat, articolul sugerează că antrenarea principală a modelelor de învățare automată ar trebui să fie delegată lunilor mai reci ale anului și nopții, pentru a economisi costurile de răcire.

Mai sus, statistici PUE pentru fiecare zi a anului 2020 în centrul de date al autorilor, cu un vârf/platou notabil și susținut în lunile de vară. Mai jos, variația medie orară a PUE pentru aceeași locație în cursul unei săptămâni, cu consumul de energie crescând spre mijlocul zilei, pe măsură ce atât hardware-ul de răcire intern al GPU-ului, cât și răcirea ambientală a centrului de date se luptă să mențină o temperatură de lucru.
Autorii afirmă:
‘Evident, sarcinile grele de NLP sunt de obicei mult mai puțin eficiente în timpul verii decât cele executate în timpul iernii. Având în vedere variația sezonieră mare, dacă există experimente computațional scumpe care pot fi programate pentru lunile mai reci, acest lucru poate reduce semnificativ amprenta de carbon.’
Articolul recunoaște, de asemenea, posibilitățile emergente de economisire a energiei care pot fi realizate prin îmbunătățirea arhitecturii modelului și a fluxurilor de lucru – deși autorii lasă dezvoltarea ulterioară a acestei direcții pentru alte inițiative.
În cele din urmă, autorii sugerează că noile lucrări științifice din sectorul învățării automate ar trebui să fie încurajate, sau poate constrânse, să se încheie cu o declarație care declară consumul de energie al lucrării efectuate în cercetare și implicațiile potențiale de energie ale adoptării inițiativelor sugerate în lucrare.

Articolul, dând un exemplu, explică implicațiile de energie ale propriei cercetări.
Articolul articolul se intitulează Putere mare, responsabilitate mare: Recomandări pentru reducerea energiei pentru antrenarea modelelor de limbaj și provine de la șase cercetători de la MIT Lincoln și Northeastern.
Învățarea automată și necesarul tot mai mare de energie
Pe măsură ce cerințele computaționale pentru modelele de învățare automată au crescut odată cu utilitatea rezultatelor, cultura actuală ML echivalează cheltuielile de energie cu performanța îmbunătățită – în ciuda unor campanii notabile, precum Andrew Ng, care sugerează că curățarea datelor poate fi un factor mai important.
Într-o lucrare cheie de colaborare MIT din 2020, s-a estimat că o îmbunătățire de zece ori a performanței modelului implică o creștere de 10.000 de ori a cerințelor computaționale, împreună cu o cantitate corespunzătoare de energie.
În consecință, cercetarea în domeniul antrenării mai puțin intensive și eficiente a învățării automate a crescut în ultimii ani. Noua lucrare, afirmă autorii, este prima care examinează în profunzime efectul limitării puterii asupra antrenării și inferenței învățării automate, cu accent pe cadrele NLP (precum seria GPT).
Deoarece calitatea inferenței este o preocupare principală, autorii afirmă despre descoperirile lor la început:
‘[Această] metodă nu afectează predicțiile modelelor antrenate sau, în consecință, precizia lor pe sarcini. Adică, dacă două rețele cu aceeași structură, valori inițiale și date batchate sunt antrenate pentru același număr de batch-uri sub limitări de putere diferite, parametrii lor rezultați vor fi identici și numai energia necesară pentru a-i produce poate fi diferită.’
Reducerea puterii pentru NLP
Pentru a evalua impactul limitării puterii asupra antrenării și inferenței, autorii au utilizat utilitarul de linie de comandă nvidia-smi (Interfață de management a sistemului) împreună cu o bibliotecă MLM de la HuggingFace.
Autorii au antrenat modele de procesare a limbajului natural BERT, DistilBERT și Big Bird pe MLM și au monitorizat consumul lor de energie în timpul antrenării și implementării.
Modelele au fost antrenate pe setul de date WikiText-103 de la DeepAI pentru 4 epoci în batch-uri de opt, pe 16 GPU-uri V100, cu patru limitări de putere diferite: 100W, 150W, 200W și 250W (implicit sau bază pentru un GPU NVIDIA V100). Modelele au avut parametri antrenați de la zero și valori inițiale aleatoare, pentru a asigura evaluări de antrenare comparabile.
Așa cum se vede în prima imagine de mai sus, rezultatele demonstrează economii de energie bune la creșteri nefavorabile în timpul antrenării. Autorii afirmă:
‘Experimentele noastre indică faptul că implementarea limitărilor de putere poate reduce semnificativ consumul de energie, la costul timpului de antrenare.’
Reducerea “Big NLP”
Următorul pas al autorilor a fost să aplice aceeași metodă unei situații mai solicitante: antrenarea BERT cu MLM pe configurații distribuite pe multiple GPU-uri – un caz de utilizare mai tipic pentru modelele NLP FAANG bine finanțate și publicizate.
Principala diferență în acest experiment a fost că un model ar putea utiliza între 2-400 de GPU-uri pe instanță de antrenare. Aceleași constrângeri de utilizare a puterii au fost aplicate, iar aceeași sarcină a fost utilizată (WikiText-103). Vezi a doua imagine de mai sus pentru graficele rezultatelor.
Articolul afirmă:
‘Mediind pe fiecare alegere de configurație, o limită de 150W pentru utilizarea puterii a condus la o scădere medie de 13,7% a consumului de energie și o creștere de 6,8% a timpului de antrenare, comparativ cu limita maximă implicită. Setarea la 100W are timpi de antrenare semnificativ mai lungi (31,4% mai lungi în medie). O limită de 200W corespunde cu aproximativ același timp de antrenare ca și limita de 250W, dar cu economii de energie mai modeste decât limita de 150W.’
Autorii sugerează că aceste rezultate susțin limitarea puterii la 150W pentru arhitecturile GPU și aplicațiile care rulează pe ele. Ei notează, de asemenea, că economiile de energie obținute se traduc pe platforme de hardware, și au rulat testele din nou pentru a compara rezultatele pentru GPU-urile NVIDIA K80, T4 și A100.

Economii obținute pe trei GPU-uri NVIDIA diferite.
Inferența, nu antrenarea, consumă putere
Articolul citează mai multe studii anterioare care demonstrează că, în ciuda titlurilor, inferența (utilizarea unui model terminat, cum ar fi un model NLP) și nu antrenarea consumă cea mai mare cantitate de putere, sugerând că, pe măsură ce modelele populare sunt comercializate și intră în mainstream, consumul de putere ar putea deveni o problemă mai mare decât este în prezent în această etapă incipientă a dezvoltării NLP.
Astfel, cercetătorii au măsurat impactul inferenței asupra consumului de putere, constatând că impunerea limitărilor de putere are un efect semnificativ asupra latenței inferenței:
‘Comparativ cu 250W, o setare de 100W a necesitat dublu timpul de inferență (o creștere de 114%) și a consumat 11,0% mai puțină energie, 150W a necesitat 22,7% mai mult timp și a economisit 24,2% din energie, iar 200W a necesitat 8,2% mai mult timp, cu 12,0% mai puțină energie.’
Antrenarea de iarnă
Articolul sugerează că antrenarea (dacă nu și inferența, din motive evidente) ar putea fi programată la orele în care centrul de date este la eficiență maximă a utilizării puterii (PUE) – adică, în timpul iernii și noaptea.
‘Economii semnificative de energie pot fi obținute dacă sarcinile de lucru pot fi programate la ore în care se așteaptă un PUE mai mic. De exemplu, mutarea unui job care rulează pe termen scurt de la zi la noapte poate oferi o reducere de aproximativ 10%, iar mutarea unui job mai lung și mai scump (de exemplu, un model de limbaj care durează săptămâni pentru a fi finalizat) de la vară la iarnă poate duce la o reducere de 33%. ‘
‘Deși este dificil de prezis economiile pe care un cercetător individual le poate obține, informațiile prezentate aici subliniază importanța factorilor de mediu care afectează energia totală consumată de sarcinile lor de lucru.’
Păstrați-vă noros
În cele din urmă, articolul observă că resursele de procesare create în casă sunt puțin probabil să fi implementat aceleași măsuri de eficiență ca și centrele de date majore și jucătorii de calcul cloud de nivel înalt, și că beneficiile de mediu ar putea fi obținute prin transferarea sarcinilor de lucru în locații care au investit masiv în eficiența facilităților lor.
‘Deși există o conveniență în a avea resurse de calcul private care sunt accesibile, această conveniență vine la un cost. În general, economiile de energie și impactul sunt mai ușor de obținut la scară mai mare. Centrele de date și furnizorii de calcul cloud fac investiții semnificative în eficiența facilităților lor.’
* Legături pertinente oferite de articol.












