Artificiell intelligens
Begränsa den växande effektbehovet för maskinlärning

I ljuset av den växande oron för energikraven för stora maskinlärningsmodeller har en nylig studie från MIT Lincoln Laboratory och Northeastern University undersökt de besparingar som kan göras genom att begränsa effektåtgången för GPU:er som används för modellträning och inferens, samt flera andra tekniker och metoder för att minska AI-energianvändning.
Den nya studien förespråkar också att nya AI-artiklar ska avslutas med en “Energiförklaring” (liknande den senaste trenden för “etiska implikationsuttalanden” i artiklar från maskinlärningsforskningssektorn).
Huvudförslaget från studien är att effektbegränsning (begränsning av den tillgängliga effekten till GPU:n som tränar modellen) erbjuder värdefulla energibesparingar, särskilt för Masked Language Modeling (MLM) och ramverk som BERT och dess derivat.

Tre språkmodellnätverk som körs vid en procentuell andel av standardinställningarna på 250 W (svart linje), i termer av effektåtgång. Att begränsa effektåtgången påverkar inte träningsEffektivitet eller noggrannhet på ett 1-1-sätt, och erbjuder energibesparingar som är betydande i stor skala. Källa: https://arxiv.org/pdf/2205.09646.pdf
För större modeller, som har fått uppmärksamhet under de senaste åren på grund av hyperskaledata och nya modeller med miljarder eller biljoner parametrar, kan liknande besparingar erhållas som en avvägning mellan tränningstid och energianvändning.

Träning av mer avancerade NLP-modeller i stor skala under effektbegränsningar. Den genomsnittliga relativa tiden under en 150W-gräns visas i blått, och den genomsnittliga relativa energiförbrukningen för 150W visas i orange.
För dessa större distributioner fann forskarna att en 150W-gräns för effektanvändning resulterade i en genomsnittlig minskning av energianvändningen med 13,7% jämfört med standardvärdet på 250 W, samt en relativt liten ökning av tränningstiden med 6,8%.
Forskarna noterar också att, trots rubrikerna som kostnaden för modellträning har fått under de senaste åren, är energikostnaderna för att faktiskt använda de tränade modellerna mycket högre*.
‘För språkmodellering med BERT är energibesparingarna genom effektbegränsning märkbart större när man utför inferens än för träning. Om detta är konsekvent för andra AI-applikationer, kan detta ha betydande konsekvenser för energiförbrukning för stora eller molnbaserade beräkningsplattformar som servar inferensapplikationer för forskning och industri.’
Ytterligare, och kanske mest kontroversiellt, föreslår artikeln att stor skala maskinlärningsmodellträning bör överföras till de kallare månaderna på året, och till nattetid, för att spara på kylkostnader.

Överst, PUE-statistik för varje dag i 2020 i författarnas datacenter, med en betydande och varaktig topp/plateau under sommarmånaderna. Nederst, den genomsnittliga timliga variationen i PUE för samma plats under en vecka, med energiförbrukning som ökar mot mitten av dagen, eftersom både den interna GPU-kylhårdvaran och den omgivande datacenterkylningen kämpar för att upprätthålla en fungerande temperatur.
Författarna skriver:
‘Tydligtvis är tunga NLP-arbetsbelastningar vanligtvis mycket mindre effektiva under sommaren än de som utförs under vintern. Med tanke på den stora säsongsvariationen, om det finns beräkningskrävande experiment som kan tidigareläggas till svalare månader, kan detta betydligt minska kolavtrycket.’
Artikeln erkänner också de framväxande energibesparingsmöjligheterna som är möjliga genom beskärning och optimering av modellarkitektur och arbetsflöden – men författarna lämnar vidare utveckling av denna väg till andra initiativ.
Slutligen föreslår författarna att nya vetenskapliga artiklar från maskinlärningssektorn bör uppmuntras, eller kanske begränsas, att avslutas med ett uttalande som deklarerar energianvändningen för det arbete som utförts i forskningen, och de potentiella energikonsekvenserna av att anta initiativ som föreslås i arbetet.

Artikeln, som följer ett exempel, förklarar energikonsekvenserna av den egna forskningen.
Den artikeln heter Great Power, Great Responsibility: Recommendations for Reducing Energy for Training Language Models, och kommer från sex forskare på MIT Lincoln och Northeastern.
Maskinlärningens förestående energitillgrepp
Medan de beräkningsmässiga kraven för maskinlärningsmodeller har ökat i takt med att resultaten har blivit mer användbara, förknippar den nuvarande ML-kulturen energiutgifter med förbättrad prestanda – trots vissa betydande kampanjer, såsom Andrew Ng, som föreslår att datakurering kan vara en viktigare faktor.
I ett viktigt MIT-samarbete från 2020, uppskattades att en tiofaldig förbättring av modellprestanda medför en 10 000-faldig ökning av beräkningskraven, tillsammans med en motsvarande mängd energi.
Följaktligen har forskning om mindre energikrävande effektiv ML-träning ökat under de senaste åren. Den nya artikeln, som författarna hävdar, är den första som tar en djup titt på effekten av effektbegränsningar på maskinlärningsträning och inferens, med fokus på NLP-ramverk (såsom GPT-serien).
Eftersom kvaliteten på inferensen är ett överordnat bekymmer, skriver författarna om sina resultat i början:
‘[Denna] metod påverkar inte förutsägelserna för tränade modeller eller deras prestanda noggrannhet på uppgifter. Det vill säga, om två nätverk med samma struktur, initiala värden och batchade data tränas under samma antal batchar under olika effektbegränsningar, kommer deras resulterande parametrar att vara identiska och endast den energi som krävs för att producera dem kan skilja sig åt.’
Begränsa effekten för NLP
För att utvärdera effekten av effektbegränsningar på träning och inferens, använde författarna nvidia-smi (System Management Interface) kommandoradsverktyget, tillsammans med ett MLM-bibliotek från HuggingFace.
Författarna tränade NLP-modeller BERT, DistilBERT och Big Bird över MLM, och övervakade deras effektåtgång under träning och distribution.
Modellerna tränades mot DeepAI:s WikiText-103-dataset under 4 epoker i batchar om åtta, på 16 V100-GPU:er, med fyra olika effektbegränsningar: 100 W, 150 W, 200 W och 250 W (standard, eller baseline, för en NVIDIA V100-GPU). Modellerna hade tränade parametrar från scratch och slumpmässiga initvärden, för att säkerställa jämförbara träningsutvärderingar.
Som visas i den första bilden ovan, visar resultaten goda energibesparingar vid icke-linjära, fördelaktiga ökningar av tränningstid. Författarna skriver:
‘Våra experiment visar att implementering av effektbegränsningar kan minska energianvändningen avsevärt, till priset av tränningstid.’
Tunnare ‘Big NLP’
Nästa steg var att författarna tillämpade samma metod på en mer krävande scenario: träning av BERT med MLM på distribuerade konfigurationer över flera GPU:er – ett mer typiskt användningsfall för välfinansierade och välpublicerade FAANG NLP-modeller.
Den stora skillnaden i detta experiment var att en modell kunde använda allt från 2 till 400 GPU:er per träningsinstans. Samma begränsningar för effektanvändning tillämpades, och samma uppgift användes (WikiText-103). Se den andra bilden ovan för grafer över resultaten.
Artikeln skriver:
‘Genomsnittligt över varje val av konfiguration, ledde en 150W-gräns för effektanvändning till en genomsnittlig minskning av energianvändningen med 13,7% och en ökning av tränningstiden med 6,8% jämfört med standardvärdet. [Den] 100W-inställningen har betydligt längre träningstider (31,4% längre i genomsnitt). En 200W-gräns motsvarar nästan samma träningstider som en 250W-gräns, men mer blygsamma energibesparingar än en 150W-gräns.’
Författarna föreslår att dessa resultat stöder effektbegränsning vid 150 W för GPU-arkitekturer och de applikationer som körs på dem. De noterar också att de energibesparingar som erhålls översätter sig till olika hårdvaruplattformar, och körde testerna igen för att jämföra resultaten för NVIDIA K80, T4 och A100-GPU:er.

Energibesparingar över tre olika NVIDIA-GPU:er.
Inferens, inte träning, äter effekt
Artikeln citerar flera tidigare studier som visar att, trots rubrikerna, det är inferens (användning av en färdig modell, såsom en NLP-modell) och inte träning som drar den största mängden effekt, vilket tyder på att när populära modeller blir allmänt accepterade och kommer ut på marknaden, kan effektanvändningen bli ett större problem än det är i denna mer embryonala utvecklingsfas av NLP.
Därför mätte forskarna effekten av inferens på effektanvändning, och fann att införandet av effektbegränsningar hade en märkbar effekt på inferenstid:
‘Jämfört med 250 W, krävde en 100W-inställning dubbelt så lång inferenstid (en ökning med 114%) och förbrukade 11,0% mindre energi, 150 W krävde 22,7% mer tid och sparade 24,2% energi, och 200 W krävde 8,2% mer tid med 12,0% mindre energi.’
Vinterträning
Artikeln föreslår att träning (om inte inferens, av uppenbara skäl) kunde schemaläggas vid tidpunkter när datacentret är som mest effektivt i fråga om effektanvändning – effektivt, det vill säga under vintern, och på natten.
‘Betydande energibesparingar kan erhållas om arbetsbelastningar kan schemaläggas vid tidpunkter när en lägre PUE förväntas. Till exempel kan en kortvarig arbetsuppgift flyttas från dagtid till nattetid, vilket kan ge en besparing på cirka 10%, och en längre, dyrare arbetsuppgift (t.ex. en språkmodell som tar veckor att slutföra) kan flyttas från sommar till vinter, vilket kan ge en besparing på 33%.’
‘Medan det är svårt att förutsäga de besparingar som en enskild forskare kan uppnå, betonar informationen som presenteras här vikten av miljöfaktorer som påverkar den totala energi som förbrukas av deras arbetsbelastningar.’
Håll det molnbaserat
Slutligen noterar artikeln att hemmagjorda bearbetningsresurser sannolikt inte har implementerat samma effektivitetsåtgärder som stora datacenter och högnivåmolnberäkningsaktörer, och att miljöfördelar kan uppnås genom att överföra arbetsbelastningar till platser som har investerat kraftigt i bra PUE.
‘Medan det finns en bekvämlighet i att ha privata beräkningsresurser som är tillgängliga, kommer denna bekvämlighet till en kostnad. Generellt sett är energibesparingar och påverkan lättare att uppnå i större skala. Datacenter och molnberäkningsleverantörer gör betydande investeringar i effektiviteten hos sina anläggningar.’
* Relevanta länkar som ges av artikeln.










