stub Bekæmpelse af de voksende kraftbehov for maskinlæring - Unite.AI
Følg os

Kunstig intelligens

Bekæmpelse af maskinlæringens voksende kraftbehov

mm
Opdateret on

I lyset af voksende bekymring over energikravene til store maskinlæringsmodeller har en nylig undersøgelse fra MIT Lincoln Laboratory og Northeastern University undersøgt de besparelser, der kan opnås ved strømbegrænsende GPU'er, der anvendes i modeltræning og inferens, samt adskillige andre teknikker og metoder til at reducere AI-energiforbruget.

Det nye arbejde kræver også, at nye AI-papirer afsluttes med en 'Energy Statement' (svarende til nyere tendens for 'etiske implikationer' udsagn i artikler fra maskinlæringsforskningssektoren).

Hovedforslaget fra arbejdet er, at power-capping (begrænser den tilgængelige strøm til den GPU, der træner modellen) giver værdifulde energibesparende fordele, især for Masked Language Modeling (MLM) og rammer som BERT og dets derivater.

Tre sprogmodelleringsnetværk, der opererer med en procentdel af standardindstillingerne på 250W (sort linje), hvad angår strømforbrug. Begrænsning af strømforbrug begrænser ikke træningseffektivitet eller nøjagtighed på 1-1 basis, og giver strømbesparelser, der er bemærkelsesværdige i skala. Kilde: https://arxiv.org/pdf/2205.09646.pdf

Tre sprogmodelleringsnetværk, der opererer med en procentdel af standardindstillingerne på 250W (sort linje), hvad angår strømforbrug. Begrænsning af strømforbrug begrænser ikke træningseffektivitet eller nøjagtighed på 1-1 basis og giver strømbesparelser, der er bemærkelsesværdige i skalaen. Kilde: https://arxiv.org/pdf/2205.09646.pdf

For modeller i større skala, som har fanget opmærksomhed i de senere år på grund af hyperskala-datasæt og nye modeller med milliarder eller billioner af parametre, kan lignende besparelser opnås som en afvejning mellem træningstid og energiforbrug.

Træning af mere formidable NLP-modeller i stor skala under magtbegrænsninger. Den gennemsnitlige relative tid under en 150W cap vises i blåt, og det gennemsnitlige relative energiforbrug for 150W i orange.

Træning af mere formidable NLP-modeller i stor skala under magtbegrænsninger. Den gennemsnitlige relative tid under en 150W cap vises i blåt, og det gennemsnitlige relative energiforbrug for 150W i orange.

For disse implementeringer i højere skala fandt forskerne ud af, at en 150W bundet strømudnyttelse opnåede en gennemsnitlig sænkning på 13.7 % i energiforbrug sammenlignet med standardmaksimum på 250 W, samt en relativt lille stigning på 6.8 % i træningstid.

Derudover bemærker forskerne, at på trods af overskrifter at omkostningerne til modeltræning har høstet i løbet af de sidste par år, er energiomkostningerne ved faktisk at bruge de trænede modeller langt højere*.

'For sprogmodellering med BERT er energigevinsten gennem power-capping mærkbart større, når man udfører inferens end ved træning. Hvis dette er konsistent for andre AI-applikationer, kan dette have betydelige konsekvenser i form af energiforbrug for storskala- eller cloud computing-platforme, der betjener inferensapplikationer til forskning og industri.'

Yderligere, og måske mest kontroversielt, foreslår avisen, at større træning af maskinlæringsmodeller henvises til de koldere måneder af året og til natten for at spare på køleomkostningerne.

Ovenfor, PUE-statistikker for hver dag i 2020 i forfatternes datacenter, med en bemærkelsesværdig og vedvarende stigning/plateau i sommermånederne. Nedenfor ses den gennemsnitlige timevariation i PUE for det samme sted i løbet af en uge, hvor energiforbruget stiger hen mod midt på dagen, da både den interne GPU-kølehardware og den omgivende datacenterkøling kæmper for at holde en brugbar temperatur.

Ovenfor, PUE-statistikker for hver dag i 2020 i forfatternes datacenter, med en bemærkelsesværdig og vedvarende stigning/plateau i sommermånederne. Nedenfor ses den gennemsnitlige timevariation i PUE for det samme sted i løbet af en uge, hvor energiforbruget stiger hen mod midt på dagen, da både den interne GPU-kølehardware og den omgivende datacenterkøling kæmper for at holde en brugbar temperatur.

Forfatterne siger:

»Tunge NLP-arbejdsbelastninger er åbenbart typisk meget mindre effektive om sommeren end dem, der udføres om vinteren. I betragtning af den store sæsonmæssige variation, hvis der er beregningsmæssigt dyre eksperimenter, der kan times til køligere måneder, kan denne timing reducere COXNUMX-fodaftrykket betydeligt.'

Artiklen anerkender også de nye energibesparende muligheder, der er mulige gennem beskæring og optimering af modelarkitektur og arbejdsgange - selvom forfatterne overlader yderligere udvikling af denne vej til andre initiativer.

Endelig foreslår forfatterne, at nye videnskabelige artikler fra maskinlæringssektoren tilskyndes, eller måske begrænses, til at afslutte med en erklæring, der erklærer energiforbruget af det arbejde, der udføres i forskningen, og de potentielle energimæssige implikationer af at vedtage initiativer foreslået i arbejdet. .

Papiret, der fører ved et eksempel, forklarer de energimæssige konsekvenser af sin egen forskning.

Papiret, der fører ved et eksempel, forklarer de energimæssige konsekvenser af sin egen forskning.

papir er titlen Stor magt, stort ansvar: anbefalinger til reduktion af energi til træning af sprogmodeller, og kommer fra seks forskere på tværs af MIT Lincoln og Northeastern.

Machine Learning's truende energigreb

Som de beregningsmæssige krav til maskinlæringsmodeller har øget i takt med resultaternes anvendelighed sidestiller den nuværende ML-kultur energiforbrug med forbedret ydeevne – på trods af nogle bemærkelsesværdige forkæmpere, såsom Andrew Ng, hvilket tyder på, at datakurering kan være en vigtigere faktor.

I en nøgle MIT-samarbejden fra 2020 blev det estimeret, at en tidobling af modelydelsen medfører en 10,000-dobling af beregningskravene sammen med en tilsvarende mængde energi.

Derfor er forskningen i mindre kraftkrævende effektiv ML-træning steget i løbet af de sidste par år. Det nye papir, hævder forfatterne, er det første, der tager et dybt kig på effekten af ​​power caps på maskinlæringstræning og inferens, med vægt på NLP-rammer (såsom GPT-serien).

Da kvaliteten af ​​inferens er et altafgørende problem, udtaler forfatterne om deres resultater i starten:

'[Denne] metode påvirker ikke forudsigelserne af trænede modeller eller følgelig deres præstationsnøjagtighed på opgaver. Det vil sige, at hvis to netværk med samme struktur, startværdier og batchdata trænes til det samme antal batches under forskellige power-caps, vil deres resulterende parametre være identiske, og kun den energi, der kræves til at producere dem, kan variere.'

Skær ned for strømmen til NLP

For at vurdere effekten af ​​power-caps på træning og inferens, brugte forfatterne nvidia-SMI (System Management Interface) kommandolinjeværktøj sammen med en MLM biblioteky fra HuggingFace.

Forfatterne trænede Natural Language Processing-modeller BERTI, DistilBERT , Big Bird over MLM, og overvågede deres strømforbrug i træning og implementering.

Modellerne blev trænet mod DeepAI's WikiText-103 datasæt til 4 epoker i batches af otte på 16 V100 GPU'er med fire forskellige strømkapsler: 100W, 150W, 200W og 250W (standarden eller basislinjen for en NVIDIA V100 GPU). Modellerne indeholdt scratch-trænede parametre og tilfældige init-værdier for at sikre sammenlignelige træningsevalueringer.

Som det ses på det første billede ovenfor, viser resultaterne gode energibesparelser ved ikke-lineære, gunstige stigninger i træningstid. Forfatterne udtaler:

"Vores eksperimenter viser, at implementering af strømkapsler kan reducere energiforbruget betydeligt på bekostning af træningstid."

Slanke 'Big NLP'

Dernæst anvendte forfatterne den samme metode til et mere krævende scenarie: træning af BERT med MLM på distribuerede konfigurationer på tværs af flere GPU'er - en mere typisk use case for velfinansierede og velkendte FAANG NLP-modeller.

Den største forskel i dette eksperiment var, at en model kunne bruge hvor som helst mellem 2-400 GPU'er pr. træningsforekomst. De samme begrænsninger for strømforbrug blev anvendt, og den samme opgave blev brugt (WikiText-103). Se andet billede ovenfor for grafer over resultaterne.

Papiret siger:

"Med et gennemsnit på tværs af hvert valg af konfiguration førte en 150 W bundet til strømudnyttelse til et gennemsnitligt 13.7 % fald i energiforbruget og 6.8 % stigning i træningstid sammenlignet med standardmaksimum. [Den] 100W indstilling har væsentlig længere træningstider (31.4 % længere i gennemsnit). En 200W-grænse svarer til næsten den samme træningstid som en 250W-grænse, men mere beskedne energibesparelser end en 150W-grænse.'

Forfatterne foreslår, at disse resultater understøtter strømbegrænsning ved 150W for GPU-arkitekturer og de applikationer, der kører på dem. De bemærker også, at de opnåede energibesparelser oversættes på tværs af hardwareplatforme og kørte testene igen for at sammenligne resultaterne for NVIDIA K80, T4 og A100 GPU'er.

Besparelser opnået på tværs af tre forskellige NVIDIA GPU'er.

Besparelser opnået på tværs af tre forskellige NVIDIA GPU'er.

Inferens, Træner ikke, Spiser Power

Avisen citerer adskillige tidligere undersøgelser, der viser, at på trods af overskrifterne, er det slutningen (brugen af ​​en færdig model, såsom en NLP-model) og ikke træning, der trækker den største mængde strøm, hvilket tyder på, at som populære modeller er kommodificerede og kommer ind i mainstream, kan strømforbrug blive et større problem, end det er i øjeblikket på dette mere begyndende stadium af NLP-udvikling.

Således målte forskerne virkningen af ​​inferens på strømforbruget og fandt ud af, at pålæggelsen af ​​power-caps har en bemærkelsesværdig effekt på inferens latens:

'Sammenlignet med 250W krævede en 100W-indstilling det dobbelte af inferenstiden (en stigning på 114 %) og forbrugte 11.0 % mindre energi, 150 W krævede 22.7 % mere tid og sparede 24.2 % energien, og 200 W krævede 8.2 % mere tid med 12.0 % mindre energi.'

Vinter træning

Papiret foreslår, at træning (hvis ikke slutninger, af indlysende årsager) kunne planlægges på tidspunkter, hvor datacentret er på højeste Power Usage Effectiveness (PUE) – effektivt, det er om vinteren og om natten.

'Væsentlige energibesparelser kan opnås, hvis arbejdsbelastninger kan planlægges på tidspunkter, hvor der forventes en lavere PUE. For eksempel kan flytning af et kortvarigt job fra dagtid til nat give en reduktion på ca. 10 %, og flytning af et længere, dyrt job (f.eks. en sprogmodel, der tager uger at udføre) fra sommer til vinter kan medføre en reduktion på 33 %.

"Selvom det er svært at forudsige de besparelser, som en individuel forsker kan opnå, fremhæver de oplysninger, der præsenteres her, vigtigheden af ​​miljøfaktorer, der påvirker den samlede energi, der forbruges af deres arbejdsbelastning."

Hold det overskyet

Endelig bemærker papiret, at hjemmelavede behandlingsressourcer sandsynligvis ikke har implementeret de samme effektivitetsforanstaltninger som store datacentre og cloud comput-spillere på højt niveau, og at miljømæssige fordele kunne opnås ved at overføre arbejdsbyrder til lokationer, der har investeret kraftigt i god PUE.

"Selvom det er bekvemt at have private computerressourcer, der er tilgængelige, har denne bekvemmelighed en omkostning. Generelt opnås energibesparelser og effekt lettere ved større skalaer. Datacentre og cloud computing-udbydere foretager betydelige investeringer i effektiviteten af ​​deres faciliteter.'

 

* Relevante links givet af avisen.