stubs Mašīnmācības pieaugošās jaudas vajadzību ierobežošana — Unite.AI
Savienoties ar mums

Mākslīgais intelekts

Mašīnmācības pieaugošās jaudas vajadzību ierobežošana

mm
Atjaunināts on

Ņemot vērā pieaugošās bažas par enerģijas prasībām lieliem mašīnmācīšanās modeļiem, nesen veiktā MIT Linkolnas laboratorijas un Ziemeļaustrumu universitātes pētījumā ir pētīti ietaupījumi, ko var panākt, izmantojot modeļu apmācībā un secinājumos izmantotos jaudas ierobežošanas GPU, kā arī vairākus citus. metodes un metodes mākslīgā intelekta enerģijas patēriņa samazināšanai.

Jaunais darbs arī prasa jaunus AI dokumentus, kas jānoslēdz ar “Enerģijas paziņojumu” (līdzīgi kā jaunākā tendence “ētiskas nozīmes” apgalvojumiem mašīnmācīšanās pētniecības sektora rakstos).

Galvenais darba ieteikums ir tāds, ka jaudas ierobežošana (ierobežojot pieejamo jaudu līdz GPU, kas apmāca modeli) piedāvā vērtīgas enerģijas taupīšanas priekšrocības, jo īpaši maskētās valodas modelēšanai (MLM) un tādām sistēmām kā BERT un tās atvasinājumi.

Trīs valodu modelēšanas tīkli, kas darbojas ar procentuālo daļu no noklusējuma 250 W iestatījumiem (melnā līnija) enerģijas patēriņa ziņā. Enerģijas patēriņa ierobežošana neierobežo treniņu efektivitāti vai precizitāti, pamatojoties uz 1-1, un nodrošina ievērojamu enerģijas ietaupījumu. Avots: https://arxiv.org/pdf/2205.09646.pdf

Trīs valodu modelēšanas tīkli, kas darbojas ar procentuālo daļu no noklusējuma 250 W iestatījumiem (melnā līnija) enerģijas patēriņa ziņā. Enerģijas patēriņa ierobežošana neierobežo treniņu efektivitāti vai precizitāti, pamatojoties uz 1-1, un nodrošina ievērojamu enerģijas ietaupījumu. Avots: https://arxiv.org/pdf/2205.09646.pdf

Lielāka mēroga modeļiem, kas pēdējos gados ir piesaistījuši uzmanību hipermēroga datu kopu un jaunu modeļu ar miljardiem vai triljoniem parametru dēļ, līdzīgus ietaupījumus var iegūt kā kompromisu starp apmācības laiku un enerģijas patēriņu.

Briesmīgāku NLP modeļu apmācība plašā mērogā saskaņā ar jaudas ierobežojumiem. Vidējais relatīvais laiks zem 150 W ierobežojuma ir parādīts zilā krāsā, bet vidējais relatīvais enerģijas patēriņš 150 W — oranžā krāsā.

Briesmīgāku NLP modeļu apmācība plašā mērogā saskaņā ar jaudas ierobežojumiem. Vidējais relatīvais laiks zem 150 W ierobežojuma ir parādīts zilā krāsā, bet vidējais relatīvais enerģijas patēriņš 150 W — oranžā krāsā.

Šajos lielāka mēroga izvietošanas gadījumos pētnieki atklāja, ka 150 W, kas saistīti ar jaudas izmantošanu, izraisīja vidēji par 13.7% mazāku enerģijas patēriņu salīdzinājumā ar noklusējuma 250 W maksimumu, kā arī salīdzinoši nelielu treniņu laika pieaugumu par 6.8%.

Turklāt pētnieki atzīmē, ka, neskatoties uz virsraksti ka modeļu apmācības izmaksas pēdējos gados ir pieaugušas, enerģijas izmaksas, kas rodas, faktiski izmantojot apmācītos modeļus tālu augstāks*.

“Valodas modelēšanai ar BERT enerģijas ieguvums jaudas ierobežošanas rezultātā ir ievērojami lielāks, veicot secinājumus, nekā apmācot. Ja tas atbilst citām mākslīgā intelekta lietojumprogrammām, tas varētu būtiski ietekmēt enerģijas patēriņu liela mēroga vai mākoņdatošanas platformām, kas kalpo secinājumu lietojumprogrammām pētniecībā un rūpniecībā.

Turklāt un, iespējams, vispretrunīgākajā dokumentā ir ierosināts, ka galvenā mašīnmācīšanās modeļu apmācība ir jāatliek uz gada aukstākajiem mēnešiem un nakts laiku, lai ietaupītu dzesēšanas izmaksas.

Iepriekš redzama PUE statistika par katru 2020. gada dienu autoru datu centrā ar ievērojamu un ilgstošu pieaugumu/plato vasaras mēnešos. Tālāk ir norādītas PUE vidējās stundas svārstības vienai un tai pašai atrašanās vietai nedēļas laikā, enerģijas patēriņam pieaugot līdz dienas vidum, jo ​​gan iekšējā GPU dzesēšanas aparatūra, gan apkārtējā datu centra dzesēšana cīnās, lai uzturētu piemērotu temperatūru.

Iepriekš redzama PUE statistika par katru 2020. gada dienu autoru datu centrā ar ievērojamu un ilgstošu pieaugumu/plato vasaras mēnešos. Tālāk ir norādītas PUE vidējās stundas svārstības vienai un tai pašai atrašanās vietai nedēļas laikā, enerģijas patēriņam pieaugot līdz dienas vidum, jo ​​gan iekšējā GPU dzesēšanas aparatūra, gan apkārtējā datu centra dzesēšana cīnās, lai uzturētu piemērotu temperatūru.

Autori norāda:

"Acīmredzot lielas NLP darba slodzes vasarā parasti ir daudz mazāk efektīvas nekā tās, kas tiek veiktas ziemā. Ņemot vērā lielās sezonālās atšķirības, ja tādas ir, ir skaitļošanas ziņā dārgi eksperimenti, kurus var ieplānot aukstākos mēnešos, šis laiks var ievērojami samazināt oglekļa pēdas nospiedumu.

Rakstā ir arī atzītas jaunās enerģijas taupīšanas iespējas, kas ir iespējamas, apgriežot un optimizējot modeļa arhitektūru un darbplūsmas, lai gan autori atstāj šīs iespējas tālāku attīstību citām iniciatīvām.

Visbeidzot, autori ierosina mudināt vai, iespējams, ierobežot jaunos zinātniskos rakstus no mašīnmācīšanās sektora, lai tos noslēgtu ar paziņojumu, kurā deklarēts pētniecībā veiktā darba enerģijas patēriņš un iespējamā ietekme uz enerģiju, pieņemot darbā ierosinātās iniciatīvas. .

Rakstā, rādot piemēru, ir izskaidrota sava pētījuma ietekme uz enerģiju.

Rakstā, rādot piemēru, ir izskaidrota sava pētījuma ietekme uz enerģiju.

Jūsu darbs IR Klientu apkalpošana papīrs tiek nosaukts Liels spēks, liela atbildība: ieteikumi enerģijas samazināšanai valodu modeļu apmācībai, un nāk no sešiem pētniekiem visā MIT Linkolnā un Ziemeļaustrumos.

Mašīnmācīšanās draudošā enerģija

Tāpat kā mašīnmācīšanās modeļu skaitļošanas prasības palielinājās līdztekus rezultātu lietderībai pašreizējā ML kultūra enerģijas patēriņu pielīdzina uzlabotai veiktspējai – neskatoties uz dažiem ievērojamiem kampaņas dalībniekiem, piemēram, Endrjū Ng, kas liecina, ka datu pārvaldīšana var būt a svarīgāks faktors.

Vienā galvenā MIT sadarbīban no 2020. gada tika lēsts, ka modeļa veiktspējas desmitkārtīgs uzlabojums nozīmē 10,000 XNUMX reižu pieaugumu skaitļošanas prasībām, kā arī atbilstošu enerģijas daudzumu.

Līdz ar to pēdējo dažu gadu laikā ir palielinājušies pētījumi par mazāk enerģijas ietilpīgu efektīvu ML apmācību. Autori apgalvo, ka jaunais dokuments ir pirmais, kas padziļināti aplūko jaudas ierobežojumu ietekmi uz mašīnmācības apmācību un secinājumiem, liekot uzsvaru uz NLP ietvariem (piemēram, GPT sēriju).

Tā kā secinājumu kvalitāte ir vissvarīgākā problēma, autori jau pašā sākumā norāda savus secinājumus:

“[Šī] metode neietekmē apmācīto modeļu prognozes vai līdz ar to to izpildes precizitāti uzdevumos. Tas ir, ja divi tīkli ar vienādu struktūru, sākotnējām vērtībām un pakešdatiem tiek apmācīti vienam un tam pašam partiju skaitam ar dažādiem jaudas ierobežojumiem, to iegūtie parametri būs identiski un var atšķirties tikai to ražošanai nepieciešamā enerģija.

NLP jaudas samazināšana

Lai novērtētu jaudas ierobežojumu ietekmi uz apmācību un secinājumiem, autori izmantoja nvidia-smi (System Management Interface) komandrindas utilīta kopā ar MLM bibliotēkay no HuggingFace.

Autori apmācīja dabiskās valodas apstrādes modeļus BERT, DistilBERTS un Lielais putns pār MLM, un uzraudzīja viņu enerģijas patēriņu apmācībā un izvietošanā.

Modeļi tika apmācīti pret DeepAI WikiTeksts-103 Datu kopa 4 laikiem astoņās partijās 16 V100 GPU ar četriem dažādiem jaudas ierobežojumiem: 100 W, 150 W, 200 W un 250 W (noklusējuma vai bāzes līnija NVIDIA V100 GPU). Modeļos bija ar skrāpējumiem apmācīti parametri un nejaušas sākuma vērtības, lai nodrošinātu salīdzināmus apmācības novērtējumus.

Kā redzams pirmajā attēlā, rezultāti liecina par labu enerģijas ietaupījumu, nelineāri, labvēlīgi palielinot treniņu laiku. Autori norāda:

"Mūsu eksperimenti liecina, ka jaudas ierobežojumu ieviešana var ievērojami samazināt enerģijas patēriņu uz apmācības laika rēķina."

Tievēšana “Lielais NLP”

Pēc tam autori izmantoja to pašu metodi prasīgākam scenārijam: BERT apmācībai ar MLM par sadalītām konfigurācijām vairākos GPU — tas ir tipiskāks labi finansētiem un plaši reklamētiem FAANG NLP modeļiem.

Galvenā atšķirība šajā eksperimentā bija tāda, ka modelis var izmantot 2–400 GPU vienā apmācības gadījumā. Tika piemēroti tie paši enerģijas izmantošanas ierobežojumi un izmantots tas pats uzdevums (WikiText-103). Rezultātu diagrammas skatiet otrajā attēlā iepriekš.

Darbā teikts:

"Vidēji katrai konfigurācijas izvēlei 150 W ierobežotā jaudas izmantošana izraisīja vidēji par 13.7% enerģijas patēriņa samazinājumu un par 6.8% palielinājumu treniņu laikā, salīdzinot ar noklusējuma maksimumu. [100 W iestatījumam ir ievērojami garāks treniņu laiks (vidēji par 31.4% ilgāks). 200 W ierobežojums atbilst gandrīz tādam pašam treniņu laikam kā 250 W ierobežojums, bet pieticīgāks enerģijas ietaupījums nekā 150 W ierobežojums.

Autori norāda, ka šie rezultāti atbalsta jaudas ierobežošanu pie 150 W GPU arhitektūrām un lietojumprogrammām, kas tajās darbojas. Viņi arī atzīmē, ka iegūtais enerģijas ietaupījums izpaužas dažādās aparatūras platformās, un atkārtoti veica testus, lai salīdzinātu NVIDIA K80, T4 un A100 GPU rezultātus.

Ietaupījumi, kas iegūti, izmantojot trīs dažādus NVIDIA GPU.

Ietaupījumi, kas iegūti, izmantojot trīs dažādus NVIDIA GPU.

Secinājumi, nevis trenēšanās, ēd spēku

Rakstā ir minēti vairāki iepriekšējie pētījumi, kas parāda, ka, neraugoties uz virsrakstiem, vislielāko spēku patērē secinājumi (gatava modeļa, piemēram, NLP modeļa izmantošana), nevis apmācība, kas liek domāt, ka populārie modeļi tiek pārveidoti un iekļauti enerģētikas izmantošana varētu kļūt par lielāku problēmu, nekā tas ir pašlaik šajā NLP attīstības topošajā posmā.

Tādējādi pētnieki novērtēja secinājumu ietekmi uz enerģijas patēriņu, atklājot, ka jaudas ierobežojumu noteikšanai ir ievērojama ietekme uz secinājumu latentumu:

“Salīdzinot ar 250 W, 100 W iestatījumam bija nepieciešams divkāršs secinājuma laiks (pieaugums par 114 %), un tas patērēja par 11.0% mazāk enerģijas, 150 W prasīja par 22.7% vairāk laika un ietaupīja 24.2% enerģijas, un 200 W bija par 8.2% vairāk laika ar 12.0% mazāku. enerģija.'

Ziemas apmācība

Rakstā ir norādīts, ka apmācību (ja ne secinājumu dēļ acīmredzamu iemeslu dēļ) var ieplānot laikā, kad datu centrā ir sasniegts enerģijas patēriņa efektivitātes (PUE) maksimums — faktiski tas ir ziemā un naktī.

“Ievērojamu enerģijas ietaupījumu var panākt, ja darba slodzes var ieplānot laikā, kad ir sagaidāms zemāks PUE. Piemēram, īslaicīga darba pārcelšana no dienas uz nakti var nodrošināt aptuveni 10% samazinājumu, un, pārceļot ilgāku, dārgu darbu (piemēram, valodas modeļa pabeigšana aizņem vairākas nedēļas) no vasaras uz ziemu, tas var samazināties par 33%.

"Lai gan ir grūti paredzēt ietaupījumus, ko var panākt atsevišķs pētnieks, šeit sniegtā informācija uzsver vides faktoru nozīmi, kas ietekmē kopējo enerģijas patēriņu, ko patērē viņu darba slodze."

Saglabājiet to mākoņains

Visbeidzot, rakstā ir norādīts, ka pašmāju apstrādes resursi, visticamāk, nebūs ieviesuši tādus pašus efektivitātes pasākumus kā galvenie datu centri un augsta līmeņa mākoņdatošanas atskaņotāji, un ka vides ieguvumus varētu gūt, pārceļot darba slodzi uz vietām, kas ir ieguldījušas lielus ieguldījumus labā PUE.

“Lai gan ir ērti pieejami privāti skaitļošanas resursi, šīs ērtības maksā. Vispārīgi runājot, enerģijas ietaupījumu un ietekmi ir vieglāk iegūt lielākos apmēros. Datu centri un mākoņdatošanas pakalpojumu sniedzēji veic ievērojamus ieguldījumus savu iekārtu efektivitātē.

 

* Rakstā sniegtās atbilstošās saites.

Rakstnieks par mašīnmācību, mākslīgo intelektu un lielajiem datiem.
Personīgā vietne: Martinanderson.ai
Sazinieties ar: [e-pasts aizsargāts]
Twitter: @manders_ai