tynkä Koneoppimisen kasvavien tehotarpeiden hillitseminen - Unite.AI
Liity verkostomme!

Tekoäly

Koneoppimisen kasvavien tehotarpeiden hillitseminen

mm
Päivitetty on

Kun otetaan huomioon kasvava huoli suurten koneoppimismallien energiavaatimuksista, MIT Lincoln Laboratoryn ja Northeastern Universityn äskettäinen tutkimus on tutkinut säästöjä, joita voidaan saavuttaa mallikoulutuksessa ja päättelyssä käytetyillä tehoa rajoittavilla GPU:illa sekä useilla muilla. tekniikoita ja menetelmiä tekoälyn energiankäytön vähentämiseksi.

Uusi työ vaatii myös uusia tekoälypapereita, jotka päätetään energialausunnossa (samanlainen kuin viimeaikainen suuntaus koneoppimisen tutkimusalan asiakirjoissa oleville "eettisille implikaatioille").

Työn tärkein ehdotus on, että tehonrajoitus (käytettävissä olevan tehon rajoittaminen mallia harjoittavaan grafiikkasuorittimeen) tarjoaa arvokkaita energiansäästöetuja, erityisesti masked Language Modeling (MLM) -mallinnus (MLM) ja puitteet, kuten BERT ja sen johdannaiset.

Kolme kielimallinnusverkkoa, jotka toimivat prosenttiosuudella 250 W:n oletusasetuksista (musta viiva) virrankulutuksen suhteen. Tehonkulutuksen rajoittaminen ei rajoita harjoittelun tehokkuutta tai tarkkuutta 1-1-perusteisesti, ja se tarjoaa mittakaavassa huomattavia virransäästöjä. Lähde: https://arxiv.org/pdf/2205.09646.pdf

Kolme kielimallinnusverkkoa, jotka toimivat prosenttiosuudella 250 W:n oletusasetuksista (musta viiva) virrankulutuksen suhteen. Tehonkulutuksen rajoittaminen ei rajoita harjoittelun tehokkuutta tai tarkkuutta 1-1-perusteisesti, ja se tarjoaa mittakaavassa huomattavia virransäästöjä. Lähde: https://arxiv.org/pdf/2205.09646.pdf

Suuremmissa malleissa, jotka ovat kiinnittäneet huomiota viime vuosina hypermittakaavaisten tietojoukkojen ja uusien, miljardeja tai biljoonia parametreja sisältävien mallien ansiosta, voidaan saavuttaa samanlaisia ​​säästöjä harjoitusajan ja energiankäytön välisenä kompromissina.

Valmempien NLP-mallien kouluttaminen mittakaavassa tehorajoitusten alaisena. Keskimääräinen suhteellinen aika 150 W:n ylärajan alla näkyy sinisenä ja keskimääräinen suhteellinen energiankulutus 150 W:n kohdalla oranssina.

Valmempien NLP-mallien kouluttaminen mittakaavassa tehorajoitusten alaisena. Keskimääräinen suhteellinen aika 150 W:n ylärajan alla näkyy sinisenä ja keskimääräinen suhteellinen energiankulutus 150 W:n kohdalla oranssina.

Näissä laajemmassa mittakaavassa tutkijat havaitsivat, että 150 W:n tehonkäyttöön sidottu teho sai aikaan keskimäärin 13.7 % vähemmän energiankulutusta verrattuna oletusarvoiseen 250 W:n maksimiarvoon sekä suhteellisen vähän 6.8 %:n lisäyksen harjoitusaikaan.

Lisäksi tutkijat huomauttavat, että huolimatta pääotsikot että mallikoulutuksen kustannukset ovat kertyneet muutaman viime vuoden aikana, koulutettujen mallien todellisen käytön energiakustannukset ovat paljon korkeampi*.

"Kielen mallintamisessa BERT:llä tehonrajoituksen avulla saadut energiahyödykkeet ovat huomattavasti suuremmat päättelyssä kuin harjoittelussa. Jos tämä pätee muihin tekoälysovelluksiin, tällä voi olla merkittäviä seurauksia energiankulutuksen kannalta suurissa mittakaavassa tai pilvilaskenta-alustoissa, jotka palvelevat johtopäätössovelluksia tutkimuksessa ja teollisuudessa.

Lisäksi ja ehkä kiistanalaisin paperi ehdottaa, että koneoppimismallien suuri koulutus siirretään vuoden kylmimpiin kuukausiin ja yöaikaan jäähdytyskustannusten säästämiseksi.

Yllä PUE-tilastot jokaiselta päivältä 2020 tekijöiden palvelinkeskuksessa, jossa on huomattava ja jatkuva piikki/tasango kesäkuukausina. Alla on PUE:n keskimääräinen tuntivaihtelu samassa paikassa viikon aikana. Energiankulutus kasvaa puolta päivää kohti, koska sekä sisäisen grafiikkasuorittimen jäähdytyslaitteisto että ympäröivän datakeskuksen jäähdytys kamppailevat toimivan lämpötilan ylläpitämisessä.

Yllä PUE-tilastot jokaiselta päivältä 2020 tekijöiden palvelinkeskuksessa, jossa on huomattava ja jatkuva piikki/tasango kesäkuukausina. Alla on PUE:n keskimääräinen tuntivaihtelu samassa paikassa viikon aikana. Energiankulutus kasvaa puolta päivää kohti, koska sekä sisäisen grafiikkasuorittimen jäähdytyslaitteisto että ympäröivän datakeskuksen jäähdytys kamppailevat toimivan lämpötilan ylläpitämisessä.

Kirjoittajat toteavat:

"Ilmeisesti raskaat NLP-työkuormat ovat tyypillisesti paljon tehottomampia kesällä kuin talvella suoritetut. Koska kausivaihtelut ovat suuret, jos niitä on, on laskennallisesti kalliita kokeita, jotka voidaan ajoittaa viileämpiin kuukausiin, tämä ajoitus voi vähentää merkittävästi hiilijalanjälkeä.

Paperissa tunnustetaan myös nousevat energiansäästömahdollisuudet, jotka ovat mahdollisia karsimalla ja optimoimalla malliarkkitehtuuria ja työnkulkuja – vaikka kirjoittajat jättävätkin tämän tien kehittämisen muille aloitteille.

Lopuksi kirjoittajat ehdottavat, että uusia tieteellisiä julkaisuja koneoppimissektorilta rohkaistaan ​​tai ehkä rajoitettaisiin lopettamaan lausunnon, jossa kerrotaan tutkimuksessa tehdyn työn energiankulutuksesta ja työssä ehdotettujen aloitteiden käyttöönoton mahdollisista energiavaikutuksista. .

Paperi kertoo esimerkillään oman tutkimuksensa energiavaikutuksista.

Paperi kertoo esimerkillään oman tutkimuksensa energiavaikutuksista.

- paperi on otsikko Suuri teho, suuri vastuu: Suosituksia energian vähentämiseksi kielimallien koulutusta varten, ja se tulee kuudesta tutkijasta MIT Lincolnissa ja Northeasternissä.

Machine Learningin uhkaava Energy Grab

Kuten koneoppimismallien laskennalliset vaatimukset ovat tehneet kasvoi Yhdessä tulosten hyödyllisyyden kanssa nykyinen ML-kulttuuri rinnastaa energiankulutuksen parantuneeseen suorituskykyyn – huolimatta joistakin merkittävistä kampanjoista, kuten Andrew Ng, mikä viittaa siihen, että tietojen kuratointi voi olla a tärkeämpi tekijä.

Yhdessä keskeinen MIT-yhteistyön Vuodesta 2020 lähtien arvioitiin, että mallin suorituskyvyn kymmenkertainen parannus merkitsee 10,000 XNUMX-kertaista laskentavaatimusta ja vastaavan energiamäärän.

Tämän seurauksena vähemmän tehoa vaativan tehokkaan ML-harjoittelun tutkimus on lisääntynyt muutaman viime vuoden aikana. Kirjoittajien mukaan uusi artikkeli on ensimmäinen, joka tarkastelee syvällisesti tehonrajoitusten vaikutusta koneoppimiskoulutukseen ja -johtopäätöksiin, painottaen NLP-kehyksiä (kuten GPT-sarjaa).

Koska päätelmien laatu on ensiarvoisen tärkeä huolenaihe, kirjoittajat ilmoittavat havainnoistaan ​​heti alussa:

"[Tämä] menetelmä ei vaikuta koulutettujen mallien ennusteisiin tai siten niiden suoritustarkkuuteen tehtävissä. Toisin sanoen, jos kahta verkkoa, joilla on sama rakenne, alkuarvot ja erätiedot, opetetaan samalle määrälle eriä eri tehorajoituksilla, niiden tuloksena saadut parametrit ovat identtiset ja vain niiden tuottamiseen tarvittava energia voi vaihdella.

NLP:n tehon vähentäminen

Arvioidakseen tehorajoitusten vaikutusta koulutukseen ja päätelmiin kirjoittajat käyttivät Nvidia-smi (System Management Interface) -komentorivityökalu yhdessä an MLM-kirjastoy HuggingFacelta.

Kirjoittajat kouluttivat luonnollisen kielen käsittelymalleja BERTI, DistilBERT ja Iso lintu MLM:ssä ja seurasivat heidän virrankulutustaan ​​koulutuksessa ja käyttöönotossa.

Mallit koulutettiin DeepAI:ta vastaan Wikiteksti-103 Tietojoukko neljälle aikakaudelle kahdeksan erissä, 4 V16-grafiikkasuorittimella, neljällä eri tehorajoituksella: 100 W, 100 W, 150 W ja 200 W (oletusarvo tai perusarvo NVIDIA V250 GPU:lle). Malleissa oli naarmuuntuneita parametreja ja satunnaisia ​​aloitusarvoja, jotta koulutusarvioinnit olisivat vertailukelpoisia.

Kuten yllä olevassa ensimmäisessä kuvassa näkyy, tulokset osoittavat hyviä energiansäästöjä epälineaarisella, suotuisalla harjoitusajan pidennyksellä. Kirjoittajat toteavat:

"Kokeilumme osoittavat, että tehorajoitusten käyttöönotto voi vähentää merkittävästi energiankulutusta harjoitusajan kustannuksella."

Laihdutus "Big NLP"

Seuraavaksi kirjoittajat sovelsivat samaa menetelmää vaativampaan skenaarioon: BERT:n koulutukseen MLM:n kanssa hajautetuissa kokoonpanoissa useiden grafiikkasuorittimien välillä – tyypillisempi käyttötapa hyvin rahoitetuille ja paljon julkistettuja FAANG NLP -malleille.

Suurin ero tässä kokeilussa oli, että malli saattoi käyttää missä tahansa 2-400 GPU:ta koulutusinstanssia kohti. Käytettiin samoja virrankäytön rajoituksia ja käytettiin samaa tehtävää (WikiText-103). Katso tulosten kaaviot yllä olevasta toisesta kuvasta.

Paperissa todetaan:

"Kunkin kokoonpanovaihtoehdon keskiarvon mukaan 150 W:n rajattu tehonkäyttö johti keskimäärin 13.7 %:n laskuun energiankulutuksessa ja 6.8 %:n lisäykseen harjoitusajassa oletusmaksimiin verrattuna. [] 100 W:n asetuksella on huomattavasti pidemmät harjoitusajat (31.4 % pidempi keskimäärin). 200 W raja vastaa lähes samaa harjoitusaikaa kuin 250 W raja, mutta vaatimattomampi energiansäästö kuin 150 W raja.

Kirjoittajat ehdottavat, että nämä tulokset tukevat 150 W:n tehonrajoitusta GPU-arkkitehtuureille ja niissä toimiville sovelluksille. He huomauttavat myös, että saavutetut energiansäästöt ulottuvat eri laitteistoalustoille, ja suorittivat testit uudelleen vertaillakseen NVIDIA K80-, T4- ja A100-grafiikkasuorittimien tuloksia.

Kolmella eri NVIDIA-grafiikkasuorittimella saavutettu säästö.

Kolmella eri NVIDIA-grafiikkasuorittimella saavutettu säästö.

Päätelmä, ei harjoittele, syö voimaa

Paperissa viitataan useisiin aikaisempiin tutkimuksiin, jotka osoittavat, että otsikoista huolimatta päätelmä (valmiin mallin, kuten NLP-mallin käyttö) eikä koulutus kuluttaa eniten tehoa, mikä viittaa siihen, että suosittujen mallien kaupallistuessa ja valtavirran, virrankäytöstä voi tulla suurempi ongelma kuin se tällä hetkellä on NLP-kehityksen nousevassa vaiheessa.

Siten tutkijat mittasivat päätelmien vaikutusta virrankäyttöön ja havaitsivat, että tehokattojen asettamisella on huomattava vaikutus päättelyviiveeseen:

'Verrattuna 250 W:iin 100 W vaati kaksinkertaisen päättelyajan (lisäys 114 %) ja kulutti 11.0 % vähemmän energiaa, 150 W vaati 22.7 % enemmän aikaa ja säästi 24.2 % energiaa ja 200 W vaati 8.2 % enemmän aikaa 12.0 % vähemmän. energiaa.'

Talvi koulutus

Paperi ehdottaa, että koulutus (jos ei johtopäätös, ilmeisistä syistä) voitaisiin ajoittaa aikoina, jolloin palvelinkeskuksen tehonkäytön tehokkuus (PUE) on huippuluokkaa – käytännössä siis talvella ja yöllä.

”Merkittävää energiansäästöä voidaan saavuttaa, jos työmäärät voidaan ajoittaa aikoina, jolloin PUE:n odotetaan olevan alhaisempi. Esimerkiksi lyhytaikaisen työn siirtäminen päiväsaikaan yöaikaan voi saada noin 10 % alennuksen, ja pidemmän, kalliin työn (esim. kielimallin valmistuminen kestää viikkoja) siirtäminen kesältä talveen voi saada 33 % alennuksen.

"Vaikka yksittäisen tutkijan saavuttamia säästöjä on vaikea ennustaa, tässä esitetyt tiedot korostavat ympäristötekijöiden merkitystä, jotka vaikuttavat hänen työkuormituksensa kokonaisenergiankulutukseen."

Pidä pilvisenä

Lopuksi julkaisussa todetaan, että kotitekoiset prosessointiresurssit eivät todennäköisesti ole toteuttaneet samoja tehokkuustoimenpiteitä kuin suuret datakeskukset ja korkean tason pilvilaskentalaitteet, ja että ympäristöhyötyjä voitaisiin saavuttaa siirtämällä työkuormia paikkoihin, jotka ovat investoineet paljon hyvään PUE:hen.

"Vaikka yksityisten tietojenkäsittelyresurssien käyttö on kätevää, tämä mukavuus maksaa. Yleisesti ottaen energiansäästö ja vaikutus saavutetaan helpommin suuremmassa mittakaavassa. Palvelinkeskukset ja pilvipalveluntarjoajat investoivat merkittäviä toimitilojensa tehokkuuteen.

 

* Lehden antamat asiaankuuluvat linkit.