Inteligjenca artificiale

Ulja e nevojave në rritje për fuqi të mësimit të makinerive

Përditësuar on Dhjetor 9, 2022

Në dritën e shqetësimit në rritje në lidhje me kërkesat për energji të modeleve të mëdha të mësimit të makinerive, një studim i fundit nga MIT Lincoln Laboratory dhe Northeastern University ka hetuar kursimet që mund të bëhen nga GPU-të me mbulim të energjisë të përdorura në trajnimin dhe përfundimin e modeleve, si dhe disa të tjera. teknikat dhe metodat e reduktimit të përdorimit të energjisë së AI.

Puna e re gjithashtu kërkon që dokumentet e reja të AI të përfundojnë me një 'Deklaratë të Energjisë' (të ngjashme me prirja e fundit për deklaratat 'implikimi etik' në dokumente nga sektori i kërkimit të mësimit të makinerive).

Sugjerimi kryesor nga puna është se kufizimi i fuqisë (kufizimi i fuqisë së disponueshme për GPU-në që trajnon modelin) ofron përfitime të vlefshme të kursimit të energjisë, veçanërisht për Modelimin e Gjuhës së Maskuar (MLM) dhe korniza të tilla si BERT dhe derivatet e tij.

Tre rrjete të modelimit të gjuhëve që funksionojnë në një përqindje të cilësimeve të paracaktuara 250 W (vijë e zezë), për sa i përket përdorimit të energjisë. Kufizimi i konsumit të energjisë nuk kufizon efikasitetin ose saktësinë e stërvitjes në bazë 1-1 dhe ofron kursime të energjisë që janë të dukshme në shkallë. Burimi: https://arxiv.org/pdf/2205.09646.pdf

Për modelet në shkallë më të madhe, të cilat kanë tërhequr vëmendjen vitet e fundit për shkak të grupeve të të dhënave në shkallë të lartë dhe modeleve të reja me miliarda ose triliona parametra, kursime të ngjashme mund të merren si një shkëmbim ndërmjet kohës së trajnimit dhe përdorimit të energjisë.

Trajnimi i modeleve më të frikshme NLP në shkallë nën kufizimet e fuqisë. Koha mesatare relative nën një kapak 150 W tregohet me blu dhe konsumi mesatar relativ i energjisë për 150 W në portokalli.

Për këto vendosje në shkallë më të lartë, studiuesit zbuluan se një kufi prej 150 W në përdorimin e energjisë përftoi një ulje mesatare prej 13.7% në përdorimin e energjisë krahasuar me maksimumin e paracaktuar prej 250 W, si dhe një rritje relativisht të vogël prej 6.8% në kohën e trajnimit.

Për më tepër, studiuesit vërejnë se, pavarësisht nga titujt që kostoja e trajnimit të modeleve është mbledhur gjatë viteve të fundit, kostot e energjisë të përdorimit të vërtetë të modeleve të trajnuara janë larg më i lartë*.

"Për modelimin e gjuhës me BERT, fitimet e energjisë përmes mbulimit të fuqisë janë dukshëm më të mëdha kur kryeni konkluzion sesa për stërvitje. Nëse kjo është konsistente për aplikacionet e tjera të AI, kjo mund të ketë pasoja të rëndësishme për sa i përket konsumit të energjisë për platformat kompjuterike në shkallë të gjerë ose cloud që shërbejnë aplikime konkluzionesh për kërkimin dhe industrinë.'

Më tej, dhe ndoshta më e diskutueshme, dokumenti sugjeron që trajnimi kryesor i modeleve të mësimit të makinerive të zhvendoset në muajt më të ftohtë të vitit dhe në natën, për të kursyer në kostot e ftohjes.

Më sipër, statistikat e PUE për çdo ditë të vitit 2020 në qendrën e të dhënave të autorëve, me një rritje të dukshme dhe të qëndrueshme në muajt e verës. Më poshtë, variacioni mesatar për orë në PUE për të njëjtin vend në rrjedhën e një jave, me konsumin e energjisë që rritet drejt mesit të ditës, pasi si pajisja e brendshme e ftohjes së GPU-së ashtu edhe ftohja e qendrës së të dhënave të ambientit luftojnë për të mbajtur një temperaturë të zbatueshme.

Autorët shprehen:

“Me sa duket, ngarkesat e rënda të punës NLP janë zakonisht shumë më pak efikase në verë sesa ato të ekzekutuara gjatë dimrit. Duke pasur parasysh ndryshimin e madh sezonal, nëse ka, ka eksperimente të shtrenjta llogaritëse që mund të kalojnë në muajt më të ftohtë, kjo kohë mund të zvogëlojë ndjeshëm gjurmën e karbonit.'

Dokumenti pranon gjithashtu mundësitë e reja të kursimit të energjisë që janë të mundshme përmes krasitjes dhe optimizimit të arkitekturës së modelit dhe rrjedhave të punës – megjithëse autorët ia lënë zhvillimin e mëtejshëm të kësaj rruge iniciativave të tjera.

Së fundi, autorët sugjerojnë që punimet e reja shkencore nga sektori i mësimit të makinerive të inkurajohen, ose ndoshta të kufizohen, për t'u mbyllur me një deklaratë që deklaron përdorimin e energjisë së punës së kryer në kërkim dhe implikimet e mundshme të energjisë nga miratimi i iniciativave të sugjeruara në punë. .

Punimi, i cili jep shembull, shpjegon implikimet energjetike të kërkimit të tij.

La letër titullohet Fuqi e madhe, përgjegjësi e madhe: Rekomandime për reduktimin e energjisë për modelet e gjuhës së trajnimit, dhe vjen nga gjashtë studiues në MIT Lincoln dhe Northeastern.

Kapja e Energjisë në Rrjedhin e Mësimit të Makinerisë

Siç ka kërkesat llogaritëse për modelet e mësimit të makinerive rritur së bashku me dobinë e rezultateve, kultura aktuale e ML barazon shpenzimin e energjisë me performancën e përmirësuar – pavarësisht nga disa aktivistë të dukshëm, si Andrew Ng, duke sugjeruar që kurimi i të dhënave mund të jetë a faktor më i rëndësishëm.

Në një bashkëpunimi kryesor i MITNga viti 2020, u vlerësua se një përmirësim dhjetëfish i performancës së modelit sjell një rritje 10,000 herë në kërkesat llogaritëse, së bashku me një sasi korresponduese të energjisë.

Rrjedhimisht, hulumtimi në trajnimin efektiv të ML-së me më pak energji intensive është rritur gjatë viteve të fundit. Punimi i ri, pretendojnë autorët, është i pari që hedh një vështrim të thellë në efektin e kapakëve të fuqisë në trajnimin dhe konkluzionet e mësimit të makinerive, me një theks në kornizat NLP (siç është seria GPT).

Meqenëse cilësia e përfundimit është një shqetësim kryesor, autorët deklarojnë gjetjet e tyre në fillim:

'[Kjo] metodë nuk ndikon në parashikimet e modeleve të trajnuara ose rrjedhimisht saktësinë e performancës së tyre në detyra. Kjo do të thotë, nëse dy rrjete me të njëjtën strukturë, vlera fillestare dhe të dhëna të grumbulluara trajnohen për të njëjtin numër grupesh nën kapak të ndryshëm fuqie, parametrat e tyre rezultues do të jenë identikë dhe vetëm energjia e nevojshme për t'i prodhuar ato mund të ndryshojë.'

Ulja e energjisë për NLP

Për të vlerësuar ndikimin e kapakëve të fuqisë në trajnim dhe konkluzion, autorët përdorën nvidia-smi (System Management Interface) mjeti i linjës së komandës, së bashku me një Biblioteka MLMy nga HuggingFace.

Autorët trajnuan modele të përpunimit të gjuhës natyrore BERTI, DistilBERT Zogu i Madh mbi MLM, dhe monitoroi konsumin e tyre të energjisë në trajnim dhe vendosje.

Modelet u trajnuan kundër DeepAI's WikiText-103 Të dhënat e të dhënave për 4 epoka në grupe prej tetë, në 16 GPU V100, me katër kapele të ndryshme të fuqisë: 100W, 150W, 200W dhe 250W (parazgjedhja, ose vija bazë, për një GPU NVIDIA V100). Modelet paraqisnin parametra të trajnuar me gërvishtje dhe vlera fillestare të rastësishme, për të siguruar vlerësime të krahasueshme të trajnimit.

Siç shihet në imazhin e parë më lart, rezultatet tregojnë kursime të mira të energjisë në rritje jolineare dhe të favorshme në kohën e stërvitjes. Autorët shprehen:

"Eksperimentet tona tregojnë se zbatimi i tapave të energjisë mund të reduktojë ndjeshëm përdorimin e energjisë me koston e kohës së trajnimit."

Dobesim 'NLP e madhe'

Më pas, autorët aplikuan të njëjtën metodë për një skenar më kërkues: trajnimin e BERT me MLM mbi konfigurimet e shpërndara nëpër GPU të shumta - një rast përdorimi më tipik për modelet FAANG NLP të financuara mirë dhe të mirëpublikuara.

Dallimi kryesor në këtë eksperiment ishte se një model mund të përdorte diku midis 2-400 GPU për shembull trajnimi. U zbatuan të njëjtat kufizime për përdorimin e energjisë dhe u përdor e njëjta detyrë (WikiText-103). Shihni imazhin e dytë më lart për grafikët e rezultateve.

Në punim thuhet:

Mesatarisht në çdo zgjedhje të konfigurimit, një kufi 150 W në përdorimin e energjisë çoi në një ulje mesatare prej 13.7% në përdorimin e energjisë dhe 6.8% rritje në kohën e trajnimit krahasuar me maksimumin e paracaktuar. [Cilësimi] 100 W ka kohë trajnimi dukshëm më të gjata (mesatarisht 31.4% më e gjatë). Një limit 200 W korrespondon me pothuajse të njëjtën kohë trajnimi si një kufi 250 W, por kursime më modeste të energjisë sesa një kufi 150 W.'

Autorët sugjerojnë që këto rezultate mbështesin mbulimin e fuqisë në 150 W për arkitekturat GPU dhe aplikacionet që funksionojnë në to. Ata gjithashtu vënë në dukje se kursimet e fituara të energjisë përkthehen nëpër platforma harduerike dhe kryen përsëri testet për të krahasuar rezultatet për GPU-të NVIDIA K80, T4 dhe A100.

Kursimet e marra në tre GPU të ndryshme NVIDIA.

Konkluzioni, jo trajnimi, ha fuqi

Gazeta citon disa studime të mëparshme që demonstrojnë se, pavarësisht nga titujt, është konkluzioni (përdorimi i një modeli të përfunduar, siç është një model NLP) dhe jo trajnimi që tërheq sasinë më të madhe të fuqisë, duke sugjeruar që modelet e njohura komodohen dhe hyjnë në e zakonshme, përdorimi i energjisë mund të bëhet një problem më i madh sesa është aktualisht në këtë fazë më të sapolindur të zhvillimit të NLP.

Kështu, studiuesit matën ndikimin e konkluzionit në përdorimin e energjisë, duke gjetur se vendosja e kufijve të fuqisë ka një efekt të dukshëm në vonesën e konkluzionit:

Krahasuar me 250W, një cilësim 100W kërkonte dyfishin e kohës së përfundimit (një rritje 114%) dhe konsumonte 11.0% më pak energji, 150W kërkonte 22.7% më shumë kohë dhe kursente 24.2% energji dhe 200W kërkonte 8.2% më shumë kohë me 12.0% më pak energji.'

Stërvitje dimërore

Punimi sugjeron që trajnimi (nëse jo konkluzion, për arsye të dukshme) mund të planifikohet në momentet kur qendra e të dhënave është në kulmin e Efikasitetit të Përdorimit të Energjisë (PUE) – në mënyrë efektive, kjo është në dimër dhe gjatë natës.

Kursime të konsiderueshme të energjisë mund të arrihet nëse ngarkesat e punës mund të planifikohen në momentet kur pritet një PUE më e ulët. Për shembull, zhvendosja e një pune afatshkurtër nga dita në natë mund të sigurojë një reduktim afërsisht 10% dhe zhvendosja e një pune më të gjatë dhe të shtrenjtë (p.sh. një model gjuhe që kërkon javë për të përfunduar) nga vera në dimër mund të ketë një ulje prej 33%.

"Ndërsa është e vështirë të parashikohen kursimet që mund të arrijë një studiues individual, informacioni i paraqitur këtu thekson rëndësinë e faktorëve mjedisorë që ndikojnë në energjinë e përgjithshme të konsumuar nga ngarkesat e tyre të punës."

Mbajeni me re

Së fundi, dokumenti vëren se burimet e përpunimit në shtëpi nuk ka gjasa të kenë zbatuar të njëjtat masa efikasiteti si qendrat kryesore të të dhënave dhe lojtarët e nivelit të lartë të kompjuterit cloud, dhe se përfitimet mjedisore mund të fitohen duke transferuar ngarkesat e punës në vende që kanë investuar shumë në PUE të mirë.

“Ndërsa ka lehtësi për të pasur burime private kompjuterike që janë të aksesueshme, kjo lehtësi vjen me një kosto. Në përgjithësi, kursimet dhe ndikimi i energjisë arrihet më lehtë në shkallë më të mëdha. Qendrat e të dhënave dhe ofruesit e informatikës cloud bëjnë investime të konsiderueshme në efikasitetin e objekteve të tyre.'

* Lidhjet përkatëse të dhëna nga gazeta.

Temat e ngjashme:energji Efikasitetin e Energjisë hulumtim

E rradhes

Teknika e re e AI mund të përmirësojë parashikimet e zjarrit

Mos e humbas

IA e re gjurmon shëndetin e shkëmbinjve koralorë

Martin Anderson

Shkrimtar për mësimin e makinerive, inteligjencën artificiale dhe të dhënat e mëdha.
Faqja personale: martinanderson.ai
Kontaktoni: [email mbrojtur]
Twitter: @manders_ai

Bashkohu.AI

Ulja e nevojave në rritje për fuqi të mësimit të makinerive

Inteligjenca artificiale

Ulja e nevojave në rritje për fuqi të mësimit të makinerive

Përmbajtje