ciot Cum să păstrați telefoanele inteligente la rece atunci când rulează modele de învățare automată - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Cum să păstrați telefoanele inteligente la rece atunci când rulează modele de învățare automată

mm
Actualizat on
Sursă imagine: „Tânăr care ține noul Samsung Galaxy S20 Ultra”, de Jonas Leupe, Unsplash - https://unsplash.com/photos/wK-elt11pF0

Cercetătorii de la Universitatea din Austin și Carnegie Mellon au propus o nouă modalitate de a rula modele de învățare automată costisitoare din punct de vedere computațional pe dispozitive mobile, cum ar fi smartphone-uri și pe dispozitive de vârf cu putere redusă, fără a declanșa accelerarea termică – un mecanism de protecție comun în dispozitivele profesionale și de consum, conceput pentru a scădea temperatura dispozitivului gazdă prin încetinirea performanței acestuia, până când se obțin din nou temperaturi de funcționare acceptabile.

Noua abordare ar putea ajuta modelele ML mai complexe să ruleze inferențe și diverse alte tipuri de sarcini fără a amenința stabilitatea, de exemplu, a smartphone-ului gazdă.

Ideea centrală este de a folosi rețele dinamice, În cazul în care greutăți a unui model poate fi accesat atât printr-o versiune „de presiune scăzută”, cât și cu „intensitate maximă” a modelului local de învățare automată.

În cazurile în care funcționarea instalării locale a unui model de învățare automată ar trebui să determine o creștere critică a temperaturii dispozitivului, modelul va trece în mod dinamic la un model mai puțin solicitant până când temperatura este stabilizată și apoi va reveni la un model cu drepturi depline. versiune.

Sarcinile de testare au constat dintr-o sarcină de clasificare a imaginilor și o sarcină de inferență în limbaj natural (QNLI) cu răspunsuri la întrebări – ambele genul de operație care poate implica aplicații mobile AI. Sursa: https://arxiv.org/pdf/2206.10849.pdf

Sarcinile de testare au constat dintr-o sarcină de clasificare a imaginilor și o sarcină de inferență în limbaj natural (QNLI) cu răspunsuri la întrebări – ambele genul de operație care poate implica aplicații mobile AI. Sursă: https://arxiv.org/pdf/2206.10849.pdf

Cercetătorii au efectuat teste de dovadă a conceptului pentru viziunea computerizată și modelele de procesare a limbajului natural (NLP) pe un smartphone Honor V2019 Pro 30 și un Raspberry Pi 4B 4GB.

Din rezultate (pentru smartphone), putem vedea în imaginea de mai jos temperatura dispozitivului gazdă în creștere și scădere odată cu utilizare. Liniile roșii reprezintă un model care rulează fără Schimbarea dinamică.

Deși rezultatele pot părea destul de asemănătoare, nu sunt: ​​ce cauzează ondularea temperaturii pentru albastru linii (adică folosirea metodei noii lucrări) este comutarea înainte și înapoi între versiuni de model mai simple și mai complexe. În nici un moment al operațiunii nu se declanșează niciodata throttlingul termic.

Ce cauzează creșterea și scăderea temperaturii în cazul roșu liniile este cuplarea automată a clapetei termice în dispozitiv, care încetinește funcționarea modelului și crește latența acestuia.

În ceea ce privește cât de utilizabil este modelul, putem vedea în imaginea de mai jos că latența pentru modelul fără ajutor este semnificativ mai mare în timp ce este reglat termic:

În același timp, imaginea de mai sus nu arată aproape nicio variație a latenței pentru modelul care este gestionat de Dynamic Shifting, care rămâne receptiv pe tot parcursul.

Pentru utilizatorul final, latența ridicată poate însemna un timp de așteptare crescut, ceea ce poate cauza abandonarea unei sarcini și nemulțumirea față de aplicația care o găzduiește.

În cazul sistemelor NLP (mai degrabă decât viziunea computerizată), timpii mari de răspuns pot fi și mai neliniștitori, deoarece sarcinile se pot baza pe un răspuns prompt (cum ar fi traducerea automată sau utilitare pentru a ajuta utilizatorii cu dizabilități).

Pentru aplicațiile cu adevărat critice – cum ar fi VR/AR în timp real – o latență ridicată ar distruge în mod eficient utilitatea de bază a modelului.

Cercetătorii afirmă:

„Susținem că limitarea termică reprezintă o amenințare serioasă pentru aplicațiile mobile ML care sunt critice pentru latență. De exemplu, în timpul redării vizuale în timp real pentru streaming video sau jocuri, o creștere bruscă a latenței de procesare per cadru va avea un efect negativ substanțial asupra experienței utilizatorului. De asemenea, sistemele de operare mobile moderne oferă adesea servicii și aplicații speciale pentru persoanele cu deficiențe de vedere, cum ar fi VoiceOver pe iOS și TalkBack pe Android.

„Utilizatorul interacționează de obicei cu telefoanele mobile bazându-se complet pe vorbire, astfel încât calitatea acestor servicii depinde în mare măsură de capacitatea de răspuns sau de latența aplicației”.

Grafice care demonstrează performanța lui BERT w50 d50 fără ajutor și cu ajutorul deplasării dinamice. Observați uniformitatea latenței în Dynamic Shifting (albastru).

Grafice care demonstrează performanța lui BERT w50 d50 fără ajutor (roșu) și ajutat de schimbarea dinamică (albastru). Observați uniformitatea latenței în Dynamic Shifting (albastru).

hârtie se intitulează Play It Cool: Schimbarea dinamică previne accelerarea termică, și este o colaborare între doi cercetători de la UoA; unul de la Carnegie Mellon; și unul reprezentând ambele instituții.

Inteligență artificială mobilă bazată pe CPU

Deși Dynamic Shifting și arhitecturile multi-scale sunt un stabilit si activ zona de studiu, cele mai multe inițiative s-au concentrat pe rețele superioare de dispozitive de calcul, iar locusul efortului în momentul actual este împărțit între optimizarea intensă a rețelelor neuronale locale (adică bazate pe dispozitive), de obicei în scopuri de inferență, mai degrabă decât instruire și îmbunătățirea hardware-ului mobil dedicat.

Testele efectuate de cercetători au fost efectuate mai degrabă pe CPU decât pe cipuri GPU. În ciuda interesul crescând în valorificarea resurselor GPU locale în aplicațiile mobile de învățare automată (și chiar antrenament direct pe dispozitivele mobile, Care ar putea îmbunătăți calitatea a modelului final), GPU-urile consumă de obicei mai multă putere, un factor critic în efortul AI de a fi independente (de serviciile cloud) și utile într-un dispozitiv cu resurse limitate.

Testarea împărțirii greutății

Rețelele testate pentru proiect au fost rețele slimabile și DynaBERT, reprezentând, respectiv, o viziune computerizată și o sarcină bazată pe NLP.

Deși au fost diverse inițiative pentru a face iterații ale BERT care să poată rula eficient și economic pe dispozitive mobile, unele dintre încercări au a fost criticat ca soluții întortocheate, iar cercetătorii din noua lucrare notează că utilizarea BERT în spațiul mobil este o provocare și că „modelele BERT în general sunt prea intensive din punct de vedere computațional pentru telefoanele mobile”.

DynaBERT este o inițiativă chineză de optimizare a puterii Google cadru NLP/NLU în contextul unui mediu lipsit de resurse; dar chiar și această implementare a BERT, au descoperit cercetătorii, a fost foarte solicitantă.

Cu toate acestea, atât pe smartphone, cât și pe dispozitivul Raspberry PI, autorii au efectuat două experimente. În experimentul CV, o singură imagine aleasă aleatoriu a fost procesată continuu și repetitiv în ResNet50 ca sarcină de clasificare și a putut să ruleze stabil și fără a invoca accelerarea termică pentru întreaga oră de rulare a experimentului.

Lucrarea afirmă:

„Deși poate sacrifica o anumită precizie, schimbarea dinamică propusă are o viteză de inferență mai mare. Cel mai important, abordarea noastră Dynamic Shifting se bucură de o inferență consecventă.

Rularea ResNet50 fără ajutor și cu schimbare dinamică între Slimmable ResNet50 x1.0 și versiunea x0.25 pe o sarcină continuă de clasificare a imaginilor, timp de șaizeci de minute.

Rularea ResNet50 fără ajutor și cu schimbare dinamică între Slimmable ResNet50 x1.0 și versiunea x0.25 pe o sarcină continuă de clasificare a imaginilor, timp de șaizeci de minute.

Pentru testele NLP, autorii au stabilit experimentul să treacă între cele mai mici două modele din suita DynaBERT, dar au descoperit că la o latență de 1.4X, BERT se accelerează la aproximativ 70°. Prin urmare, au stabilit ca schimbarea treptată să aibă loc atunci când temperatura de funcționare a atins 65°.

Experimentul BERT a implicat lăsarea instalării să ruleze în mod continuu inferența pe o pereche întrebare/răspuns de la Setul de date ONLI al lui GLUE.

Schimburile de latență și acuratețe au fost mai severe cu sarcina ambițioasă BERT decât pentru implementarea viziunii computerizate, iar precizia a venit în detrimentul unei nevoi mai severe de a controla temperatura dispozitivului, pentru a evita limitarea:

Latența vs acuratețe pentru experimentele cercetătorilor în cele două sarcini sectoriale.

Latența vs acuratețe pentru experimentele cercetătorilor în cele două sarcini sectoriale.

Autorii observă:

„Dynamic Shifting, în general, nu poate împiedica modelele BERT de la throttling termic din cauza intensității computaționale enorme a modelului. Cu toate acestea, sub anumite limitări, schimbarea dinamică poate fi în continuare utilă atunci când se implementează modele BERT pe telefoanele mobile.

Autorii au descoperit că modelele BERT fac ca temperatura procesorului telefonului Honor V30 să crească la 80° în mai puțin de 32 de secunde și vor invoca accelerarea termică în mai puțin de șase minute de activitate. Prin urmare, autorii au folosit doar modele BERT cu jumătate de lățime.

Experimentele au fost repetate pe configurația Raspberry PI, iar tehnica a putut, de asemenea, în acel mediu să prevină declanșarea throttlingului termic. Cu toate acestea, autorii observă că Raspberry PI nu funcționează sub aceleași constrângeri termice extreme ca un smartphone bine ambalat și par să fi adăugat această serie de experimente ca o demonstrație suplimentară a eficacității metodei în medii de procesare echipate modest.

 

Publicat prima dată pe 23 iunie 2022.