Inteligență artificială
Cum să țineți smartphone-urile reci atunci când rulează modele de învățare automată

Cercetători de la Universitatea din Austin și Carnegie Mellon au propus o nouă modalitate de a rula modele de învățare automată computațional costisitoare pe dispozitive mobile, cum ar fi smartphone-urile, și pe dispozitive cu putere redusă, fără a declanșa limitarea termică – un mecanism de protecție comun în dispozitivele profesionale și de consum, proiectat pentru a reduce temperatura dispozitivului gazdă, încetinindu-i performanța, până când se obțin din nou temperaturi de funcționare acceptabile.
Noua abordare ar putea ajuta la rularea unor modele ML mai complexe pentru a efectua inferență și diverse alte tipuri de sarcini fără a pune în pericol stabilitatea, de exemplu, a smartphone-ului gazdă.
Ideea centrală este de a utiliza rețele dinamice, unde greutățile unui model pot fi accesate atât de o versiune “joasă presiune” cât și de o versiune “intensitate completă” a modelului local de învățare automată.
În cazurile în care funcționarea modelului local de învățare automată ar trebui să determine o creștere critică a temperaturii dispozitivului, modelul ar comuta dinamic la un model mai puțin solicitant până când temperatura este stabilizată, și apoi ar reveni la versiunea completă.

Sarcinile de testare au constat într-un clasificator de imagini și o sarcină de inferență naturală a limbajului (QNLI) – ambele tipuri de operațiuni care ar putea implica aplicații mobile AI. Sursă: https://arxiv.org/pdf/2206.10849.pdf
Cercetătorii au efectuat teste de concept pentru modele de viziune computerizată și de procesare a limbajului natural (NLP) pe un smartphone Honor V30 Pro din 2019 și pe un Raspberry Pi 4B 4GB.
Din rezultate (pentru smartphone), putem vedea în imaginea de mai jos temperatura dispozitivului gazdă crescând și scăzând odată cu utilizarea. Liniile roșii reprezintă un model care rulează fără Dynamic Shifting.

Deși rezultatele pot părea foarte asemănătoare, ele nu sunt: ceea ce determină temperatura să oscileze pentru liniile albastre (adică utilizând metoda propusă în lucrare) este comutarea între versiuni mai simple și mai complexe ale modelului. În niciun moment al funcționării, limitarea termică nu este declanșată vreodată.
Ceea ce determină temperatura să crească și să scadă în cazul liniilor roșii este angajarea automată a limitării termice în dispozitiv, care încetinește funcționarea modelului și crește latența acestuia.
În ceea ce privește utilizabilitatea modelului, putem vedea în imaginea de mai jos că latența pentru modelul neajutat este semnificativ mai mare în timp ce este supus limitării termice:

În același timp, imaginea de mai sus arată o variație aproape inexistentă a latenței pentru modelul gestionat de Dynamic Shifting, care rămâne răspunsiv pe tot parcursul.
Pentru utilizatorul final, o latență ridicată poate însemna un timp de așteptare mai mare, ceea ce poate duce la abandonarea unei sarcini și la nemulțumirea față de aplicația care o găzduiește.
În cazul sistemelor NLP (și nu al viziunii computerizate), timpii de răspuns ridicați pot fi și mai deranjante, deoarece sarcinile pot depinde de răspunsuri rapide (cum ar fi traducerea automată sau utilitățile pentru a ajuta utilizatorii cu dizabilități).
Pentru aplicațiile cu adevărat critice din punct de vedere al timpului – cum ar fi realitatea virtuală în timp real/AR – o latență ridicată ar putea, în esență, distruge utilitatea de bază a modelului.
Cercetătorii afirmă:
‘Susținem că limitarea termică reprezintă o amenințare gravă pentru aplicațiile mobile ML care sunt critice din punct de vedere al latenței. De exemplu, în timpul renderizării vizuale în timp real pentru streaming video sau jocuri, o creștere bruscă a latenței de procesare pe cadru va avea un efect negativ semnificativ asupra experienței utilizatorului. De asemenea, sistemele de operare mobile moderne oferă adesea servicii și aplicații speciale pentru persoanele cu deficiențe de vedere, cum ar fi VoiceOver pe iOS și TalkBack pe Android. ‘
‘Utilizatorul se bazează în mod normal pe vorbire pentru a interacționa cu telefoanele mobile, astfel încât calitatea acestor servicii depinde foarte mult de răspunsivitatea sau latența aplicației.’

Grafice care demonstrează performanța BERT w50 d50 neajutat (roșu) și ajutat de Dynamic Shifting (albastru). Observați uniformitatea latenței în Dynamic Shifting (albastru).
Lucrarea este intitulată Joacă-te rece: Dynamic Shifting previne limitarea termică și este o colaborare între doi cercetători de la UoA; unul de la Carnegie Mellon; și unul reprezentând ambele instituții.
AI mobil pe bază de CPU
Deși Dynamic Shifting și arhitecturile multi-scară sunt o zona de studiu stabilită și activă, majoritatea inițiativelor s-au concentrat pe dispozitive computaționale de înaltă gamă, iar efortul actual este împărțit între optimizarea intensă a rețelelor neuronale locale (adică a dispozitivului) și îmbunătățirea hardului dedicat mobil.
Testele efectuate de cercetători au fost realizate pe procesoare CPU și nu pe GPU. În ciuda creșterii interesului pentru utilizarea resurselor locale GPU în aplicațiile de învățare automată mobile (și chiar antrenarea direct pe dispozitive mobile, ceea ce ar putea îmbunătăți calitatea modelului final), GPU-urile consumă în general mai multă putere, un factor critic în efortul AI de a fi independent (de serviciile cloud) și util într-un dispozitiv cu resurse limitate.
Testarea împărtășirii greutăților
Rețelele testate pentru proiect au fost rețele subțiri și DynaBERT, reprezentând, respectiv, o sarcină de viziune computerizată și o sarcină NLP.
Deși au existat diverse inițiative de a face iterații ale BERT care să ruleze eficient și economic pe dispozitive mobile, unele dintre aceste încercări au fost criticate ca soluții ocolite, iar cercetătorii noii lucrări notează că utilizarea BERT în spațiul mobil este o provocare și că ‘modelele BERT în general sunt prea intensiv computațional pentru telefoanele mobile’.
DynaBERT este o inițiativă chineză de a optimiza puternicul cadru NLP/NLU al Google în contextul unui mediu sărac în resurse; dar chiar și această implementare a BERT, cercetătorii au constatat, a fost foarte solicitantă.
Cu toate acestea, atât pe smartphone, cât și pe dispozitivul Raspberry PI, autorii au efectuat două experimente. În experimentul CV, o imagine aleasă aleatoriu a fost procesată continuu și repetitiv în ResNet50 ca o sarcină de clasificare și a putut rula stabil și fără a invoca limitarea termică pe tot parcursul orei de funcționare a experimentului.
Lucrarea afirmă:
‘Deși poate sacrifica o anumită precizie, Dynamic Shifting propus are o viteză de inferență mai rapidă. Mai important, abordarea noastră Dynamic Shifting se bucură de o inferență consistentă.’

Rularea ResNet50 neajutat și cu Dynamic Shifting între Slimmable ResNet50 x1.0 și versiunea x0.25 pe o sarcină de clasificare continuă a imaginilor, timp de 60 de minute.
Pentru testele NLP, autorii au setat experimentul să comute între cele două modele mai mici din suita DynaBERT, dar au constatat că la 1,4X latență, BERT limitează la aproximativ 70°. Prin urmare, au setat comutarea la jos să aibă loc atunci când temperatura de funcționare a atins 65°.
Experimentul BERT a implicat rularea continuă a inferenței pe o pereche de întrebare/răspuns din setul de date ONLI al GLUE.
Schimburile de latență și precizie au fost mai severe pentru sarcina BERT ambițioasă decât pentru implementarea viziunii computerizate, iar precizia a venit în detrimentul unei nevoi mai severe de control a temperaturii dispozitivului, pentru a evita limitarea:

Latență vs precizie pentru experimentele cercetătorilor în cele două sarcini.
Autorii observă:
‘Dynamic Shifting, în general, nu poate preveni modelele BERT să nu fie limitate termic, din cauza intensității computaționale uriașe a modelului. Cu toate acestea, în anumite limite, comutarea dinamică poate fi încă utilă atunci când se implementează modele BERT pe telefoane mobile.’
Autorii au constatat că modelele BERT determină temperatura procesorului CPU al telefonului Honor V30 să crească la 80° în mai puțin de 32 de secunde și vor invoca limitarea termică în mai puțin de șase minute de activitate. Prin urmare, autorii au folosit doar modele BERT cu lățime jumătate.
Experimentele au fost repetate pe configurația Raspberry PI, iar tehnica a fost capabilă și în acest mediu să prevină declanșarea limitării termice. Cu toate acestea, autorii notează că Raspberry PI nu funcționează sub aceleași constrângeri termice extreme ca un smartphone încărcat, și par să fi adăugat această serie de experimente ca o demonstrație suplimentară a eficacității metodei în medii de procesare modest echipate.
Publicat pentru prima dată pe 23 iunie 2022.












