peň Ako udržať smartfóny v pohode, keď používajú modely strojového učenia - Unite.AI
Spojte sa s nami

Umelá inteligencia

Ako udržať smartfóny v pohode, keď používajú modely strojového učenia

mm
Aktualizované on
Zdrojový obrázok: „Mladý muž, ktorý drží nový Samsung Galaxy S20 Ultra“, od Jonas Leupe, Unsplash – https://unsplash.com/photos/wK-elt11pF0

Výskumníci z University of Austin a Carnegie Mellon navrhli nový spôsob, ako spustiť výpočtovo nákladné modely strojového učenia na mobilných zariadeniach, ako sú smartfóny, a na zariadeniach s nižším výkonom bez spúšťania. tepelné škrtenie – bežný ochranný mechanizmus v profesionálnych a spotrebiteľských zariadeniach určený na zníženie teploty hostiteľského zariadenia spomalením jeho výkonu, kým sa opäť nedosiahnu prijateľné prevádzkové teploty.

Nový prístup by mohol pomôcť zložitejším modelom ML spustiť odvodenie a rôzne iné typy úloh bez toho, aby ohrozili stabilitu napríklad hostiteľského smartfónu.

Hlavnou myšlienkou je použitie dynamických sietí, Kde závažia k modelu je možné pristupovať prostredníctvom verzie „nízkotlakovej“ aj „plnej intenzity“ miestneho modelu strojového učenia.

V prípadoch, keď by prevádzka lokálnej inštalácie modelu strojového učenia mala spôsobiť kritické zvýšenie teploty zariadenia, model by sa dynamicky prepol na menej náročný model, kým sa teplota nestabilizovala, a potom by sa prepol späť na plnohodnotný verzia.

Testovacie úlohy pozostávali z úlohy klasifikácie obrázkov a úlohy odpovedania na otázky v prirodzenom jazyku (QNLI) – obe operácie, ktoré pravdepodobne zapoja mobilné aplikácie AI. Zdroj: https://arxiv.org/pdf/2206.10849.pdf

Testovacie úlohy pozostávali z úlohy klasifikácie obrázkov a úlohy odpovedania na otázky v prirodzenom jazyku (QNLI) – obe operácie, ktoré pravdepodobne zapoja mobilné aplikácie AI. Zdroj: https://arxiv.org/pdf/2206.10849.pdf

Výskumníci vykonali overovacie testy pre počítačové videnie a modely spracovania prirodzeného jazyka (NLP) na smartfóne Honor V2019 Pro 30 a Raspberry Pi 4B 4GB.

Z výsledkov (pre smartfón) vidíme na obrázku nižšie, ako teplota hostiteľského zariadenia stúpa a klesá s používaním. Červené čiary predstavujú bežiaci model bez Dynamické radenie.

Hoci výsledky môžu vyzerať dosť podobne, nie sú: čo spôsobuje vlnenie teploty modrý linky (tj pomocou novej papierovej metódy) je prepínanie tam a späť medzi jednoduchšími a zložitejšími verziami modelu. V žiadnom bode prevádzky sa nikdy nespustí tepelné škrtenie.

Čo spôsobuje zvýšenie a zníženie teploty v prípade červená lines je automatické zapojenie tepelného škrtenia v zariadení, ktoré spomaľuje chod modelu a zvyšuje jeho latenciu.

Pokiaľ ide o použiteľnosť modelu, na obrázku nižšie vidíme, že latencia pre model bez pomoci je výrazne vyššia, keď je tepelne škrtený:

Vyššie uvedený obrázok zároveň neukazuje takmer žiadne odchýlky v latencii pre model, ktorý spravuje Dynamic Shifting, ktorý zostáva po celý čas citlivý.

Pre koncového používateľa môže vysoká latencia znamenať predĺženie čakacej doby, čo môže spôsobiť opustenie úlohy a nespokojnosť s aplikáciou, ktorá ju hostí.

V prípade systémov NLP (a nie počítačového videnia) môžu byť vysoké časy odozvy ešte znepokojujúcejšie, pretože úlohy môžu závisieť od rýchlej odozvy (ako je automatický preklad alebo pomocné programy na pomoc hendikepovaným používateľom).

Pri skutočne časovo kritických aplikáciách – ako je VR/AR v reálnom čase – by vysoká latencia účinne zničila základnú užitočnosť modelu.

Výskumníci uvádzajú:

„Tvrdíme, že tepelné škrtenie predstavuje vážnu hrozbu pre mobilné aplikácie ML, ktoré sú kritické z hľadiska latencie. Napríklad počas vizuálneho vykresľovania v reálnom čase pre streamovanie videa alebo hranie hier bude mať náhly nárast latencie spracovania na snímku podstatný negatívny vplyv na používateľskú skúsenosť. Moderné mobilné operačné systémy tiež často poskytujú špeciálne služby a aplikácie pre jednotlivcov so zrakovým postihnutím, ako napríklad VoiceOver v systéme iOS a TalkBack v systéme Android.

„Používateľ zvyčajne komunikuje s mobilnými telefónmi tak, že sa úplne spolieha na reč, takže kvalita týchto služieb veľmi závisí od odozvy alebo latencie aplikácie.“

Grafy demonštrujúce výkon BERT w50 d50 bez pomoci as pomocou dynamického radenia. Všimnite si rovnomernosť latencie v dynamickom posune (modrá).

Grafy demonštrujúce výkon BERT w50 d50 bez pomoci (červená) a pomocou dynamického radenia (modrá). Všimnite si rovnomernosť latencie v dynamickom posune (modrá).

papier je s názvom Play It Cool: Dynamické radenie zabraňuje tepelnému škrteniu, a je spoluprácou dvoch výskumníkov z UoA; jeden od Carnegie Mellon; a jeden zastupujúci obe inštitúcie.

Mobilná AI založená na CPU

Hoci dynamické radenie a viacúrovňové architektúry sú zavedené a aktívne V oblasti štúdia sa väčšina iniciatív sústredila na špičkové polia výpočtových zariadení a ťažisko úsilia je v súčasnosti rozdelené medzi intenzívnu optimalizáciu lokálnych (tj zariadení založených) neurónových sietí, zvyčajne skôr na účely dedukcie ako školenia a zlepšenie špeciálneho mobilného hardvéru.

Testy vykonané výskumníkmi boli vykonané na CPU a nie na GPU čipoch. Napriek tomu rastúci záujem pri využívaní miestnych zdrojov GPU v aplikáciách mobilného strojového učenia (a dokonca školenia priamo na mobilných zariadeniach, Ktorý mohli zlepšiť kvalitu konečného modelu), GPU zvyčajne spotrebúvajú viac energie, čo je kritický faktor v snahe AI ​​byť nezávislá (od cloudových služieb) a užitočná v zariadení s obmedzenými zdrojmi.

Testovanie zdieľania hmotnosti

Siete testované pre projekt boli štíhle siete a DynaBERT, ktorý predstavuje počítačové videnie a úlohu založenú na NLP.

Aj keď boli rôzne iniciatívy vykonať iterácie BERT, ktoré môžu bežať efektívne a hospodárne na mobilných zariadeniach, niektoré z pokusov sa uskutočnili bola kritizovaná ako kľukaté riešenia a výskumníci nového článku poznamenávajú, že používanie BERT v mobilnom priestore je výzvou a že „modely BERT sú vo všeobecnosti príliš náročné na výpočtové práce pre mobilné telefóny“.

DynaBERT je čínska iniciatíva na optimalizáciu výkonných nástrojov Google Rámec NLP/NLU v kontexte prostredia s nedostatkom zdrojov; ale aj táto implementácia BERT, zistili výskumníci, bola veľmi náročná.

Napriek tomu autori vykonali dva experimenty na smartfóne aj na zariadení Raspberry PI. V experimente CV sa nepretržite a opakovane spracovával jeden náhodne vybraný obrázok ResNet50 ako klasifikačná úloha a bol schopný bežať stabilne a bez vyvolania tepelného škrtenia počas celej hodiny trvania experimentu.

Príspevok uvádza:

„Aj keď to môže obetovať určitú presnosť, navrhované dynamické radenie má vyššiu rýchlosť odvodzovania. Najdôležitejšie je, že náš prístup Dynamic Shifting má konzistentné závery.“

Spustenie ResNet50 bez pomoci a s dynamickým posunom medzi Slimmable ResNet50 x1.0 a x0.25 verziou pri nepretržitej úlohe klasifikácie obrázkov počas šesťdesiatich minút.

Spustenie ResNet50 bez pomoci a s dynamickým posunom medzi Slimmable ResNet50 x1.0 a x0.25 verziou pri nepretržitej úlohe klasifikácie obrázkov počas šesťdesiatich minút.

Pre testy NLP autori nastavili experiment na posun medzi dvoma najmenšími modelmi v súprave DynaBERT, ale zistili, že pri 1.4-násobnej latencii BERT škrtí okolo 70°. Preto nastavili radenie nadol, keď prevádzková teplota dosiahne 65°.

Experiment BERT zahŕňal ponechanie inštalácie bežať nepretržite na základe dvojice otázka/odpoveď ONLI dátový súbor GLUE.

Kompromisy latencie a presnosti boli pri ambicióznej úlohe BERT prísnejšie ako pri implementácii počítačového videnia a presnosť prišla na úkor prísnejšej potreby kontrolovať teplotu zariadenia, aby sa predišlo škrteniu:

Latencia verzus presnosť pre experimenty výskumníkov v rámci dvoch sektorových úloh.

Latencia verzus presnosť pre experimenty výskumníkov v rámci dvoch sektorových úloh.

Autori pozorujú:

„Dynamic Shifting vo všeobecnosti nemôže zabrániť modelom BERT v tepelnom škrtení kvôli obrovskej výpočtovej intenzite modelu. Avšak za určitých obmedzení môže byť dynamické radenie stále užitočné pri nasadzovaní modelov BERT na mobilných telefónoch.

Autori zistili, že modely BERT spôsobujú zvýšenie teploty procesora telefónu Honor V30 na 80 ° za menej ako 32 sekúnd a vyvolajú tepelné škrtenie za menej ako šesť minút aktivity. Preto autori použili iba modely BERT s polovičnou šírkou.

Experimenty sa opakovali na nastavení Raspberry PI a technika bola schopná aj v tomto prostredí zabrániť spusteniu tepelného škrtenia. Autori však poznamenávajú, že Raspberry PI nepracuje pri rovnakých extrémnych tepelných obmedzeniach ako pevne zabalené smartfóny a zdá sa, že pridali tento rad experimentov ako ďalšiu demonštráciu účinnosti metódy v skromne vybavených prostrediach spracovania.

 

Prvýkrát uverejnené 23. júna 2022.