Umělá inteligence
Jak udržet chytré telefony chladné, když běží modely strojového učení

Výzkumníci z University of Austin a Carnegie Mellon navrhli nový způsob, jak spouštět výpočetně náročné modely strojového učení na mobilních zařízeních, jako jsou chytré telefony, a na zařízení s nižší výpočetní schopností, bez aktivace termálního omezení – běžného ochranného mechanismu v profesionálních a spotřebitelských zařízeních, který je navržen tak, aby snížil teplotu hostitelského zařízení zpomalením jeho výkonu, dokud nejsou opět získány přijatelné provozní teploty.
Nový přístup by mohl pomoci spustit komplexnější modely ML pro inferenci a různé další typy úloh bez ohrožení stability hostitelského chytrého telefonu.
Centrální myšlenka spočívá v použití dynamických sítí, kde váhy modelu lze získat jak verzí ‘nízkého tlaku’, tak ‘plné intenzity’ lokálního modelu strojového učení.
V případech, kdy by provoz lokální instalace modelu strojového učení měl způsobit kritické zvýšení teploty zařízení, model by se dynamicky přepnul na méně náročnou verzi, dokud teplota nebude stabilizována, a poté by se přepnul zpět na plnohodnotnou verzi.

Testovací úkoly zahrnovaly úloha klasifikace obrazů a úloha otázek a odpovědí pro přirozený jazyk (QNLI) – obě tyto operace jsou pravděpodobně využity v mobilních aplikacích AI. Zdroj: https://arxiv.org/pdf/2206.10849.pdf
Výzkumníci provedli testy pro počítačové vidění a modely zpracování přirozeného jazyka (NLP) na chytrém telefonu Honor V30 Pro z roku 2019 a na zařízení Raspberry Pi 4B 4GB.
Z výsledků (pro chytrý telefon) je vidět na obrázku níže, že teplota hostitelského zařízení stoupá a klesá s použitím. Červené čáry reprezentují model, který běží bez Dynamického přepínání.

Ačkoli výsledky mohou vypadat podobně, nejsou stejné: to, co způsobuje, že teplota kolísá u modrých čar (tj. pomocí metody popsané v novém článku), je přepínání mezi jednoduššími a složitějšími verzemi modelu. V žádném okamžiku provozu není termální omezení nikdy aktivováno.
To, co způsobuje, že teplota stoupá a klesá v případě červených čar, je automatické zapojení termálního omezení v zařízení, které zpomaluje provoz modelu a zvyšuje jeho latenci.
Co se týče použitelnosti modelu, je vidět na obrázku níže, že latence pro neasistovaný model je podstatně vyšší, zatímco je termálně omezen, a to může způsobit zvýšení čekací doby, což může vést k ukončení úkolu a nespokojenosti s aplikací, která ho hostí.
V případě systémů NLP (na rozdíl od počítačového vidění) mohou být vysoké časy odezvy ještě více znepokojivé, protože úkoly mohou záviset na rychlé odpovědi (jako je automatický překlad nebo utility pro pomoc zdravotně postiženým uživatelům).
Pro skutečně kritické aplikace – jako je reálné VR/AR – by vysoké latence efektivní zabily základní užitečnost modelu.
Výzkumníci uvádějí:
‘Argumentujeme, že termální omezení představuje vážnou hrozbu pro mobilní aplikace ML, které jsou kritické pro latenci. Například během reálného vizuálního vykreslování pro streamování videa nebo hraní her bude náhlý nárůst zpracování latence na snímek mít podstatný negativní vliv na uživatelský zážitek. Kromě toho moderní mobilní operační systémy často poskytují speciální služby a aplikace pro zrakově postižené osoby, jako je VoiceOver na iOS a TalkBack na Androidu. ‘
‘Uživatelé se obvykle interaktivně účastní mobilních telefonů, spoléhají se zcela na řeč, takže kvalita těchto služeb je vysoce závislá na odezvě nebo latenci aplikace.’

Grafy prokazující výkon BERT w50 d50 neasistovaného (červená) a pomocí Dynamického přepínání (modrá). Poznámka: rovnoměrnost latence u Dynamického přepínání (modrá).
Článek je nazvaný Play It Cool: Dynamic Shifting Prevents Thermal Throttling a je spoluprací mezi dvěma výzkumníky z UoA; jedním z Carnegie Mellon; a jedním, který reprezentuje obě instituce.
CPU-Based Mobile AI
Ačkoli Dynamické přepínání a multi-škálové architektury jsou zavedenou a aktivní oblastí studia, většina iniciativ se soustředila na vyšší koncepce výpočetních zařízení, a současné úsilí je rozděleno mezi intenzivní optimalizaci lokálních (tj. založených na zařízení) neuronových sítí, obvykle pro účely inferenci spíše než tréninku, a zlepšení věnované mobilnímu hardwaru.
Testy provedené výzkumníky byly provedeny na CPU namísto GPU čipů. Navzdory rostoucímu zájmu o využití lokálních GPU zdrojů v mobilních aplikacích strojového učení (a dokonce tréninku přímo na mobilních zařízeních, které mohou zlepšit kvalitu konečného modelu), GPU typicky vyžadují více energie, což je kritický faktor v úsilí AI být nezávislým (na cloudových službách) a užitečným v zařízení s omezenými zdroji.
Testování sdílení váhy
Sítě testované pro projekt byly štíhlé sítě a DynaBERT, reprezentující, resp. úlohu počítačového vidění a úlohu založenou na NLP.
Ačkoli existovaly různé iniciativy pro vytvoření iterací BERT, které mohou běžet efektivně a ekonomicky na mobilních zařízeních, některé z těchto pokusů byly kritizovány jako zbytečné obejití, a autoři nového článku uvádějí, že použití BERT v mobilním prostoru je výzvou, a že ‘modely BERT jsou obecně příliš výpočetně náročné pro mobilní telefony’.
DynaBERT je čínská iniciativa pro optimalizaci výkonného NLP/NLU rámce od Googlu do kontextu prostředí s omezenými zdroji; ale i tato implementace BERT, výzkumníci zjistili, byla velmi náročná.
Nicméně, na obou chytrém telefonu a zařízení Raspberry PI, autoři provedli dva experimenty. V experimentu CV byla zpracována jediná, náhodně vybraná obrazová klasifikace jako úloha, a byla schopna běžet stabilně a bez aktivace termálního omezení po celou dobu experimentu.
Článek uvádí:
‘Ačkoli to může obětovat一些 přesnost, navrhované Dynamické přepínání má rychlejší dobu inferenci. Nej重要něji, náš přístup Dynamického přepínání má konzistentní inferenci.’

Běh ResNet50 neasistovaného a s Dynamickým přepínáním mezi Slimmable ResNet50 x1.0 a x0.25 verzí na kontinuální úloze klasifikace obrazů, po dobu šedesáti minut.
Pro testy NLP autoři nastavili experiment na přepínání mezi dvěma nejmenšími modely v sadě DynaBERT, ale zjistili, že při 1,4násobné latenci BERT zpomaluje při teplotě kolem 70°. Proto nastavili přepínání na teplotu 65°.
Experiment BERT zahrnoval běh inferenci kontinuálně na otázku/odpověď pár z ONLI datové sady GLUE.
Obchodování latence a přesnosti bylo závažnější u ambiciózní úlohy BERT než u implementace počítačového vidění, a přesnost byla na úkor závažnější potřeby kontroly teploty zařízení, aby se zabránilo zpomalení:

Latence vs přesnost pro experimenty výzkumníků napříč dvěma úkoly.
Autoři pozorují:
‘Dynamické přepínání obecně nemůže zabránit modelům BERT v termálním omezení kvůli enormní výpočetně náročné intenzitě modelu. Nicméně, pod určitými omezeními, dynamické přepínání může být stále užitečné při nasazování modelů BERT na mobilní telefony.’
Autoři zjistili, že modely BERT způsobují, že teplota CPU chytrého telefonu Honor stoupne na 80° za méně než 32 sekund, a aktivuje termální omezení za méně než šest minut aktivity. Proto autoři použili pouze modely BERT o polovině šířky.
Experimenty byly opakovaně provedeny na zařízení Raspberry PI, a technika byla také schopna zabránit aktivaci termálního omezení. Autoři nicméně poznamenávají, že Raspberry PI nepůsobí pod stejnými extrémními termálními omezeními jako těsně zabalený chytrý telefon, a zdá se, že přidali tuto sérii experimentů jako další demonstraci efektivity metody v skromně vybaveném prostředí.
Poprvé zveřejněno 23. června 2022.












