Connect with us

Kunstmatige intelligentie

Hoe smartphones koel te houden wanneer ze machine learning-modellen uitvoeren

mm
Source image: 'Young man holding the new Samsung Galaxy S20 Ultra', by Jonas Leupe, Unsplash - https://unsplash.com/photos/wK-elt11pF0

Onderzoekers van de University of Austin en Carnegie Mellon hebben een nieuwe manier voorgesteld om computationeel kostbare machine learning-modellen uit te voeren op mobiele apparaten zoals smartphones, en op lagere krachtige edge-apparaten, zonder dat thermische begrenzing wordt geactiveerd – een veelvoorkomende beschermingsmechanisme in professionele en consumentenapparaten, ontworpen om de temperatuur van het hostapparaat te verlagen door de prestaties te vertragen, totdat aanvaardbare bedrijfstemperaturen weer worden bereikt.

De nieuwe aanpak kan helpen om complexere ML-modellen uit te voeren voor inferentie en verschillende andere soorten taken zonder de stabiliteit van het hostsmartphone in gevaar te brengen.

Het centrale idee is om dynamiische netwerken te gebruiken, waarbij de gewichten van een model toegankelijk zijn voor zowel een ‘lage druk’ als een ‘volle intensiteit’ versie van het lokale machine learning-model.

In gevallen waarin de werking van de lokale installatie van een machine learning-model de temperatuur van het apparaat kritisch zou doen stijgen, zou het model dynamisch overschakelen naar een minder veeleisend model totdat de temperatuur is gestabiliseerd, en dan terugschakelen naar de volledige versie.

De testtaken bestonden uit een beeldclassificatieopdracht en een vraagbeantwoordingsopdracht voor natuurlijke taal (QNLI) – beide soorten operaties die waarschijnlijk mobiele AI-toepassingen zullen activeren. Bron: https://arxiv.org/pdf/2206.10849.pdf

De testtaken bestonden uit een beeldclassificatieopdracht en een vraagbeantwoordingsopdracht voor natuurlijke taal (QNLI) – beide soorten operaties die waarschijnlijk mobiele AI-toepassingen zullen activeren. Bron: https://arxiv.org/pdf/2206.10849.pdf

De onderzoekers voerden proof-of-concept tests uit voor computer vision- en Natural Language Processing (NLP)-modellen op een 2019 Honor V30 Pro-smartphone en een Raspberry Pi 4B 4GB.

Uit de resultaten (voor de smartphone) kunnen we zien in de onderstaande afbeelding de temperatuur van het hostapparaat stijgen en dalen met gebruik. De rode lijnen vertegenwoordigen een model dat zonder Dynamic Shifting wordt uitgevoerd.

Hoewel de resultaten er vrijwel hetzelfde uit kunnen zien, zijn ze dat niet: wat de temperatuur doet schommelen voor de blauwe lijnen (d.w.z. met behulp van de nieuwe methode van het artikel) is het schakelen heen en weer tussen eenvoudigere en complexere modelversies. Op geen enkel moment tijdens de werking wordt thermische begrenzing ooit geactiveerd.

Wat de temperatuur doet stijgen en dalen in het geval van de rode lijnen is de automatische activering van thermische begrenzing in het apparaat, die de werking van het model vertraagt en de latentie verhoogt.

In termen van hoe bruikbaar het model is, kunnen we zien in de onderstaande afbeelding dat de latentie voor het ongeassisteerde model aanzienlijk hoger is terwijl het wordt thermisch begrensd:

Tegelijkertijd toont de bovenstaande afbeelding bijna geen variatie in latentie voor het model dat wordt beheerd door Dynamic Shifting, dat de hele tijd responsief blijft.

Voor de eindgebruiker kan hoge latentie betekenen dat de wachttijd toeneemt, wat kan leiden tot het afbreken van een taak en ontevredenheid met de app die het host.

In het geval van NLP (in plaats van computer vision) systemen, kunnen hoge responstijden nog verontrustender zijn, omdat de taken mogelijk afhankelijk zijn van een prompte reactie (zoals auto-vertaling, of hulpmiddelen voor gehandicapte gebruikers).

Voor echt tijd-kritische toepassingen – zoals real-time VR/AR – zou hoge latentie effectief de kernbruikbaarheid van het model doden.

De onderzoekers stellen:

‘We betogen dat thermische begrenzing een ernstige bedreiging vormt voor mobiele ML-toepassingen die latentie-kritisch zijn. Bijvoorbeeld, tijdens real-time visuele rendering voor video-streaming of gaming, zal een plotselinge toename van de verwerking latentie per frame een aanzienlijk negatief effect hebben op de gebruikerservaring. Bovendien bieden moderne mobiele besturingssystemen vaak speciale diensten en toepassingen voor visueel gehandicapte personen, zoals VoiceOver op iOS en TalkBack op Android.

‘De gebruiker interacteert typisch met mobiele telefoons door volledig te vertrouwen op spraak, dus de kwaliteit van deze diensten is zeer afhankelijk van de responsiviteit of de latentie van de toepassing.’

Grafieken die de prestaties van BERT w50 d50 ongeassisteerd en geholpen door Dynamic Shifting demonstreren. Let op de gelijkmatigheid van de latentie in Dynamic Shifting (blauw).

Grafieken die de prestaties van BERT w50 d50 ongeassisteerd (rood) en geholpen door Dynamic Shifting (blauw) demonstreren. Let op de gelijkmatigheid van de latentie in Dynamic Shifting (blauw).

Het artikel heet Play It Cool: Dynamic Shifting Prevents Thermal Throttling, en is een samenwerking tussen twee onderzoekers van UoA; één van Carnegie Mellon; en één die beide instellingen vertegenwoordigt.

CPU-gebaseerde mobiele AI

Hoewel Dynamic Shifting en multi-schaalarchitecturen een gevestigd en actief onderzoeksgebied zijn, hebben de meeste initiatieven zich gericht op hoogwaardige rekenarrays en is het huidige onderzoeksgebied verdeeld tussen intensieve optimalisatie van lokale (d.w.z. apparaatgebonden) neurale netwerken, meestal voor inferentie in plaats van training, en de verbetering van toegewijde mobiele hardware.

De tests die door de onderzoekers werden uitgevoerd, werden uitgevoerd op CPU in plaats van GPU-chips. Ondanks groeiende interesse in het gebruik van lokale GPU-bronnen in mobiele machine learning-toepassingen (en zelfs direct trainen op mobiele apparaten, wat de kwaliteit van het eindmodel kan verbeteren), verbruiken GPU’s typisch meer stroom, een kritische factor in AI’s inspanning om onafhankelijk te zijn (van cloudservices) en nuttig te zijn in een apparaat met beperkte middelen.

Testen van gewichtsdelen

De netwerken die voor het project werden getest, waren slimmable netwerken en DynaBERT, die respectievelijk een computer vision- en een NLP-gebaseerde taak vertegenwoordigen.

Hoewel er verschillende initiatieven zijn geweest om iteraties van BERT te maken die efficiënt en economisch kunnen worden uitgevoerd op mobiele apparaten, zijn sommige van deze pogingen bekritiseerd als omslachtige workarounds, en merken de onderzoekers van het nieuwe artikel op dat het gebruik van BERT in de mobiele ruimte een uitdaging is, en dat ‘BERT-modellen in het algemeen te computationeel intensief zijn voor mobiele telefoons’.

DynaBERT is een Chinese initiatief om Google’s krachtige NLP/NLU-framework te optimaliseren in de context van een omgeving met schaarse middelen; maar zelfs deze implementatie van BERT, vonden de onderzoekers, was zeer veeleisend.

Nonetheless, op zowel de smartphone als de Raspberry PI-apparaat, voerden de auteurs twee experimenten uit. In het CV-experiment werd één willekeurig gekozen afbeelding continu en herhaaldelijk verwerkt in ResNet50 als een classificatieopdracht, en kon deze stabiel en zonder het activeren van thermische begrenzing worden uitgevoerd voor de hele uur van de experimenteerperiode.

Het artikel stelt:

‘Hoewel het enige precisie kan opofferen, heeft de voorgestelde Dynamic Shifting een snellere inferentiesnelheid. Het belangrijkste is dat onze Dynamic Shifting-benadering een consistente inferentie heeft.’

ResNet50 uitvoeren zonder hulp en met Dynamic Shifting tussen Slimmable ResNet50 x1.0 en de x0.25-versie op een continue beeldclassificatieopdracht, voor zestig minuten.

ResNet50 uitvoeren zonder hulp en met Dynamic Shifting tussen Slimmable ResNet50 x1.0 en de x0.25-versie op een continue beeldclassificatieopdracht, voor zestig minuten.

Voor de NLP-tests stelden de auteurs het experiment in om te schakelen tussen de twee kleinste modellen in de DynaBERT-suite, maar vonden dat bij 1,4X latentie, BERT begrensd wordt bij ongeveer 70°. Zij stelden de neergeschakeling daarom in om te gebeuren wanneer de bedrijfstemperatuur 65° bereikte.

Het BERT-experiment bestond uit het continu laten uitvoeren van de installatie op een vraag/antwoordpaar van GLUE’s ONLI-dataset.

De latentie- en precisietrades waren ernstiger bij de ambitieuze BERT-taak dan bij de computer vision-implementatie, en kwam precisie ten koste van een ernstiger behoefte om de apparaattemperatuur te controleren, om begrenzing te voorkomen:

Latentie vs precisie voor de experimenten van de onderzoekers over de twee sectortaken.

Latentie vs precisie voor de experimenten van de onderzoekers over de twee sectortaken.

De auteurs merken op:

‘Dynamic Shifting kan in het algemeen niet voorkomen dat BERT-modellen thermische begrenzing ondergaan vanwege de enorme computationele intensiteit van het model. Echter, onder bepaalde beperkingen, kan dynamische schakeling nog steeds nuttig zijn bij het implementeren van BERT-modellen op mobiele telefoons.’

De auteurs vonden dat BERT-modellen de CPU-temperatuur van de Honor V30-telefoon doen stijgen tot 80° in minder dan 32 seconden, en zullen thermische begrenzing activeren in minder dan zes minuten activiteit. Daarom gebruikten de auteurs alleen halfbrede BERT-modellen.

De experimenten werden herhaald op de Raspberry PI-opstelling, en de techniek was ook in die omgeving in staat om het activeren van thermische begrenzing te voorkomen. Echter, de auteurs merken op dat de Raspberry PI niet onder dezelfde extreme thermische beperkingen werkt als een strak verpakte smartphone, en lijken deze reeks experimenten te hebben toegevoegd als een verdere demonstratie van de effectiviteit van de methode in bescheiden uitgeruste verwerkomgevingen.

 

Eerst gepubliceerd op 23 juni 2022.

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.