stub Sådan holder du smartphones kølige, når de kører maskinlæringsmodeller - Unite.AI
Følg os

Kunstig intelligens

Sådan holder du smartphones kølige, når de kører maskinlæringsmodeller

mm
Opdateret on
Kildebillede: 'Ung mand holder den nye Samsung Galaxy S20 Ultra', af Jonas Leupe, Unsplash - https://unsplash.com/photos/wK-elt11pF0

Forskere fra University of Austin og Carnegie Mellon har foreslået en ny måde at køre beregningsmæssigt dyre maskinlæringsmodeller på mobile enheder som smartphones og på enheder med lavere strømstyrke uden at trigge termisk throttling – en fælles beskyttelsesmekanisme i professionelt udstyr og forbrugerudstyr, designet til at sænke temperaturen på værtsenheden ved at sænke dens ydeevne, indtil der igen opnås acceptable driftstemperaturer.

Den nye tilgang kan hjælpe mere komplekse ML-modeller med at køre inferens og forskellige andre typer opgaver uden at true stabiliteten af ​​for eksempel værtssmartphonen.

Den centrale idé er at bruge dynamiske netværk, Hvor vægte af en model kan tilgås af både en 'lavtryk' og 'fuld intensitet' version af den lokale maskinlæringsmodel.

I tilfælde, hvor driften af ​​den lokale installation af en maskinlæringsmodel skulle få enhedens temperatur til at stige kritisk, vil modellen dynamisk skifte til en mindre krævende model, indtil temperaturen er stabiliseret, og derefter skifte tilbage til den fuldgyldige model. version.

Testopgaverne bestod af et billedklassificeringsjob og en QNLI-opgave (natural language inference) - begge den type operation, der sandsynligvis involverer mobile AI-applikationer. Kilde: https://arxiv.org/pdf/2206.10849.pdf

Testopgaverne bestod af et billedklassificeringsjob og en spørgsmål-besvarende naturlig sproginferens (QNLI) opgave – begge den type operation, der sandsynligvis involverer mobile AI-applikationer. Kilde: https://arxiv.org/pdf/2206.10849.pdf

Forskerne udførte proof-of-concept-tests for computersyn og NLP-modeller (Natural Language Processing) på en 2019 Honor V30 Pro-smartphone og en Raspberry Pi 4B 4GB.

Fra resultaterne (for smartphonen) kan vi se på billedet nedenfor, at temperaturen på værtsenheden stiger og falder med brugen. De røde linjer repræsenterer en model, der kører uden Dynamisk skift.

Selvom resultaterne kan se ret ens ud, er de ikke: hvad får temperaturen til at bølge for i blå linjer (dvs. ved at bruge det nye papirs metode) er skiftet frem og tilbage mellem enklere og mere komplekse modelversioner. På intet tidspunkt i operationen udløses termisk drosling nogensinde.

Hvad får temperaturen til at stige og falde i tilfælde af rød lines er den automatiske indkobling af termisk drosling i enheden, som bremser modellens drift og øger dens latenstid.

Med hensyn til, hvor brugbar modellen er, kan vi se på billedet nedenfor, at latensen for den ikke-støttede model er væsentligt højere, mens den bliver termisk droslet:

Samtidig viser billedet ovenfor næsten ingen variation i latens for modellen, der styres af Dynamic Shifting, som forbliver responsiv hele vejen igennem.

For slutbrugeren kan høj latenstid betyde øget ventetid, hvilket kan forårsage opgivelse af en opgave og utilfredshed med den app, der hoster den.

I tilfælde af NLP-systemer (i stedet for computervision) kan høje svartider være endnu mere foruroligende, da opgaverne kan være afhængige af hurtig respons (såsom automatisk oversættelse eller hjælpeprogrammer til at hjælpe handicappede brugere).

For virkelig tidskritiske applikationer – såsom VR/AR i realtid – ville høj latenstid effektivt dræbe modellens kernenytte.

Forskerne udtaler:

'Vi hævder, at termisk regulering udgør en alvorlig trussel mod mobile ML-applikationer, som er latencyskritiske. For eksempel, under visuel gengivelse i realtid til videostreaming eller spil, vil en pludselig stigning i behandlingsforsinkelse pr. frame have en væsentlig negativ effekt på brugeroplevelsen. Moderne mobile operativsystemer leverer også ofte specielle tjenester og applikationer til synshæmmede personer, såsom VoiceOver på iOS og TalkBack på Android.

'Brugeren interagerer typisk med mobiltelefoner ved at stole fuldstændigt på tale, så kvaliteten af ​​disse tjenester er meget afhængig af applikationens reaktionsevne eller latenstid.'

Grafer, der demonstrerer ydeevnen af ​​BERT w50 d50 uden hjælp og hjulpet af Dynamic Shifting. Bemærk den jævne latens i Dynamic Shifting (blå).

Grafer, der demonstrerer ydeevnen af ​​BERT w50 d50 uden hjælp (rød), og hjulpet af Dynamic Shifting (blå). Bemærk den jævne latens i Dynamic Shifting (blå).

papir er titlen Spil det cool: Dynamisk skift forhindrer termisk drosling, og er et samarbejde mellem to forskere fra UoA; en fra Carnegie Mellon; og en, der repræsenterer begge institutioner.

CPU-baseret mobil AI

Selvom Dynamic Shifting og multi-scale arkitekturer er en etableret og aktiv studieområde, har de fleste initiativer koncentreret sig om avancerede arrays af beregningsenheder, og indsatsstedet på nuværende tidspunkt er delt mellem intens optimering af lokale (dvs. enhedsbaserede) neurale netværk, normalt med henblik på inferens snarere end uddannelse og forbedring af dedikeret mobil hardware.

Testene udført af forskerne blev udført på CPU frem for GPU-chips. På trods af stigende interesse i at udnytte lokale GPU-ressourcer i mobile maskinlæringsapplikationer (og endda træning direkte på mobile enheder, Hvilket kunne forbedre kvaliteten af den endelige model), trækker GPU'er typisk mere strøm, en kritisk faktor i AI's bestræbelser på at være uafhængige (af cloud-tjenester) og nyttige i en enhed med begrænsede ressourcer.

Test af vægtdeling

Netværkene testet for projektet var slankbare netværk , DynaBERT, der repræsenterer henholdsvis en computervision og en NLP-baseret opgave.

Selvom der har været forskellige initiativer at lave gentagelser af BERT, der kan køre effektivt og økonomisk på mobile enheder, har nogle af forsøgene blevet kritiseret som snoede løsninger, og forskerne i det nye papir bemærker, at det er en udfordring at bruge BERT i det mobile rum, og at 'BERT-modeller generelt er for beregningsintensive til mobiltelefoner'.

DynaBERT er et kinesisk initiativ til at optimere Googles kraftfulde NLP/NLU-ramme i sammenhæng med et ressourcesultet miljø; men selv denne implementering af BERT, fandt forskerne, var meget krævende.

Ikke desto mindre kørte forfatterne to eksperimenter på både smartphonen og Raspberry PI-enheden. I CV-eksperimentet blev et enkelt, tilfældigt valgt billede behandlet kontinuerligt og gentagne gange i ResNet50 som en klassifikationsopgave, og var i stand til at køre stabilt og uden at påkalde termisk drosling i hele timen af ​​eksperimentets kørselstid.

Papiret siger:

"Selvom det kan ofre en vis nøjagtighed, har den foreslåede Dynamic Shifting en hurtigere inferenshastighed. Det vigtigste er, at vores Dynamic Shifting-tilgang nyder en konsekvent slutning.'

Kører ResNet50 uden hjælp og med dynamisk skift mellem Slimmable ResNet50 x1.0 og x0.25-versionen på en kontinuerlig billedklassificeringsopgave i tres minutter.

Kører ResNet50 uden hjælp og med dynamisk skift mellem Slimmable ResNet50 x1.0 og x0.25-versionen på en kontinuerlig billedklassificeringsopgave i tres minutter.

For NLP-testene satte forfatterne eksperimentet til at skifte mellem de to mindste modeller i DynaBERT-pakken, men fandt ud af, at ved 1.4X latency drosler BERT ved omkring 70°. De indstillede derfor nedskiftningen til at ske, når driftstemperaturen nåede 65°.

BERT-eksperimentet gik ud på at lade installationen køre inferens kontinuerligt på et spørgsmål/svar-par fra GLUEs ONLI-datasæt.

Afvejningerne mellem latens og nøjagtighed var mere alvorlige med den ambitiøse BERT-opgave end for computervisionsimplementeringen, og nøjagtighed kom på bekostning af et mere alvorligt behov for at kontrollere enhedens temperatur for at undgå drosling:

Latency vs. nøjagtighed for forskernes eksperimenter på tværs af de to sektoropgaver.

Latency vs. nøjagtighed for forskernes eksperimenter på tværs af de to sektoropgaver.

Forfatterne bemærker:

"Dynamisk skift kan generelt ikke forhindre BERT-modeller i termisk drosling på grund af modellens enorme beregningsintensitet. Men under nogle begrænsninger kan dynamisk skift stadig være nyttigt, når BERT-modeller implementeres på mobiltelefoner.'

Forfatterne fandt ud af, at BERT-modeller får Honor V30-telefonens CPU-temperatur til at stige til 80° på under 32 sekunder og vil påkalde termisk drosling på under seks minutters aktivitet. Derfor brugte forfatterne kun halvbredde BERT-modeller.

Eksperimenterne blev gentaget på Raspberry PI opsætningen, og teknikken var også i det miljø i stand til at forhindre udløsning af termisk drosling. Forfatterne bemærker dog, at Raspberry PI ikke fungerer under de samme ekstreme termiske begrænsninger som en tætpakket smartphone og ser ud til at have tilføjet denne række eksperimenter som en yderligere demonstration af metodens effektivitet i beskedent udstyrede behandlingsmiljøer.

 

Først offentliggjort 23. juni 2022.