Intelligenza artificiale
Come Tenere Freschi gli Smartphone Quando Eseguono Modelli di Machine Learning

I ricercatori dell’Università di Austin e di Carnegie Mellon hanno proposto un nuovo modo per eseguire modelli di machine learning computazionalmente costosi su dispositivi mobili come gli smartphone e su dispositivi edge a bassa potenza, senza attivare il thermal throttling – un meccanismo di protezione comune nei dispositivi professionali e consumer, progettato per abbassare la temperatura del dispositivo host rallentando le sue prestazioni, fino a quando non vengono raggiunte temperature di funzionamento accettabili.
Il nuovo approccio potrebbe aiutare modelli ML più complessi a eseguire inferenza e vari altri tipi di attività senza minacciare la stabilità, ad esempio, dello smartphone host.
L’idea centrale è quella di utilizzare reti dinamiche, dove i pesi di un modello possono essere accessibili sia da una versione ‘a bassa pressione’ che da una versione ‘a intensità piena’ del modello di machine learning locale.
In casi in cui l’esecuzione del modello di machine learning locale potrebbe causare un aumento critico della temperatura del dispositivo, il modello si passerà dinamicamente a un modello meno esigente fino a quando la temperatura non sarà stabilizzata, e poi si passerà nuovamente alla versione completa.

I compiti di test consistevano in un lavoro di classificazione di immagini e in un compito di inferenza linguistica naturale di risposta a domande (QNLI) – entrambi i tipi di operazione probabilmente coinvolti in applicazioni di intelligenza artificiale mobile. Fonte: https://arxiv.org/pdf/2206.10849.pdf
I ricercatori hanno condotto test di prova di concetto per modelli di visione computerizzata e di elaborazione del linguaggio naturale (NLP) su uno smartphone Honor V30 Pro del 2019 e su un Raspberry Pi 4B 4GB.
Dai risultati (per lo smartphone), possiamo vedere nell’immagine in basso la temperatura del dispositivo host che sale e scende con l’uso. Le linee rosse rappresentano un modello in esecuzione senza Dynamic Shifting.

Sebbene i risultati possano sembrare molto simili, non lo sono: ciò che causa la fluttuazione della temperatura per le linee blu (cioè utilizzando il nuovo metodo) è il passaggio avanti e indietro tra versioni di modelli più semplici e più complessi. In nessun momento dell’operazione viene attivato il thermal throttling.
Ciò che causa l’aumento e la diminuzione della temperatura nel caso delle linee rosse è l’attivazione automatica del thermal throttling nel dispositivo, che rallenta l’esecuzione del modello e aumenta la latenza.
In termini di quanto il modello sia utilizzabile, possiamo vedere nell’immagine in basso che la latenza per il modello non assistito è significativamente più alta mentre è soggetto a thermal throttling:

Allo stesso tempo, l’immagine in alto mostra quasi nessuna variazione di latenza per il modello gestito da Dynamic Shifting, che rimane reattivo in tutto.
Per l’utente finale, una latenza alta può significare un aumento del tempo di attesa, che può causare l’abbandono di un’attività e insoddisfazione per l’app che la ospita.
Nel caso dei sistemi NLP (piuttosto che della visione computerizzata), i tempi di risposta alti possono essere ancora più inquietanti, poiché le attività possono dipendere da risposte rapide (come l’auto-traduzione o le utility per utenti disabili).
Per applicazioni veramente critiche per il tempo – come la realtà virtuale o aumentata in tempo reale – una latenza alta ucciderebbe efficacemente l’utilità fondamentale del modello.












