Intelligence artificielle
Comment garder les smartphones au frais lorsqu’ils exécutent des modèles d’apprentissage automatique

Les chercheurs de l’Université d’Austin et de Carnegie Mellon ont proposé une nouvelle façon d’exécuter des modèles d’apprentissage automatique coûteux en termes de calcul sur des appareils mobiles tels que les smartphones, et sur des appareils de bord à faible puissance, sans déclencher le ralentissement thermique – un mécanisme de protection courant dans les appareils professionnels et grand public, conçu pour abaisser la température de l’appareil hôte en ralentissant ses performances, jusqu’à ce que des températures de fonctionnement acceptables soient à nouveau atteintes.
La nouvelle approche pourrait aider des modèles ML plus complexes à exécuter des inférences et divers autres types de tâches sans menacer la stabilité, par exemple, du smartphone hôte.
L’idée centrale est d’utiliser des réseaux dynamiques, où les poids d’un modèle peuvent être accessibles à la fois par une version ‘faible pression’ et ‘pleine intensité’ du modèle d’apprentissage automatique local.
Dans les cas où le fonctionnement de l’installation locale d’un modèle d’apprentissage automatique devrait faire monter la température de l’appareil de manière critique, le modèle basculerait dynamiquement vers un modèle moins exigeant jusqu’à ce que la température soit stabilisée, puis basculerait à nouveau vers la version complète.

Les tâches de test consistaient en un travail de classification d’images et une tâche d’inférence de langage naturel (QNLI) – les deux types d’opération susceptibles d’engager les applications d’IA mobile. Source : https://arxiv.org/pdf/2206.10849.pdf
Les chercheurs ont mené des tests de preuve de concept pour des modèles de vision par ordinateur et de traitement du langage naturel (NLP) sur un smartphone Honor V30 Pro de 2019 et un Raspberry Pi 4B 4GB.
À partir des résultats (pour le smartphone), on peut voir dans l’image ci-dessous la température de l’appareil hôte augmentant et diminuant avec l’utilisation. Les lignes rouges représentent un modèle qui fonctionne sans commutation dynamique.

Bien que les résultats puissent sembler très similaires, ils ne le sont pas : ce qui fait que la température oscille pour les lignes bleues (c’est-à-dire en utilisant la méthode du nouveau document) est le basculement entre les versions de modèles plus simples et plus complexes. À aucun moment du fonctionnement, le ralentissement thermique n’est jamais déclenché.
Ce qui fait que la température augmente et diminue dans le cas des lignes rouges est l’engagement automatique du ralentissement thermique dans l’appareil, qui ralentit le fonctionnement du modèle et augmente sa latence.
En termes d’utilisabilité du modèle, on peut voir dans l’image ci-dessous que la latence pour le modèle non aidé est nettement plus élevée tandis qu’il est soumis à un ralentissement thermique :

Au même moment, l’image ci-dessus montre une variation de latence presque nulle pour le modèle géré par la commutation dynamique, qui reste réactif tout au long du processus.
Pour l’utilisateur final, une latence élevée peut signifier un temps d’attente accru, ce qui peut entraîner l’abandon d’une tâche et une insatisfaction à l’égard de l’application qui l’héberge.
Dans le cas des systèmes NLP (plutôt que de la vision par ordinateur), les temps de réponse élevés peuvent être encore plus dérangeants, car les tâches peuvent reposer sur des réponses rapides (comme l’auto-traduction ou les utilitaires pour aider les utilisateurs handicapés).
Pour les applications vraiment critiques en termes de temps – comme la VR/AR en temps réel – une latence élevée tuerait effectivement l’utilité fondamentale du modèle.
Les chercheurs déclarent :
‘Nous soutenons que le ralentissement thermique pose une menace sérieuse aux applications d’IA mobile qui sont critiques en termes de latence. Par exemple, pendant la visualisation en temps réel pour la diffusion vidéo ou le jeu, une augmentation soudaine de la latence de traitement par image aurait un effet négatif important sur l’expérience utilisateur. De plus, les systèmes d’exploitation mobiles modernes offrent souvent des services et des applications spéciaux pour les personnes malvoyantes, comme VoiceOver sur iOS et TalkBack sur Android. ‘
‘L’utilisateur interagit généralement avec les téléphones mobiles en s’appuyant complètement sur la parole, donc la qualité de ces services dépend fortement de la réactivité ou de la latence de l’application.’

Graphiques démontrant les performances de BERT w50 d50 non aidé (rouge) et aidé par la commutation dynamique (bleu). Notez l’uniformité de la latence dans la commutation dynamique (bleu).
Le document est intitulé Play It Cool : Dynamic Shifting Prevents Thermal Throttling, et est une collaboration entre deux chercheurs de l’UoA ; un de Carnegie Mellon ; et un représentant les deux institutions.
IA mobile basée sur CPU
Bien que la commutation dynamique et les architectures multi-échelles soient un domaine d’étude établi et actif, la plupart des initiatives se sont concentrées sur des tableaux de dispositifs de calcul de haute gamme, et le lieu d’effort à l’heure actuelle est divisé entre l’optimisation intense des réseaux de neurones locaux (c’est-à-dire basés sur l’appareil), généralement à des fins d’inférence plutôt que de formation, et l’amélioration du matériel dédié mobile.
Les tests effectués par les chercheurs ont été réalisés sur des puces CPU plutôt que GPU. Malgré l’intérêt croissant pour utiliser les ressources GPU locales dans les applications d’IA mobile (et même la formation directe sur les appareils mobiles, qui pourrait améliorer la qualité du modèle final), les GPU consomment généralement plus de puissance, un facteur critique dans les efforts de l’IA pour être indépendant (des services cloud) et utile dans un appareil à ressources limitées.
Test de partage de poids
Les réseaux testés pour le projet étaient des réseaux minces et DynaBERT, représentant respectivement une tâche de vision par ordinateur et une tâche NLP.
Bien qu’il y ait eu diverses initiatives pour rendre des itérations de BERT qui peuvent fonctionner efficacement et économiquement sur les appareils mobiles, certaines de ces tentatives ont été critiquées comme des solutions de contournement tortueuses, et les chercheurs du nouveau document notent que l’utilisation de BERT dans l’espace mobile est un défi, et que ‘les modèles BERT en général sont trop intensifs en termes de calcul pour les téléphones mobiles’.
DynaBERT est une initiative chinoise pour optimiser le puissant cadre NLP/NLU de Google dans le contexte d’un environnement à ressources restreintes ; mais même cette implémentation de BERT, les chercheurs ont constaté, était très exigeante.
Néanmoins, sur le smartphone et l’appareil Raspberry PI, les auteurs ont exécuté deux expériences. Dans l’expérience CV, une image unique, choisie aléatoirement, a été traitée en continu et de manière répétitive dans ResNet50 comme une tâche de classification, et a pu fonctionner de manière stable et sans invoquer le ralentissement thermique pendant toute la durée de l’expérience.












