Angle d’Anderson
Comment garder les smartphones au frais lorsqu’ils exécutent des modèles d’apprentissage automatique

Des chercheurs de l’Université d’Austin et de Carnegie Mellon ont proposé une nouvelle façon d’exécuter des modèles d’apprentissage automatique coûteux en termes de calcul sur des appareils mobiles tels que les smartphones, et sur des appareils de bord à faible puissance, sans déclencher le ralentissement thermique – un mécanisme de protection courant dans les appareils professionnels et grand public, conçu pour abaisser la température de l’appareil hôte en ralentissant ses performances, jusqu’à ce que des températures de fonctionnement acceptables soient à nouveau obtenues.
La nouvelle approche pourrait aider des modèles d’apprentissage automatique plus complexes à exécuter des inférences et divers autres types de tâches sans menacer la stabilité, par exemple, du smartphone hôte.
L’idée centrale est d’utiliser des réseaux dynamiques, où les poids d’un modèle peuvent être accessibles à la fois par une version « faible pression » et une version « pleine intensité » du modèle d’apprentissage automatique local.
Dans les cas où le fonctionnement de l’installation locale d’un modèle d’apprentissage automatique devrait faire monter la température de l’appareil de manière critique, le modèle basculerait dynamiquement vers un modèle moins exigeant jusqu’à ce que la température soit stabilisée, puis basculerait à nouveau vers la version complète.

Les tâches de test consistaient en un travail de classification d’images et en une tâche d’inférence de langage naturel (QNLI) – les deux types d’opérations susceptibles d’impliquer des applications d’IA mobile. Source: https://arxiv.org/pdf/2206.10849.pdf
Les chercheurs ont mené des tests de preuve de concept pour des modèles de vision par ordinateur et de traitement du langage naturel (NLP) sur un smartphone Honor V30 Pro de 2019 et un Raspberry Pi 4B 4GB.
À partir des résultats (pour le smartphone), on peut voir dans l’image ci-dessous la température de l’appareil hôte augmenter et diminuer avec l’utilisation. Les lignes rouges représentent un modèle fonctionnant sans commutation dynamique.

Bien que les résultats puissent sembler assez similaires, ils ne le sont pas: ce qui fait que la température fluctue pour les lignes bleues (c’est-à-dire en utilisant la nouvelle méthode) est le basculement entre les versions de modèles plus simples et plus complexes. À aucun moment du fonctionnement, le ralentissement thermique n’est jamais déclenché.
Ce qui fait que la température augmente et diminue dans le cas des lignes rouges est l’engagement automatique du ralentissement thermique dans l’appareil, qui ralentit le fonctionnement du modèle et augmente sa latence.
En termes d’utilisabilité du modèle, on peut voir dans l’image ci-dessous que la latence pour le modèle non aidé est nettement plus élevée tandis qu’il est soumis à un ralentissement thermique:

En même temps, l’image ci-dessus montre une variation de latence presque nulle pour le modèle géré par la commutation dynamique, qui reste réactif tout au long du processus.
Pour l’utilisateur final, une latence élevée peut signifier un temps d’attente accru, ce qui peut entraîner l’abandon d’une tâche et une insatisfaction à l’égard de l’application qui l’héberge.
Dans le cas des systèmes NLP (plutôt que de la vision par ordinateur), des temps de réponse élevés peuvent être encore plus dérangeants, car les tâches peuvent dépendre d’une réponse rapide (telle que la traduction automatique ou les utilitaires pour aider les utilisateurs handicapés).
Pour les applications vraiment critiques en termes de temps – telles que la réalité virtuelle ou augmentée en temps réel – une latence élevée tuerait effectivement l’utilité fondamentale du modèle.
Les chercheurs déclarent:
‘Nous soutenons que le ralentissement thermique pose une menace sérieuse aux applications d’apprentissage automatique mobile qui sont critiques en termes de latence. Par exemple, pendant la visualisation en temps réel pour la diffusion vidéo ou le jeu, une augmentation soudaine de la latence de traitement par image aurait un effet négatif important sur l’expérience utilisateur. De plus, les systèmes d’exploitation mobiles modernes fournissent souvent des services et des applications spéciaux pour les personnes ayant des déficiences visuelles, tels que VoiceOver sur iOS et TalkBack sur Android.
‘L’utilisateur interagit généralement avec les téléphones mobiles en s’appuyant complètement sur la parole, donc la qualité de ces services dépend fortement de la réactivité ou de la latence de l’application.’

Graphiques démontrant les performances de BERT w50 d50 non aidé (rouge) et aidé par la commutation dynamique (bleu). Notez la régularité de la latence dans la commutation dynamique (bleu).
L’article est intitulé Play It Cool: Dynamic Shifting Prevents Thermal Throttling, et est une collaboration entre deux chercheurs de l’UoA ; un de Carnegie Mellon ; et un représentant les deux institutions.
IA mobile basée sur le CPU
Bien que la commutation dynamique et les architectures multi-échelles soient un domaine de recherche établi et actif, la plupart des initiatives se sont concentrées sur des ensembles de dispositifs de calcul de haute gamme, et le lieu d’effort actuel est divisé entre l’optimisation intense des réseaux de neurones locaux (c’est-à-dire basés sur l’appareil) à des fins d’inférence plutôt que de formation, et l’amélioration du matériel mobile dédié.
Les tests effectués par les chercheurs ont été réalisés sur des puces CPU plutôt que GPU. Malgré l’intérêt croissant pour exploiter les ressources GPU locales dans les applications d’apprentissage automatique mobile (et même la formation directe sur les appareils mobiles, qui pourrait améliorer la qualité du modèle final), les GPU consomment généralement plus de puissance, un facteur critique dans les efforts de l’IA pour être indépendante (des services cloud) et utile dans un appareil à ressources limitées.
Test de partage de poids
Les réseaux testés pour le projet étaient des réseaux minces et DynaBERT, représentant respectivement une tâche de vision par ordinateur et une tâche NLP.
Bien qu’il y ait eu diverses initiatives pour créer des itérations de BERT qui peuvent fonctionner efficacement et économiquement sur les appareils mobiles, certaines de ces tentatives ont été critiquées comme des solutions de contournement tortueuses, et les chercheurs de la nouvelle étude notent que l’utilisation de BERT dans l’espace mobile est un défi, et que « les modèles BERT en général sont trop intensifs en calcul pour les téléphones mobiles ».
DynaBERT est une initiative chinoise pour optimiser le puissant cadre NLP/NLU de Google dans le contexte d’un environnement à ressources restreintes ; mais même cette implémentation de BERT, les chercheurs ont constaté, était très exigeante.
Cependant, sur le smartphone et l’appareil Raspberry PI, les auteurs ont effectué deux expériences. Dans l’expérience de vision par ordinateur, une image unique, choisie au hasard, a été traitée en continu et de manière répétitive dans ResNet50 en tant que tâche de classification, et a pu fonctionner de manière stable et sans invoquer le ralentissement thermique pendant toute la durée de l’expérience.
L’article indique:
‘Bien que cela puisse sacrifier une certaine précision, la commutation dynamique proposée a une vitesse d’inférence plus rapide. Le plus important, notre approche de commutation dynamique bénéficie d’une inférence cohérente.’

Exécution de ResNet50 non aidé et avec commutation dynamique entre Slimmable ResNet50 x1.0 et la version x0.25 sur une tâche de classification d’images continue, pendant soixante minutes.
Pour les tests NLP, les auteurs ont réglé l’expérience pour basculer entre les deux plus petits modèles de la suite DynaBERT, mais ont constaté qu’à 1,4 fois la latence, BERT ralentit à environ 70°. Ils ont donc réglé le basculement pour qu’il se produise lorsque la température de fonctionnement atteint 65°.
L’expérience BERT a consisté à laisser l’installation fonctionner en continu sur une paire de questions/réponses de l’ensemble de données ONLI de GLUE.
Les compromis entre latence et précision étaient plus graves avec la tâche BERT ambitieuse que pour la mise en œuvre de la vision par ordinateur, et la précision est venue au prix d’un besoin plus grave de contrôler la température de l’appareil, afin d’éviter le ralentissement:

Latence vs précision pour les expériences des chercheurs à travers les deux tâches sectorielles.
Les auteurs observent:
‘La commutation dynamique, en général, ne peut pas empêcher les modèles BERT de subir un ralentissement thermique en raison de l’intensité computationnelle énorme du modèle. Cependant, sous certaines limitations, la commutation dynamique peut toujours être utile lors du déploiement de modèles BERT sur les téléphones mobiles.’
Les auteurs ont constaté que les modèles BERT font monter la température du CPU du téléphone Honor V30 à 80° en moins de 32 secondes, et invoquent le ralentissement thermique en moins de six minutes d’activité. Par conséquent, les auteurs n’ont utilisé que des modèles BERT à demi-largeur.
Les expériences ont été répétées sur la configuration Raspberry PI, et la technique a également pu empêcher le déclenchement du ralentissement thermique dans cet environnement. Cependant, les auteurs notent que le Raspberry PI ne fonctionne pas sous les mêmes contraintes thermiques extrêmes qu’un smartphone étroitement emballé, et semblent avoir ajouté cette série d’expériences comme une démonstration supplémentaire de l’efficacité de la méthode dans des environnements de traitement modérément équipés.
Publié pour la première fois le 23 juin 2022.












