Suivez nous sur

Freiner les besoins croissants en puissance de l'apprentissage automatique

Intelligence Artificielle

Freiner les besoins croissants en puissance de l'apprentissage automatique

mm

À la lumière des préoccupations croissantes concernant les besoins énergétiques des grands modèles d'apprentissage automatique, une étude récente du laboratoire Lincoln du MIT et de la Northeastern University a étudié les économies qui peuvent être réalisées grâce aux GPU à limitation de puissance utilisés dans la formation et l'inférence de modèles, ainsi que plusieurs autres techniques et méthodes pour réduire la consommation d’énergie de l’IA.

Le nouveau travail demande également que les nouveaux documents sur l'IA concluent par une « déclaration énergétique » (similaire à la Tendance récente pour les déclarations d'« implications éthiques » dans les articles du secteur de la recherche sur l'apprentissage automatique).

La principale suggestion de ce travail est que le plafonnement de la puissance (limiter la puissance disponible pour le GPU qui entraîne le modèle) offre des avantages intéressants en matière d'économie d'énergie, en particulier pour la modélisation du langage masqué (MLM) et les cadres tels que BERT et ses dérivés.

Réseaux de modélisation trilingue fonctionnant à un pourcentage des paramètres par défaut de 250 W (ligne noire), en termes de consommation d'énergie. La limitation de la consommation d'énergie ne limite pas l'efficacité ou la précision de l'entraînement sur une base 1-1, et offre des économies d'énergie notables à grande échelle. Source : https://arxiv.org/pdf/2205.09646.pdf

Réseaux de modélisation trilingue fonctionnant à un pourcentage des paramètres par défaut de 250 W (ligne noire), en termes de consommation d'énergie. La limitation de la consommation d'énergie ne limite pas l'efficacité ou la précision de l'entraînement sur une base 1-1, et offre des économies d'énergie notables à grande échelle. Source : https://arxiv.org/pdf/2205.09646.pdf

Pour les modèles à plus grande échelle, qui ont retenu l'attention ces dernières années en raison d'ensembles de données à très grande échelle et de nouveaux modèles avec des milliards ou des billions de paramètres, des économies similaires peuvent être obtenues en faisant un compromis entre le temps de formation et la consommation d'énergie.

Entraîner des modèles NLP plus redoutables à grande échelle sous des contraintes de puissance. Le temps relatif moyen sous un plafond de 150 W est indiqué en bleu et la consommation d'énergie relative moyenne pour 150 W en orange.

Entraîner des modèles NLP plus redoutables à grande échelle sous des contraintes de puissance. Le temps relatif moyen sous un plafond de 150 W est indiqué en bleu et la consommation d'énergie relative moyenne pour 150 W en orange.

Pour ces déploiements à plus grande échelle, les chercheurs ont constaté qu'une limite de 150 W sur l'utilisation de l'énergie obtenait une réduction moyenne de 13.7 % de la consommation d'énergie par rapport au maximum par défaut de 250 W, ainsi qu'une augmentation relativement faible de 6.8 % du temps de formation.

De plus, les chercheurs notent que, malgré la titres que le coût de la formation des modèles a augmenté au cours des dernières années, les coûts énergétiques de l'utilisation réelle des modèles formés sont loin augmentation*.

Pour la modélisation du langage avec BERT, les gains énergétiques liés au plafonnement de puissance sont sensiblement plus importants lors de l'inférence que lors de l'apprentissage. Si ce phénomène se confirme pour d'autres applications d'IA, cela pourrait avoir des conséquences importantes en termes de consommation d'énergie pour les plateformes de calcul à grande échelle ou en cloud computing servant aux applications d'inférence pour la recherche et l'industrie.

En outre, et peut-être le plus controversé, l'article suggère que la formation majeure des modèles d'apprentissage automatique soit reléguée aux mois les plus froids de l'année et à la nuit, pour économiser sur les coûts de refroidissement.

Ci-dessus, statistiques PUE pour chaque jour de 2020 dans le centre de données des auteurs, avec un pic/plateau notable et soutenu pendant les mois d'été. Ci-dessous, la variation horaire moyenne du PUE pour le même emplacement au cours d'une semaine, avec une consommation d'énergie augmentant vers le milieu de la journée, car le matériel de refroidissement interne du GPU et le refroidissement ambiant du centre de données peinent à maintenir une température acceptable.

Ci-dessus, statistiques PUE pour chaque jour de 2020 dans le centre de données des auteurs, avec un pic/plateau notable et soutenu pendant les mois d'été. Ci-dessous, variation horaire moyenne du PUE pour le même emplacement au cours d'une semaine, la consommation d'énergie augmentant vers le milieu de la journée, car le matériel de refroidissement interne du GPU et le système de refroidissement ambiant du centre de données peinent à maintenir une température acceptable.

Les auteurs déclarent:

« De toute évidence, les lourdes charges de travail en PNL sont généralement beaucoup moins efficaces en été que celles exécutées en hiver. Compte tenu des fortes variations saisonnières, si des expériences coûteuses en calcul peuvent être programmées pendant les mois les plus frais, ce calendrier peut réduire considérablement l'empreinte carbone. »

Le document reconnaît également les nouvelles possibilités d'économie d'énergie qui sont possibles grâce à l'élagage et à l'optimisation de l'architecture et des flux de travail des modèles - bien que les auteurs laissent le développement de cette voie à d'autres initiatives.

Enfin, les auteurs suggèrent que les nouveaux articles scientifiques du secteur de l'apprentissage automatique soient encouragés, voire contraints, à se terminer par une déclaration déclarant la consommation d'énergie du travail effectué dans la recherche et les implications énergétiques potentielles de l'adoption d'initiatives suggérées dans le travail. .

Le document, donnant l'exemple, explique les implications énergétiques de ses propres recherches.

Le document, donnant l'exemple, explique les implications énergétiques de ses propres recherches.

L'espace papier est intitulé Grande puissance, grande responsabilité : recommandations pour réduire l'énergie des modèles de langage de formation, et provient de six chercheurs du MIT Lincoln et du Nord-Est.

L'accaparement imminent de l'énergie par l'apprentissage automatique

Comme les demandes de calcul pour les modèles d'apprentissage automatique ont increased parallèlement à l'utilité des résultats, la culture ML actuelle assimile la dépense énergétique à l'amélioration des performances - malgré quelques militants notables, comme Andrew Ng, suggérant que la curation des données peut être un facteur plus important.

Dans une collaboration clé du MITn à partir de 2020, il a été estimé qu'une amélioration par dix des performances du modèle entraîne une multiplication par 10,000 XNUMX des besoins de calcul, ainsi qu'une quantité d'énergie correspondante.

Par conséquent, la recherche sur une formation ML efficace et moins gourmande en énergie a augmenté au cours des dernières années. Le nouvel article, selon les auteurs, est le premier à examiner en profondeur l'effet des plafonds de puissance sur la formation et l'inférence en apprentissage automatique, en mettant l'accent sur les cadres NLP (tels que la série GPT).

Étant donné que la qualité de l'inférence est une préoccupation primordiale, les auteurs déclarent d'emblée leurs conclusions :

« Cette méthode n'affecte pas les prédictions des modèles entraînés, ni par conséquent leur précision de performance. Autrement dit, si deux réseaux ayant la même structure, les mêmes valeurs initiales et les mêmes données groupées sont entraînés pour le même nombre de lots sous des plafonds de puissance différents, leurs paramètres résultants seront identiques et seule l'énergie nécessaire à leur production pourra différer. »

Réduire le pouvoir de la PNL

Pour évaluer l'impact des plafonds de puissance sur la formation et l'inférence, les auteurs ont utilisé Nvidia-smi (System Management Interface) utilitaire de ligne de commande, ainsi qu'un Bibliothèque MLMy de HuggingFace.

Les auteurs ont formé des modèles de traitement du langage naturel BERT, DistilBERT et Grand oiseau sur MLM et surveillé leur consommation d'énergie lors de la formation et du déploiement.

Les modèles ont été formés par rapport à DeepAI Texte Wiki-103 ensemble de données pour 4 époques par lots de huit, sur 16 GPU V100, avec quatre plafonds de puissance différents : 100 W, 150 W, 200 W et 250 W (valeur par défaut, ou ligne de base, pour un GPU NVIDIA V100). Les modèles comportaient des paramètres d'apprentissage progressif et des valeurs d'initialisation aléatoires, afin de garantir des évaluations d'apprentissage comparables.

Comme le montre la première image ci-dessus, les résultats démontrent de bonnes économies d'énergie lors d'augmentations favorables non linéaires du temps d'entraînement. Les auteurs déclarent :

« Nos expériences indiquent que la mise en œuvre de plafonds de puissance peut réduire considérablement la consommation d’énergie au détriment du temps de formation. »

Maigrir grâce à la « Big NLP »

Ensuite, les auteurs ont appliqué la même méthode à un scénario plus exigeant : former BERT avec MLM sur des configurations distribuées sur plusieurs GPU - un cas d'utilisation plus typique pour les modèles FAANG NLP bien financés et bien connus.

La principale différence dans cette expérience était qu'un modèle pouvait utiliser entre 2 et 400 GPU par instance d'entraînement. Les mêmes contraintes d'utilisation de l'alimentation ont été appliquées et la même tâche utilisée (WikiText-103). Voir la deuxième image ci-dessus pour les graphiques des résultats.

Le papier déclare:

« En moyenne, pour chaque configuration choisie, une limite de consommation d'énergie de 150 W entraîne une diminution moyenne de 13.7 % de la consommation d'énergie et une augmentation de 6.8 % du temps d'entraînement par rapport au maximum par défaut. Le réglage à 100 W offre des temps d'entraînement nettement plus longs (31.4 % de plus en moyenne). Une limite de 200 W correspond quasiment au même temps d'entraînement qu'une limite de 250 W, mais génère des économies d'énergie plus modestes qu'une limite de 150 W. »

Les auteurs suggèrent que ces résultats prennent en charge le plafonnement de la puissance à 150 W pour les architectures GPU et les applications qui s'exécutent dessus. Ils notent également que les économies d'énergie obtenues se traduisent sur toutes les plates-formes matérielles et ont de nouveau effectué les tests pour comparer les résultats des GPU NVIDIA K80, T4 et A100.

Économies obtenues sur trois GPU NVIDIA différents.

Économies obtenues sur trois GPU NVIDIA différents.

L'inférence, pas l'entraînement, consomme de l'énergie

L'article cite plusieurs études antérieures démontrant que, malgré les gros titres, c'est l'inférence (l'utilisation d'un modèle fini, tel qu'un modèle PNL) et non la formation qui consomme le plus d'énergie, suggérant qu'à mesure que les modèles populaires sont banalisés et entrent dans le courant dominant, la consommation d'énergie pourrait devenir un problème plus important qu'elle ne l'est actuellement à ce stade plus naissant du développement de la PNL.

Ainsi, les chercheurs ont mesuré l'impact de l'inférence sur la consommation d'énergie, constatant que l'imposition de plafonds de puissance a un effet notable sur la latence d'inférence :

« Comparé à 250 W, un réglage de 100 W a nécessité le double de temps d'inférence (une augmentation de 114 %) et a consommé 11.0 % d'énergie en moins, 150 W a nécessité 22.7 % de temps en plus et a économisé 24.2 % d'énergie, et 200 W a nécessité 8.2 % de temps en plus avec 12.0 % d'énergie en moins. »

Entraînement d'hiver

L'article suggère que la formation (sinon l'inférence, pour des raisons évidentes) pourrait être programmée à des moments où le centre de données est à son efficacité énergétique maximale (PUE) – en fait, c'est-à-dire en hiver et la nuit.

"Des économies d'énergie significatives peuvent être obtenues si les charges de travail peuvent être planifiées à des moments où un PUE plus faible est attendu." Par exemple, déplacer un travail de courte durée du jour à la nuit peut entraîner une réduction d'environ 10 %, et déplacer un travail plus long et coûteux (par exemple, un modèle linguistique prenant des semaines) de l'été à l'hiver peut entraîner une réduction de 33 %.

« Bien qu’il soit difficile de prédire les économies qu’un chercheur individuel peut réaliser, les informations présentées ici soulignent l’importance des facteurs environnementaux qui affectent l’énergie globale consommée par leurs charges de travail. »

Gardez-le nuageux

Enfin, l'article observe qu'il est peu probable que les ressources de traitement locales aient mis en œuvre les mêmes mesures d'efficacité que les principaux centres de données et les acteurs du calcul cloud de haut niveau, et que des avantages environnementaux pourraient être obtenus en transférant les charges de travail vers des sites qui ont investi massivement dans un bon PUE.

« Bien qu'il soit pratique de disposer de ressources informatiques privées et accessibles, cette commodité a un coût. En règle générale, les économies d'énergie et l'impact sont plus faciles à obtenir à grande échelle. Les centres de données et les fournisseurs de cloud computing investissent massivement dans l'efficacité de leurs installations. »

 

* Liens pertinents donnés par l'article.

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai