talón Frenar las crecientes necesidades de energía del aprendizaje automático - Unite.AI
Contáctanos

Inteligencia artificial

Frenar las crecientes necesidades de energía del aprendizaje automático

mm
Actualizado on

A la luz de la creciente preocupación por los requisitos de energía de los grandes modelos de aprendizaje automático, un estudio reciente del Laboratorio Lincoln del MIT y la Universidad Northeastern ha investigado los ahorros que se pueden lograr limitando la energía de las GPU empleadas en el entrenamiento y la inferencia de modelos, así como varias otras Técnicas y métodos para reducir el uso de energía de la IA.

El nuevo trabajo también requiere que los nuevos documentos de AI concluyan con una 'Declaración de energía' (similar a la tendencia reciente para declaraciones de 'implicación ética' en artículos del sector de investigación de aprendizaje automático).

La sugerencia principal del trabajo es que la limitación de energía (limitar la energía disponible para la GPU que entrena el modelo) ofrece beneficios de ahorro de energía que valen la pena, particularmente para Modelado de lenguaje enmascarado (MLM) y marcos como BERT y sus derivados.

Redes de modelado de tres idiomas que funcionan a un porcentaje de la configuración predeterminada de 250 W (línea negra), en términos de uso de energía. La restricción del consumo de energía no limita la eficiencia o la precisión del entrenamiento en una base 1-1 y ofrece ahorros de energía que son notables a escala. Fuente: https://arxiv.org/pdf/2205.09646.pdf

Redes de modelado de tres idiomas que funcionan a un porcentaje de la configuración predeterminada de 250 W (línea negra), en términos de uso de energía. La restricción del consumo de energía no limita la eficiencia o la precisión del entrenamiento en una base 1-1 y ofrece ahorros de energía que son notables a escala. Fuente: https://arxiv.org/pdf/2205.09646.pdf

Para los modelos a mayor escala, que han captado la atención en los últimos años debido a los conjuntos de datos a hiperescala y los nuevos modelos con miles de millones o billones de parámetros, se pueden obtener ahorros similares como compensación entre el tiempo de entrenamiento y el uso de energía.

Entrenando modelos de PNL más formidables a escala bajo limitaciones de energía. El tiempo relativo promedio bajo un límite de 150 W se muestra en azul y el consumo de energía relativo promedio para 150 W en naranja.

Entrenando modelos de PNL más formidables a escala bajo limitaciones de energía. El tiempo relativo promedio bajo un límite de 150 W se muestra en azul y el consumo de energía relativo promedio para 150 W en naranja.

Para estas implementaciones a mayor escala, los investigadores encontraron que un límite de 150 W en la utilización de energía obtuvo una reducción promedio del 13.7 % en el uso de energía en comparación con el máximo predeterminado de 250 W, así como un aumento relativamente pequeño del 6.8 % en el tiempo de capacitación.

Además, los investigadores señalan que, a pesar de la titulares que el costo del entrenamiento de modelos se ha acumulado en los últimos años, los costos de energía de usar los modelos entrenados son muchos más alto*.

'Para el modelado de lenguaje con BERT, las ganancias de energía a través de la limitación de potencia son notablemente mayores cuando se realiza una inferencia que para el entrenamiento. Si esto es consistente para otras aplicaciones de IA, esto podría tener ramificaciones significativas en términos de consumo de energía para plataformas de computación en la nube o a gran escala que sirven aplicaciones de inferencia para la investigación y la industria”.

Además, y quizás lo más controvertido, el documento sugiere que la capacitación principal de los modelos de aprendizaje automático se relegue a los meses más fríos del año y a la noche, para ahorrar costos de refrigeración.

Arriba, estadísticas de PUE para cada día de 2020 en el centro de datos de los autores, con un pico/meseta notable y sostenido en los meses de verano. A continuación, la variación horaria promedio en PUE para la misma ubicación en el transcurso de una semana, con un aumento del consumo de energía hacia la mitad del día, ya que tanto el hardware de enfriamiento interno de la GPU como el enfriamiento del centro de datos ambiental luchan por mantener una temperatura viable.

Arriba, estadísticas de PUE para cada día de 2020 en el centro de datos de los autores, con un pico/meseta notable y sostenido en los meses de verano. A continuación, la variación horaria promedio en PUE para la misma ubicación en el transcurso de una semana, con un aumento del consumo de energía hacia la mitad del día, ya que tanto el hardware de enfriamiento interno de la GPU como el enfriamiento del centro de datos ambiental luchan por mantener una temperatura viable.

Los autores declaran:

“Evidentemente, las cargas de trabajo pesadas de PNL suelen ser mucho menos eficientes en el verano que las que se ejecutan durante el invierno. Dada la gran variación estacional, si existe, hay experimentos costosos desde el punto de vista computacional que se pueden programar para los meses más fríos, este momento puede reducir significativamente la huella de carbono”.

El documento también reconoce las posibilidades emergentes de ahorro de energía que son posibles a través de la poda y optimización de la arquitectura del modelo y los flujos de trabajo, aunque los autores dejan un mayor desarrollo de esta vía para otras iniciativas.

Finalmente, los autores sugieren que los nuevos artículos científicos del sector del aprendizaje automático se animen, o tal vez se limiten, a cerrar con una declaración que declare el uso de energía del trabajo realizado en la investigación y las posibles implicaciones energéticas de adoptar iniciativas sugeridas en el trabajo. .

El documento, predicando con el ejemplo, explica las implicaciones energéticas de su propia investigación.

El documento, predicando con el ejemplo, explica las implicaciones energéticas de su propia investigación.

El se titula Gran poder, gran responsabilidad: recomendaciones para reducir la energía para entrenar modelos de lenguaje, y proviene de seis investigadores de MIT Lincoln y Northeastern.

El acaparamiento de energía inminente del aprendizaje automático

Como las demandas computacionales para los modelos de aprendizaje automático han aumentado Junto con la utilidad de los resultados, la cultura ML actual equipara el gasto de energía con un mejor rendimiento, a pesar de algunos activistas notables, como Andrew Ng, lo que sugiere que la curación de datos puede ser una factor más importante.

En uno colaboración clave del MITA partir de 2020, se estimó que una mejora de diez veces en el rendimiento del modelo implica un aumento de 10,000 veces en los requisitos computacionales, junto con la cantidad correspondiente de energía.

En consecuencia, la investigación sobre el entrenamiento efectivo de ML menos intensivo en potencia ha aumentado en los últimos años. El nuevo artículo, afirman los autores, es el primero en analizar en profundidad el efecto de los límites de potencia en el entrenamiento y la inferencia del aprendizaje automático, con énfasis en los marcos de NLP (como la serie GPT).

Dado que la calidad de la inferencia es una preocupación primordial, los autores exponen sus hallazgos desde el principio:

'[Este] método no afecta las predicciones de los modelos entrenados ni, en consecuencia, la precisión de su desempeño en las tareas. Es decir, si dos redes con la misma estructura, valores iniciales y datos por lotes se entrenan para la misma cantidad de lotes con diferentes límites de potencia, sus parámetros resultantes serán idénticos y solo la energía requerida para producirlos puede diferir.

Reducir el poder de la PNL

Para evaluar el impacto de los topes de potencia en el entrenamiento y la inferencia, los autores utilizaron el nvidia-smi (Interfaz de gestión del sistema) utilidad de línea de comandos, junto con una biblioteca MLMy de HuggingFace.

Los autores entrenaron modelos de procesamiento del lenguaje natural. BERTI, DestilarBERT y Gran pájaro sobre MLM, y monitoreó su consumo de energía en entrenamiento y despliegue.

Los modelos fueron entrenados contra DeepAI WikiTexto-103 conjunto de datos para 4 épocas en lotes de ocho, en 16 GPU V100, con cuatro límites de potencia diferentes: 100 W, 150 W, 200 W y 250 W (el valor predeterminado o de referencia para una GPU NVIDIA V100). Los modelos presentaban parámetros entrenados desde cero y valores de inicialización aleatorios, para garantizar evaluaciones de entrenamiento comparables.

Como se ve en la primera imagen de arriba, los resultados demuestran buenos ahorros de energía en aumentos no lineales favorables en el tiempo de entrenamiento. Los autores afirman:

"Nuestros experimentos indican que la implementación de límites de potencia puede reducir significativamente el uso de energía a costa del tiempo de entrenamiento".

Adelgazar 'Gran PNL'

A continuación, los autores aplicaron el mismo método a un escenario más exigente: entrenar BERT con MLM en configuraciones distribuidas en múltiples GPU, un caso de uso más típico para modelos FAANG NLP bien financiados y publicitados.

La principal diferencia en este experimento fue que un modelo podría usar entre 2 y 400 GPU por instancia de entrenamiento. Se aplicaron las mismas restricciones para el uso de energía y se utilizó la misma tarea (WikiText-103). Vea la segunda imagen de arriba para ver los gráficos de los resultados.

El documento dice:

“Haciendo un promedio de cada opción de configuración, un límite de 150 W en la utilización de energía condujo a una disminución promedio del 13.7 % en el uso de energía y un aumento del 6.8 % en el tiempo de entrenamiento en comparación con el máximo predeterminado. [La] configuración de 100 W tiene tiempos de entrenamiento significativamente más largos (un 31.4 % más de media). Un límite de 200 W se corresponde con casi el mismo tiempo de entrenamiento que un límite de 250 W, pero un ahorro de energía más modesto que un límite de 150 W.'

Los autores sugieren que estos resultados respaldan la limitación de potencia a 150 W para las arquitecturas de GPU y las aplicaciones que se ejecutan en ellas. También notaron que los ahorros de energía obtenidos se traducen en todas las plataformas de hardware y realizaron las pruebas nuevamente para comparar los resultados de las GPU NVIDIA K80, T4 y A100.

Ahorros obtenidos en tres GPU NVIDIA diferentes.

Ahorros obtenidos en tres GPU NVIDIA diferentes.

Inferencia, no entrenamiento, come poder

El documento cita varios estudios previos que demuestran que, a pesar de los titulares, es la inferencia (el uso de un modelo terminado, como un modelo de PNL) y no el entrenamiento lo que atrae la mayor cantidad de poder, lo que sugiere que a medida que los modelos populares se mercantilizan y entran en el convencional, el uso de energía podría convertirse en un problema mayor de lo que es actualmente en esta etapa más incipiente del desarrollo de la PNL.

Por lo tanto, los investigadores midieron el impacto de la inferencia en el uso de energía y descubrieron que la imposición de límites de energía tiene un efecto notable en la latencia de la inferencia:

En comparación con 250 W, una configuración de 100 W requirió el doble del tiempo de inferencia (un aumento del 114 %) y consumió un 11.0 % menos de energía, 150 W requirió un 22.7 % más de tiempo y ahorró un 24.2 % de energía, y 200 W requirió un 8.2 % más de tiempo con un 12.0 % menos energía.'

Entrenamiento de invierno

El documento sugiere que la capacitación (si no la inferencia, por razones obvias) podría programarse en momentos en que el centro de datos esté en el pico de Efectividad de uso de energía (PUE), efectivamente, eso es en invierno y por la noche.

'Se pueden obtener ahorros de energía significativos si las cargas de trabajo se pueden programar en momentos en los que se espera un PUE más bajo. Por ejemplo, mover un trabajo de corta duración del día al de noche puede proporcionar una reducción de aproximadamente el 10 %, y mover un trabajo más largo y costoso (por ejemplo, un modelo lingüístico que tarda semanas en completarse) del verano al invierno puede generar una reducción del 33 %.

'Si bien es difícil predecir los ahorros que un investigador individual puede lograr, la información presentada aquí destaca la importancia de los factores ambientales que afectan la energía total consumida por sus cargas de trabajo.'

Mantenlo nublado

Finalmente, el documento observa que es poco probable que los recursos de procesamiento locales hayan implementado las mismas medidas de eficiencia que los principales centros de datos y los jugadores de cómputo en la nube de alto nivel, y que se podrían obtener beneficios ambientales al transferir cargas de trabajo a ubicaciones que han invertido mucho en un buen PUE.

“Si bien es conveniente tener recursos informáticos privados accesibles, esta conveniencia tiene un costo. En términos generales, el ahorro de energía y el impacto se obtienen más fácilmente a escalas más grandes. Los centros de datos y los proveedores de computación en la nube realizan importantes inversiones en la eficiencia de sus instalaciones.'

 

* Enlaces pertinentes proporcionados por el periódico.