Inteligencia artificial
¿Puedes construir modelos de lenguaje grande como ChatGPT a la mitad del costo?

Modelos de lenguaje grande (LLMs) como GPT-3 y ChatGPT han revolucionado la IA al ofrecer capacidades de comprensión del lenguaje natural y generación de contenido. Pero su desarrollo conlleva un costo elevado que limita la accesibilidad y la investigación adicional. Los investigadores estiman que el entrenamiento de GPT-3 costó a OpenAI alrededor de $5 millones. Sin embargo, Microsoft reconoció el potencial y invirtió $1.000 millones en 2019 y $10.000 millones en 2023 en la empresa GPT-3 y ChatGPT de OpenAI.
Los LLM son modelos de aprendizaje automático entrenados en datos textuales extensivos para aplicaciones de NLP. Se basan en la arquitectura de transformadores y utilizan mecanismos de atención para tareas de NLP como la respuesta a preguntas, la traducción automática, el análisis de sentimientos, etc.
La pregunta surge: ¿se puede aumentar la eficiencia de estos modelos grandes mientras se reduce el costo computacional y el tiempo de entrenamiento?
Se han desarrollado varios enfoques, como Redes Neuronales Progresivas, Morfismo de Redes, paralelismo de modelos intra-capas, herencia de conocimientos, etc., para reducir el costo computacional del entrenamiento de redes neuronales. El enfoque novedoso LiGO (Operador de Crecimiento Lineal) que discutiremos está estableciendo un nuevo estándar. Reduce a la mitad el costo computacional del entrenamiento de LLM.
Antes de discutir esta técnica, es esencial examinar los factores que contribuyen al alto costo de crear LLM.
Costo de construir modelos de lenguaje grande
Tres gastos principales para desarrollar LLM son los siguientes:
1. Recursos computacionales
Construir LLM requiere recursos computacionales masivos para entrenar en grandes conjuntos de datos. Deben procesar miles de millones de parámetros y aprender patrones complejos a partir de datos textuales masivos.
La inversión en hardware especializado como Unidades de Procesamiento Gráfico (GPUs) y Unidades de Procesamiento de Tensor (TPUs) es necesaria para construir y entrenar LLM para lograr un rendimiento de clase mundial.
Por ejemplo, GPT-3 se entrenó en una supercomputadora con 10.000 GPUs de clase empresarial (H100 y A100) y 285.000 núcleos CPU.
2. Consumo de energía
Los recursos computacionales intensivos necesarios para construir LLM resultan en un consumo significativo de energía. Por ejemplo, entrenar 175.000 millones de parámetros de GPT-3 tomó 14,8 días utilizando 10.000 GPUs V100, equivalente a 3,55 millones de horas de GPU. Un nivel de consumo de energía tan alto tiene efectos ambientales significativos.
3. Almacenamiento y gestión de datos
Los LLM se entrenan en grandes conjuntos de datos. Por ejemplo, GPT-3 se entrenó en un vasto corpus de datos textuales, incluyendo Common Crawl, WebText2, Books1, Books2 y Wikipedia, entre otras fuentes. Se requiere una inversión significativa en infraestructura para recopilar, curar y almacenar estos conjuntos de datos.
También se requiere almacenamiento en la nube para el almacenamiento de datos y la experiencia humana para el preprocesamiento de datos y el control de versiones. Además, garantizar que su estrategia de datos cumpla con regulaciones como el GDPR también agrega costo.
Técnica LiGO: reducir el costo de construir modelos de lenguaje grande a la mitad
LiGO (Operador de Crecimiento Lineal) es una técnica novedosa desarrollada por investigadores del MIT para reducir el costo computacional del entrenamiento de LLM en un 50%. El método implica inicializar los pesos de modelos más grandes a partir de los de modelos más pequeños preentrenados, lo que permite una escalabilidad eficiente de las redes neuronales.

Imagen del artículo: Aprender a crecer modelos preentrenados para el entrenamiento eficiente de transformadores
Yoon Kim, el autor principal del artículo, dice:
“Se ha estimado que entrenar modelos a la escala de lo que se supone que ejecuta ChatGPT podría tomar millones de dólares solo para una sola ejecución de entrenamiento. ¿Podemos mejorar la eficiencia de estos métodos de entrenamiento para que podamos obtener buenos modelos en menos tiempo y por menos dinero? Proponemos hacerlo aprovechando modelos de lenguaje más pequeños que se han entrenado previamente.”
Este método mantiene los beneficios de rendimiento de los modelos más grandes con un costo computacional reducido y un tiempo de entrenamiento comparado con el entrenamiento de un modelo grande desde cero. LiGO utiliza un operador de crecimiento lineal basado en datos que combina operadores de profundidad y anchura para un rendimiento óptimo.
El artículo utilizó varios conjuntos de datos para realizar experimentos basados en texto, incluyendo el corpus de Wikipedia en inglés para entrenar modelos BERT y RoBERTa y el conjunto de datos C4 para entrenar GPT2.
La experimentación con la técnica LiGO incluyó el crecimiento de BERT-Pequeño a BERT-Base, BERT-Base a BERT-Grande, RoBERTa-Pequeño a RoBERTa-Base, GPT2-Base a GPT2-Medio y CaiT-XS a CaiT-S.
Los investigadores compararon su enfoque con varios otros, incluyendo el entrenamiento desde cero, el entrenamiento progresivo, bert2BERT y KI.
La técnica LiGO ofreció un ahorro del 44,7% en operaciones de punto flotante por segundo (FLOPs) y un ahorro del 40,7% en tiempo de pared en comparación con el entrenamiento de BERT-Base desde cero al reutilizar el modelo BERT-Pequeño. El operador de crecimiento LiGO supera a StackBERT, MSLT, bert2BERT y KI en entrenamiento eficiente.
Beneficios de utilizar una técnica de optimización de entrenamiento como LiGO
LiGO es un método de entrenamiento de redes neuronales eficiente que tiene varios beneficios que se enumeran a continuación:
1. Entrenamiento más rápido
Como se mencionó anteriormente, el entrenamiento más rápido es la principal ventaja de la técnica LiGO. Entrena LLM en la mitad del tiempo, aumentando la productividad y reduciendo los costos.
2. Eficiencia de recursos
LiGO es eficiente en recursos ya que minimiza el tiempo de pared y las FLOPs, lo que conduce a un enfoque más rentable y respetuoso con el medio ambiente para el entrenamiento de modelos de transformadores grandes.
3. Generalización
La técnica LiGO ha mejorado el rendimiento de transformadores de lenguaje y visión, lo que sugiere que es una técnica generalizable que se puede aplicar a varias tareas.
Construir productos de IA comerciales es solo un aspecto de los gastos generales asociados con los sistemas de IA. Otro componente significativo de costos proviene de las operaciones diarias. Por ejemplo, le cuesta a OpenAI alrededor de $700.000 cada día para responder consultas utilizando ChatGPT. Se espera que los investigadores continúen explorando enfoques que hagan que los LLM sean rentables durante el entrenamiento y más accesibles en tiempo de ejecución.
Para más contenido relacionado con la IA, visite unite.ai.












