Inteligencia Artificial
¿Se pueden construir modelos de lenguaje grandes como ChatGPT a mitad de costo?

Modelos de lenguaje grande (LLM) como GPT-3 y ChatGPT han revolucionado la IA al ofrecer comprensión del lenguaje natural y capacidades de generación de contenido. Pero su desarrollo tiene un alto precio que limita la accesibilidad y la investigación adicional. Los investigadores estiman que entrenar GPT-3 le costó a OpenAI alrededor de 5 millones de dólares. No obstante, Microsoft reconoció el potencial e invirtió 1 millones de dólares en 2019 y 10 millones de dólares en 2023 en la empresa GPT-3 y ChatGPT de OpenAI.
Los LLM son modelos de aprendizaje automático entrenados con datos textuales extensos para aplicaciones de PNL. Se basan en una arquitectura transformadora y utilizan mecanismos de atención para tareas de PNL como respuesta a preguntas, traducción automática, análisis de sentimientos, etc.
Surge la pregunta: ¿se puede aumentar la eficiencia de estos grandes modelos y, al mismo tiempo, reducir el costo computacional y el tiempo de capacitación?
Varios enfoques, como Redes Neuronales Progresivas, Morfismo de red, paralelismo del modelo intracapa, herencia del conocimiento, etc., se han desarrollado para reducir el costo computacional del entrenamiento de redes neuronales. La novela LiGO (Operador de crecimiento lineal) que discutiremos está estableciendo un nuevo punto de referencia. Reduce a la mitad el costo computacional de la formación de LLM.
Antes de discutir esta técnica, es esencial examinar los factores que contribuyen al alto precio de hacer LLM.
Costo de construir modelos de lenguaje grandes
Los tres gastos principales para desarrollar LLM son los siguientes:
1. Recursos Computacionales
La construcción de LLM requiere recursos computacionales masivos para entrenar en grandes conjuntos de datos. Deben procesar miles de millones de parámetros y aprender patrones complejos a partir de datos textuales masivos.
Inversión en hardware especializado como unidades de procesamiento de gráficos (GPU) y unidades de procesamiento de tensores (TPU) son necesarios para construir y capacitar LLM para lograr un rendimiento de vanguardia.
Por ejemplo, GPT-3 fue entrenado en un supercomputadora con 10000 100 GPU de nivel empresarial (H100 y A285,000) y XNUMX XNUMX núcleos de CPU.
2. Consumo de energía
Los recursos computacionales intensivos necesarios para construir LLM dan como resultado un consumo de energía significativo. Por ejemplo, entrenar 175 mil millones de parámetros GPT-3 tomó 14.8 días utilizando 10,000 GPU V100, equivalente a 3.55 millones de horas de GPU. Un nivel tan alto de consumo de energía también tiene efectos ambientales significativos.
3. Almacenamiento y gestión de datos
Los LLM están capacitados en grandes conjuntos de datos. Por ejemplo, GPT-3 fue entrenado en un vasto corpus de textual datos, incluidos Common Crawl, WebText2, Books1, Books2 y Wikipedia, entre otras fuentes. Se requiere una inversión significativa en infraestructura para recopilar, curar y almacenar estos conjuntos de datos.
Además, se requiere almacenamiento en la nube para el almacenamiento de datos y experiencia humana para el preprocesamiento de datos y el control de versiones. Además, garantizar que su estrategia de datos cumpla con regulaciones como GDPR también aumenta el costo.
Técnica LiGO: reduzca a la mitad el costo de construir modelos de lenguaje grandes
LiGO (Operador de Crecimiento Lineal) es una técnica novedosa desarrollada por investigadores del MIT para reducir el costo computacional del entrenamiento de los LLM en un 50%. El método consiste en inicializar los pesos de los modelos más grandes a partir de los de los modelos preentrenados más pequeños, lo que permite escalar eficientemente las redes neuronales.

Imagen del papel: Aprendiendo a desarrollar modelos preentrenados para un entrenamiento eficiente de transformadores
yoon kim, el autor principal del artículo, dice:
“Se ha estimado que los modelos de entrenamiento a la escala en la que se supone que se ejecuta ChatGPT podrían costar millones de dólares solo por una sola ejecución de entrenamiento. ¿Podemos mejorar la eficiencia de estos métodos de capacitación, de modo que aún podamos obtener buenos modelos en menos tiempo y por menos dinero? Proponemos hacer esto aprovechando modelos de lenguaje más pequeños que han sido entrenados previamente”.
Este método mantiene los beneficios de rendimiento de los modelos más grandes con un costo computacional y un tiempo de entrenamiento reducidos en comparación con el entrenamiento de un modelo grande desde cero. LiGO utiliza un operador de crecimiento lineal basado en datos que combina operadores de profundidad y ancho para un rendimiento óptimo.
El documento utilizó varios conjuntos de datos para realizar experimentos basados en texto, incluido el corpus de Wikipedia en inglés para entrenar modelos BERT y RoBERTa y el conjunto de datos C4 para entrenar GPT2.
La experimentación con la técnica LiGO incluyó el crecimiento de BERT-Small a BERT-Base, BERT-Base a BERT-Large, RoBERTaSmall a RoBERTa-Base, GPT2-Base a GPT2-Medium y CaiT-XS a CaiT-S.
Los investigadores compararon su enfoque con otras líneas de base, incluido el entrenamiento desde cero, el entrenamiento progresivo, bert2BERT y KI.
La técnica LiGO ofreció un ahorro del 44.7 % en FLOP (operaciones de coma flotante por segundo) y un ahorro del 40.7 % en tiempo de pared en comparación con la capacitación de BERT-Base desde cero mediante la reutilización del modelo BERT-Small. El operador de crecimiento de LiGO supera a StackBERT, MSLT, bert2BERT y KI en capacitación eficiente.
Beneficios de usar una técnica de optimización de entrenamiento como LiGO
LiGO es un método eficiente de entrenamiento de redes neuronales que tiene varios beneficios que se enumeran a continuación:
1. Entrenamiento más rápido
Como se indicó anteriormente, el entrenamiento más rápido es la principal ventaja de la técnica LiGO. Capacita a LLM en la mitad del tiempo, lo que aumenta la productividad y reduce los costos.
2. Recursos eficientes
LiGO es eficiente en recursos, ya que minimiza el tiempo de pared y los FLOP, lo que lleva a un enfoque más rentable y ecológico para entrenar modelos de transformadores grandes.
3. Generalización
La técnica LiGO ha mejorado el rendimiento de los transformadores de lenguaje y visión, lo que sugiere que es una técnica generalizable que se puede aplicar a varias tareas.
La creación de productos comerciales de IA es solo una faceta de los gastos generales asociados con los sistemas de IA. Otro componente significativo de los costos proviene de las operaciones diarias. Por ejemplo, le cuesta a OpenAI alrededor de $700,000 todos los días para responder consultas usando ChatGPT. Se espera que los investigadores continúen explorando enfoques que hagan que los LLM sean rentables durante la capacitación y más accesibles en tiempo de ejecución.
Para obtener más contenido relacionado con la IA, visite unir.ai.












