Inteligencia Artificial
GLM-130B: un modelo abierto bilingüe previamente entrenado

El marco GLM-130B es un modelo de lenguaje grande bilingüe previamente entrenado con más de 130 mil millones de parámetros capaz de generar resultados de texto tanto en inglés como en chino. El marco GLM-130B es un intento de abrir un modelo de lenguaje de código abierto a una escala de más de 100 mil millones de parámetros y discutir cómo se pueden entrenar previamente marcos de una escala tan grande porque actualmente, el entrenamiento de un modelo de una escala tan grande a menudo es inestable. con problemas como divergencias y picos de pérdidas.
En este artículo, hablaremos sobre el marco GLM-130B, que intenta diseñar un método para entrenar previamente de manera efectiva grandes modelos de lenguaje con cientos de miles de millones de parámetros. Profundizaremos en el funcionamiento y la arquitectura del marco GLM-130B junto con el proceso de capacitación y las opciones de diseño que no solo ayudan a aumentar la eficiencia, sino también la estabilidad. Los experimentos iniciales llevados a cabo para probar el funcionamiento del marco GLM-130B en una amplia gama de puntos de referencia ingleses dieron como resultado que el modelo GLM-130B superara el estado actual de la técnica. Marco GPT-3 por un margen considerable. Entonces, comencemos y exploremos cómo el marco GLM-130B ofrece resultados tan consistentes, precisos y estables.
Una introducción al marco GLM-130B
Los modelos de lenguaje grandes capaces de operar en configuraciones de pocos disparos y de cero disparos, especialmente aquellos con más de 100 mil millones de parámetros, presentan leyes de escala atractivas, de las cuales, el marco GPT-3 es uno de los marcos de mejor rendimiento que ofrece mejoras de rendimiento considerables en comparación con su predecesor, el marco BERT. Sin embargo, a pesar de la popularidad del marco GPT-3 y sus aplicaciones generalizadas, el proceso de capacitación y, en cierto modo, el marco GPT-3 en sí no ha sido transparente para el público. Además, enumerar empíricamente todos los diseños posibles para entrenar LLM con más de 100 B de parámetros es computacionalmente inasequible, lo que hace que sea aún más crítico idear un método de preentrenamiento para marcos de LLM a gran escala.
El punto anterior hace que compartir el proceso de trabajo y capacitación de marcos de LLM a gran escala de alta calidad como GPT-3 sea de valor crítico y, teniendo en cuenta las preocupaciones éticas, el El marco GLM-130B es un intento de entrenar previamente un LLM preciso y de código abierto con más de 100 mil millones de parámetros.. Durante el curso de su intento, el equipo de desarrollo del GLM-130B observó que la capacitación previa de un marco LLM a gran escala a menudo va acompañada de una amplia gama de desafíos técnicos y de ingeniería en términos de estabilidad, eficiencia y convergencia previas a la capacitación.
Para ser más específicos, el GLM-130B es un marco denso bidireccional y bilingüe que consta de más de 130 mil millones de parámetros, preentrenados en más de 400 mil millones de tokens en un grupo de 96 nodos de GPU NVIDIA DGX-A100 durante un lapso de casi dos meses. Además, en lugar de optar por la arquitectura de estilo GPT, el marco GLM-130B utiliza el algoritmo GLM o Modelo de Lenguaje General en un intento de aprovechar sus objetivos de relleno de espacios en blanco autorregresivos y la ventaja de la atención bidireccional. La siguiente tabla compara el marco GLM-130B con otros modelos con más de 100B parámetros, incluidos GPT, BLOOM-176B y OPT-175B.
Los conceptos de ingeniería y desarrollo involucrados en el marco GLM-130B superan a casi todos los marcos LLM a gran escala, incluidos GPT-3 y PaLM 540B, con más de 500 B de parámetros en muchos casos y en una amplia gama de puntos de referencia. La siguiente figura compara el rendimiento del marco GLM-130B con modelos con más de 100B+ parámetros y, como puede verse, el marco GLM-130B tiene significativamente menos toxicidad de generación y sesgo que sus contrapartes.
Finalmente, el GLM-130B ha sido diseñado de manera que permita a la mayor cantidad de desarrolladores realizar estudios en marcos con más de 100B parámetros, y hay dos formas en que el marco GLM-130B logra esto. En primer lugar, en lugar de utilizar más de 175B de parámetros como BLOOM y OPT, el marco GLM-130B utiliza parámetros de 130B, porque el tamaño del modelo admite interferencias incluso en un único servidor A100. En segundo lugar, los requisitos de GPU para ejecutar el marco GLM-130B son menores en comparación con otros marcos LLM, y el marco GLM-130B lo logra cuantificando el marco original con precisión INT4. La cuantificación INT4 utilizada por el marco GLM-130B mejora el rendimiento manteniendo una degradación del rendimiento insignificante.
GLM-130B: Arquitectura
El sesgo inductivo de un modelo de aprendizaje automático se describe por su arquitectura, y no sorprende que los desarrolladores no puedan explorar varios diseños arquitectónicos para grandes modelos de lenguaje dada la asequibilidad computacional y la viabilidad. Dicho esto, echemos un vistazo a la arquitectura del GLM-130B.
Los marcos LLM a gran escala como PaLM, GPT y más tienen más de 100 mil millones de parámetros y están construidos sobre la arquitectura de estilo GPT de solo decodificador convencional para el modelado de lenguaje autorregresivo. Por otro lado, el marco GLM-130B explora la posibilidad de utilizar un Modelo de lenguaje general bidireccional o GLM, un modelo de lenguaje basado en transformadores que tiene como objetivo aprovechar el llenado de espacios en blanco autorregresivo como objetivo de capacitación, como base. Brevemente, para una secuencia de texto determinada, el marco GLM toma muestras de los tramos de texto que luego se reemplazan con un único token de máscara.
La atención bidireccional del modelo de lenguaje general sobre contextos no corruptos o desenmascarados es lo que separa el marco GLM-130B del enfoque de estilo GPT que utiliza un enfoque unidireccional. Además, para respaldar tanto la generación como la comprensión de los datos, el marco GLM fusiona dos estrategias de corrupción, cada una de las cuales se indica con un token de máscara especial y único.
- [MASCARILLA] : [MÁSCARA] es una estrategia de corrupción que utiliza espacios en blanco cortos en oraciones, cuya longitud suma un cierto porcentaje de la entrada.
- [gMASCARA] : [gMASK] es una estrategia de corrupción que utiliza espacios en blanco de longitud aleatoria hacia el final de la oración con los contextos de prefijo.
El enfoque seguido por el marco GLM es lo que le permite registrar una puntuación de precisión de más del 80 % en el modelado de lenguaje LAMBADA de disparo cero y supera tanto al marco PaLM 540B como al marco GPT-3.
Normalización de capas
Uno de los principales desafíos que enfrentan los desarrolladores al capacitar un marco LLM es la inestabilidad del entrenamiento, y el uso de una LN (Normalización de capas) adecuada podría ayudar con la capacitación de los LLM. El marco GLM-130B utiliza un enfoque Post-LN gracias a su desempeño en tareas posteriores.
FFN y codificación posicional
Las redes neuronales feedforward o FFN y la codificación posicional son dos enfoques adoptados por el marco GLM-130B para introducir rendimiento descendente y estabilidad de entrenamiento de alto nivel.
Configuración previa al entrenamiento
Los objetivos de preentrenamiento del marco GLM-130B no solo incluyen el aprendizaje multitarea para una pequeña cantidad de tokens, sino que también incluyen el GLM autosupervisado para el llenado autorregresivo de los espacios en blanco, con la expectativa de que este enfoque ayude al GLM. -Marco 130B en tareas posteriores. Dicho esto, la configuración previa al entrenamiento del marco GLM-130B se parece a la siguiente.
Llenado de espacios en blanco autosupervisados
Como ya se mencionó, el marco GLM-130B utiliza dos estrategias de corrupción, a saber, [MASK] y [gMASK], y una de estas estrategias se aplica de forma independiente a cada secuencia de entrenamiento individual, una a la vez. Para llenar los espacios en blanco, la estrategia [MASK] enmascara tramos consecutivos en el 30% de la secuencia de entrenamiento, donde las longitudes de los tramos suman hasta el 15% de la entrada, y sigue una distribución de Poisson. Para el 70% restante de la secuencia, el prefijo de cada secuencia se mantiene como contexto, y la estrategia [gMASK] ayuda a enmascarar el resto, y luego se muestrea la longitud enmascarada utilizando la distribución uniforme.
Instrucciones para tareas múltiples Pre-entrenamiento
Se ha indicado que seguir un enfoque de aprendizaje multitarea para el entrenamiento previo de los modelos puede ofrecer mejores resultados que el ajuste fino, para mejorar las transferencias de tareas en una configuración de disparo cero. Posteriormente, el marco GLM-130B propone utilizar una variedad de conjuntos de datos impulsados por instrucciones que incluyen la generación, comprensión y extracción de información del lenguaje durante el entrenamiento previo.
En comparación con otros enfoques para la transferencia de tareas inmediatas que utilizan ajustes precisos impulsados por tareas múltiples, el enfoque de entrenamiento previo de instrucciones de tareas múltiples seguido por el marco GLM-130B representa solo el 5 % del total de tokens, y se establece durante la fase previa a la capacitación en un intento de evitar estropear otras habilidades del marco LLM o, en otras palabras, generación libre incondicional.
Estrategia paralela 3D
Existen dos prácticas de facto para entrenar modelos a gran escala con miles de millones de parámetros, el paralelismo del modelo tensorial el paralelismo de datos. En un intento por minimizar la utilización de GPU y manejar inmensos requisitos de GPU, el marco GLM-130B implementa una estrategia paralela 3D que combina la estrategia de paralelismo del modelo de canalización con el paralelismo del modelo tensorial y las estrategias de paralelismo de datos.
GLM-130B: Estabilidad del entrenamiento
La estabilidad del entrenamiento es un factor importante a la hora de determinar la calidad de un LLM, y la estabilidad del entrenamiento se ve muy influenciada según la cantidad de tokens por los que pasa. Además, es vital establecer un equilibrio entre estabilidad y eficiencia con respecto a los formatos de punto flotante dadas las restricciones informáticas. Por ejemplo, los formatos de coma flotante de baja precisión aumentan la eficiencia informática, pero a menudo provocan colapsos en el entrenamiento, ya que son propensos a errores de desbordamiento y subdesbordamiento.
Precisión mixta
En un intento por aumentar la precisión del entrenamiento y reducir el uso de memoria, el marco GLM-130B sigue la práctica común de utilizar precisiones mixtas, es decir, FP16 tanto para avance como para retroceso, y FP32 tanto para pesos maestros como para estados del optimizador. Al igual que otros marcos LLM populares, incluidos BLOOM-176B y OPT-175B, la fase de entrenamiento del marco GLM-130B que utiliza la estrategia de precisión mixta enfrenta frecuentes picos de pérdidas, y la frecuencia de estos picos de pérdidas tiende a aumentar a medida que el modelo continúa entrenándose. . Además, existen problemas importantes a los que se enfrentan los desarrolladores cuando amplían los transformadores.
Primero, la escala de valor de la rama principal del transformador puede ser enorme en las capas más profundas cuando se usa Pre-LN, y en el marco GLM-130B, se aborda mediante el uso de un Pre-LN basado en DeepNorm, que garantiza que el valor La escala permanece limitada en todo momento. En segundo lugar, a medida que el modelo se amplía, las puntuaciones de atención crecen hasta un punto en el que superan el rango del FP16.
Reducción de gradiente de capa de incrustación o EGS
Los desarrolladores que trabajan en el marco GLM-130B identificaron que la norma de gradiente puede actuar como un indicador informativo para los colapsos del entrenamiento, y un colapso del entrenamiento generalmente va por detrás de un pico en la norma de gradiente. La causa de estos picos son los gradientes anormales de la capa de incrustación, y los desarrolladores observaron que en comparación con la norma de gradiente de otras capas, la norma de gradiente de las capas de incrustación es mayor en varias magnitudes y también tiende a fluctuar dramáticamente durante la fase de incrustación. entrenamiento temprano del marco. Modelos de visión También enfrentamos este problema y se soluciona congelando la capa de proyección del parche. Sin embargo, no se puede aplicar el mismo enfoque a los LLM que a los modelos de lenguaje: no se pueden congelar las capas de proyección.
GLM-130B: Resultados y Rendimiento
Para evaluar el desempeño del GLM-130B para tareas en inglés, implementa las mismas configuraciones seguidas por los marcos LLM comunes, incluidos PaLM y GPT-3, y como el GLM-130B es un marco bilingüe, también se evalúa en varios puntos de referencia chinos. El rendimiento del marco GLM-130B se medirá a través de múltiples puntos de referencia, incluidos Modelado del lenguaje, MMLU o comprensión masiva del lenguaje multitarea, BIG-Bench o más allá del punto de referencia del juego de imitación y CLUE o evaluación de la comprensión del idioma chino. Así que empecemos.
Modelado de lenguaje
La prueba comparativa de modelado de lenguaje en el marco GLM-130B se realiza en dos conjuntos de datos: LAMBADA y Pile.
El conjunto de datos LAMBADA se utiliza para probar las capacidades de modelado de última generación de los LLM, y el marco GLM-130B logra una puntuación de precisión de disparo cero de 80.2 en un entorno bilingüe y, en el camino, establece un nuevo récord de referencia en el conjunto de datos LAMBADA.
Por otro lado, Pile es un conjunto de pruebas que comprende una serie de puntos de referencia para modelos de lenguaje. En promedio, en comparación con GPT-3 y Jurassic-1, el marco GLM-130B ofrece su mejor rendimiento en 18 conjuntos de prueba compartidos en términos de BPB ponderados. Los resultados demuestran las sólidas capacidades lingüísticas del marco GLM-130B y los resultados se incluyen en la siguiente tabla.
MMLU o comprensión masiva del lenguaje multitarea
MMLU o comprensión masiva del lenguaje multitarea es un punto de referencia diverso que comprende más de 50 tareas de respuesta a preguntas de opción múltiple relacionadas con la inteligencia y el conocimiento humanos, que van desde niveles de escuela secundaria hasta niveles expertos, y se publica después de rastrear el conjunto de pruebas de Pile y, por lo tanto, sirve como un punto de referencia ideal. test-best para evaluar las capacidades de aprendizaje de pocas oportunidades de un LLM.
Como puede verse, en unas pocas configuraciones de disparo (5 disparos), el rendimiento del marco GLM-130B se acerca al rendimiento del modelo GPT-3 después de ver cerca de 300 mil millones de tokens. El rendimiento continúa mejorando a medida que avanza la capacitación y, cuando finaliza, el marco logra una puntuación de precisión de 44.8 después de ver un total de 400 mil millones de tokens.
BIG-Bench o más allá del punto de referencia del juego de imitación
Banco GRANDE o Más allá de los puntos de referencia del juego de imitación, las tareas desafiantes ponen a prueba la capacidad de un modelo en términos de conocimiento, razonamiento y sentido común. Como se demuestra en las siguientes figuras, en la configuración de disparo cero, el marco GLM-130B supera a los marcos PaLM 540B y GPT-3 175B, lo que podría deberse al MIP y la atención contextual bidireccional para aumentar el rendimiento del GLM-130B en tareas invisibles en ajuste de disparo cero. Además, a medida que aumenta el número de disparos, el rendimiento del marco GLM-130B también mejora, superando consistentemente al marco GPT-3.
CLUE o Evaluación de Comprensión del Idioma Chino
El rendimiento de disparo cero en chino del GLM-130B se evalúa en tareas de referencia de PNL establecidas, incluidas CLUE y FewCLUE, y se compara con 260B ERNIE Titan 3.0, el modelo en idioma chino más grande existente. Como se puede observar, el marco GLM-130B supera constantemente al marco 260B ERNIE Titan 3.0 en 12 tareas diferentes y se desempeña casi un 260 % mejor que el marco ERNIE en dos conjuntos de datos abstractivos MRC.
Conclusión
En este artículo, hemos hablado de GLM-130B, un modelo de lenguaje grande bilingüe previamente entrenado que tiene como objetivo promover la investigación LLM inclusiva. Las iniciativas técnicas, de arquitectura y de ingeniería tienen como objetivo proporcionar a la comunidad de IA una mejor comprensión de la arquitectura de los marcos LLM, la eficiencia y estabilidad de la capacitación, los objetivos previos a la capacitación y la interferencia asequible.