Inteligencia artificial
MPT-30B: MosaicML supera a GPT-3 con un nuevo LLM para impulsar los límites del NLP

MosaicML es una empresa de inteligencia artificial generativa que proporciona soluciones de implementación y escalabilidad de IA. Su último modelo de lenguaje grande (LLM) MPT-30B está causando olas en la comunidad de IA.
El viaje de LLM de MosaicML comenzó con el lanzamiento de MPT-7B (Mosaic Pretrained Transformer) en mayo de 2023, que vino con tres variantes:
- MPT-7B-StoryWriter-65k+ (para la generación de historias de larga forma)
- MPT-7B-Instruct (para el seguimiento de instrucciones de corta forma)
- MPT-7B-Chat (para la generación de diálogos)
Los modelos fueron un éxito masivo en la comunidad de ML debido a su naturaleza de código abierto, usabilidad comercial y capacidad excepcional para manejar ventanas de contexto extendidas.
Lo más importante es que el modelo estuvo a la par y, en algunos casos, superó a otros modelos comparables (LLaMA-7B, StableLM 7B, etc.). Para junio, la serie MPT-7B había sido descargada más de 3 millones de veces. El 22 de junio, MosaicML lanzó MPT-30B, que elevó la barra aún más para los modelos de fundación de código abierto.
El MPT-30B: un LLM poderoso que supera a GPT-3
MPT-30B es un LLM de código abierto y con licencia comercial basado en decodificador que es más poderoso que GPT-3-175B con solo el 17% de los parámetros de GPT-3, es decir, 30B. Superó a GPT-3 en varias tareas. Aquí hay una comparación entre MPT-30B y GPT-3.
MPT-30B se basa en el modelo MPT-7B anterior. Es computacionalmente eficiente para entrenar en comparación con modelos de tamaños similares. Por ejemplo, LLaMA-30B utilizó aproximadamente 1,44 veces más el presupuesto de FLOPs que MPT-30B, mientras que Falcon-40B tuvo un presupuesto de FLOPs un 1,27 veces mayor que MPT-30B. Aquí hay una ilustración de la mejora de MPT-30B en varias tareas sobre su predecesor.
Algunas características especiales de MPT-30B son las siguientes:
Ventana de contexto de 8k tokens
La ventana de contexto en LLM se refiere al rango de tokens que el modelo puede considerar antes de generar la salida. MPT-30B tenía una ventana de contexto de 8000 tokens en el momento del entrenamiento. Se entrenó primero con 1T token utilizando secuencias de 2k tokens y luego con 50B tokens de secuencias de 8k tokens (aproximadamente 6000 palabras).
Soporte ALiBi
Para explicar esta característica, consideremos una pregunta:
¿Cómo puede MPT-30B entender y hacer predicciones para secuencias más largas de lo que se entrenó?
MPT-30B utiliza una técnica de Atención con sesgos lineales (ALiBi) para entender secuencias más largas y extender la ventana de contexto más allá de 8k tokens durante el ajuste fino o la inferencia.
En lugar de calcular incrustaciones posicionales en las que se asigna un vector a cada palabra en la secuencia, ALiBi calcula puntuaciones de atención entre tokens de clave y consulta. Cuando los tokens de clave y consulta están cerca, la penalización es baja, pero es más alta de lo contrario. Como resultado, la arquitectura subyacente de transformador puede extrapolar a entradas de larga forma.
Inferencia y rendimiento de entrenamiento eficientes a través de FlashAttention
La atención, es decir, centrarse en las partes relevantes de la secuencia de entrada, es un componente crítico de los transformadores, pero puede ser lento y consumir mucha memoria, especialmente al procesar secuencias de texto largas.
FlashAttention es un enfoque propuesto por investigadores de la Universidad de Cornell que aborda este problema para MPT-30B. Utilizando una técnica llamada mosaico, FlashAttention reduce la cantidad de veces que el modelo necesita leer o escribir en la memoria, acelerando el procesamiento. Por lo tanto, el modelo emplea la técnica de FlashAttention de vanguardia y la biblioteca de optimización FasterTransformer de NVIDIA para un entrenamiento y una inferencia eficientes.
Fácil entrenamiento y despliegue
Los desarrolladores pueden entrenar MPT-30B desde cero o utilizar los puntos de control de MosaicML para despliegues más rápidos. Además, se puede ajustar para casos de uso específicos de dominio en un conjunto de datos determinado.
El tamaño del modelo se eligió para permitir un despliegue sin esfuerzo en una sola GPU, específicamente 1xA100-80GB en precisión de 16 bits o 1xA100-40GB en precisión de 8 bits. Esto significa que el modelo se diseñó para caber dentro de las limitaciones de memoria de estas GPU.
Capacidades de codificación
MPT-30B proporciona capacidades de codificación excepcionales. HumanEval es un conjunto de datos publicado por OpenAI que contiene 164 problemas de programación creados a mano. En el conjunto de datos HumanEval, el modelo supera a los modelos de LLM construidos a propósito, como la serie StarCoder.
Variantes ajustadas: MPT-30B-Instruct y MPT-30B-Chat
MPT-30B-Instruct
Los LLM se utilizan principalmente para instrucciones como responder preguntas, resumir texto, traducir lenguaje, etc. MPT-30B-Instruct es una variante de MPT-30B ajustada específicamente para tareas de seguimiento de instrucciones. Para el ajuste, se utilizaron los siguientes conjuntos de datos:
- FLAN
- P3
- Alpaca
- Dolly-15k
El conjunto de datos Dolly se amplió aún más con el conjunto de datos Helpful and Harmless de Anthropic para el ajuste de instrucciones. Además, se utilizaron una serie de conjuntos de datos para la ampliación de datos, que son los siguientes:
- CompetitionMath
- GradeSchoolMath
- DialogSum
- DuoRC
- QASPER
- QuALITY
- SummScreen
- Spider
MPT-30B-Chat
MPT-30B-Chat es una versión ajustada de MPT-30B para la generación de diálogos. Es un artefacto de investigación publicado bajo la licencia CC-By-NC-SA-4.0, que permite solo uso no comercial. El modelo se ajustó utilizando varios conjuntos de datos de lenguaje, incluyendo:
- Airoboros/GPT4-1.2
- Baize
- Camel
- GPTeacher
- Guanaco
- LongCoversations
- ShareGPT
- WizardLM
Los LLM comparten una gran parte del mercado de inteligencia artificial generativa de varios miles de millones de dólares, que ha experimentado un crecimiento tremendo en poco tiempo después de que ChatGPT revolucionara el panorama el año pasado. La familia MPT es una parte fundamental de esta revolución. En el futuro cercano, podemos esperar ver modelos de código abierto comercialmente disponibles que sean mucho más poderosos y eficientes que la familia MPT.
Para las últimas noticias de IA, visite unite.ai.















