Inteligencia artificial

MPT-30B: MosaicML supera a GPT-3 con un nuevo LLM para impulsar los límites del NLP

Published July 5, 2023

Updated April 28, 2026

Haziqa Sajid

Featured Blog Image-MPT-30B: MosaicML Outshines GPT-3 With A New LLM To Push The Boundaries of Language Models

MosaicML es una empresa de inteligencia artificial generativa que proporciona soluciones de implementación y escalabilidad de IA. Su último modelo de lenguaje grande (LLM) MPT-30B está causando olas en la comunidad de IA.

El viaje de LLM de MosaicML comenzó con el lanzamiento de MPT-7B (Mosaic Pretrained Transformer) en mayo de 2023, que vino con tres variantes:

MPT-7B-StoryWriter-65k+ (para la generación de historias de larga forma)
MPT-7B-Instruct (para el seguimiento de instrucciones de corta forma)
MPT-7B-Chat (para la generación de diálogos)

Los modelos fueron un éxito masivo en la comunidad de ML debido a su naturaleza de código abierto, usabilidad comercial y capacidad excepcional para manejar ventanas de contexto extendidas.

Lo más importante es que el modelo estuvo a la par y, en algunos casos, superó a otros modelos comparables (LLaMA-7B, StableLM 7B, etc.). Para junio, la serie MPT-7B había sido descargada más de 3 millones de veces. El 22 de junio, MosaicML lanzó MPT-30B, que elevó la barra aún más para los modelos de fundación de código abierto.

El MPT-30B: un LLM poderoso que supera a GPT-3

MPT-30B es un LLM de código abierto y con licencia comercial basado en decodificador que es más poderoso que GPT-3-175B con solo el 17% de los parámetros de GPT-3, es decir, 30B. Superó a GPT-3 en varias tareas. Aquí hay una comparación entre MPT-30B y GPT-3.

The MPT-30B: A Powerful LLM That Exceeds GPT-3-GPT3-vs-MPT-30B-Comparison

Source

MPT-30B se basa en el modelo MPT-7B anterior. Es computacionalmente eficiente para entrenar en comparación con modelos de tamaños similares. Por ejemplo, LLaMA-30B utilizó aproximadamente 1,44 veces más el presupuesto de FLOPs que MPT-30B, mientras que Falcon-40B tuvo un presupuesto de FLOPs un 1,27 veces mayor que MPT-30B. Aquí hay una ilustración de la mejora de MPT-30B en varias tareas sobre su predecesor.

The MPT-30B: A Powerful LLM That Exceeds GPT-3-MPT-30B-MPT-7B-Comparison

Source

Algunas características especiales de MPT-30B son las siguientes:

Ventana de contexto de 8k tokens

La ventana de contexto en LLM se refiere al rango de tokens que el modelo puede considerar antes de generar la salida. MPT-30B tenía una ventana de contexto de 8000 tokens en el momento del entrenamiento. Se entrenó primero con 1T token utilizando secuencias de 2k tokens y luego con 50B tokens de secuencias de 8k tokens (aproximadamente 6000 palabras).

Soporte ALiBi

Para explicar esta característica, consideremos una pregunta:

¿Cómo puede MPT-30B entender y hacer predicciones para secuencias más largas de lo que se entrenó?

MPT-30B utiliza una técnica de Atención con sesgos lineales (ALiBi) para entender secuencias más largas y extender la ventana de contexto más allá de 8k tokens durante el ajuste fino o la inferencia.

En lugar de calcular incrustaciones posicionales en las que se asigna un vector a cada palabra en la secuencia, ALiBi calcula puntuaciones de atención entre tokens de clave y consulta. Cuando los tokens de clave y consulta están cerca, la penalización es baja, pero es más alta de lo contrario. Como resultado, la arquitectura subyacente de transformador puede extrapolar a entradas de larga forma.

Inferencia y rendimiento de entrenamiento eficientes a través de FlashAttention

La atención, es decir, centrarse en las partes relevantes de la secuencia de entrada, es un componente crítico de los transformadores, pero puede ser lento y consumir mucha memoria, especialmente al procesar secuencias de texto largas.

FlashAttention es un enfoque propuesto por investigadores de la Universidad de Cornell que aborda este problema para MPT-30B. Utilizando una técnica llamada mosaico, FlashAttention reduce la cantidad de veces que el modelo necesita leer o escribir en la memoria, acelerando el procesamiento. Por lo tanto, el modelo emplea la técnica de FlashAttention de vanguardia y la biblioteca de optimización FasterTransformer de NVIDIA para un entrenamiento y una inferencia eficientes.

Fácil entrenamiento y despliegue

Los desarrolladores pueden entrenar MPT-30B desde cero o utilizar los puntos de control de MosaicML para despliegues más rápidos. Además, se puede ajustar para casos de uso específicos de dominio en un conjunto de datos determinado.

El tamaño del modelo se eligió para permitir un despliegue sin esfuerzo en una sola GPU, específicamente 1xA100-80GB en precisión de 16 bits o 1xA100-40GB en precisión de 8 bits. Esto significa que el modelo se diseñó para caber dentro de las limitaciones de memoria de estas GPU.

Capacidades de codificación

MPT-30B proporciona capacidades de codificación excepcionales. HumanEval es un conjunto de datos publicado por OpenAI que contiene 164 problemas de programación creados a mano. En el conjunto de datos HumanEval, el modelo supera a los modelos de LLM construidos a propósito, como la serie StarCoder.

Source

Variantes ajustadas: MPT-30B-Instruct y MPT-30B-Chat

MPT-30B-Instruct

Los LLM se utilizan principalmente para instrucciones como responder preguntas, resumir texto, traducir lenguaje, etc. MPT-30B-Instruct es una variante de MPT-30B ajustada específicamente para tareas de seguimiento de instrucciones. Para el ajuste, se utilizaron los siguientes conjuntos de datos:

FLAN
P3
Alpaca
Dolly-15k

El conjunto de datos Dolly se amplió aún más con el conjunto de datos Helpful and Harmless de Anthropic para el ajuste de instrucciones. Además, se utilizaron una serie de conjuntos de datos para la ampliación de datos, que son los siguientes:

CompetitionMath
GradeSchoolMath
DialogSum
DuoRC
QASPER
QuALITY
SummScreen
Spider

MPT-30B-Chat

MPT-30B-Chat es una versión ajustada de MPT-30B para la generación de diálogos. Es un artefacto de investigación publicado bajo la licencia CC-By-NC-SA-4.0, que permite solo uso no comercial. El modelo se ajustó utilizando varios conjuntos de datos de lenguaje, incluyendo:

Airoboros/GPT4-1.2
Baize
Camel
GPTeacher
Guanaco
LongCoversations
ShareGPT
WizardLM

Los LLM comparten una gran parte del mercado de inteligencia artificial generativa de varios miles de millones de dólares, que ha experimentado un crecimiento tremendo en poco tiempo después de que ChatGPT revolucionara el panorama el año pasado. La familia MPT es una parte fundamental de esta revolución. En el futuro cercano, podemos esperar ver modelos de código abierto comercialmente disponibles que sean mucho más poderosos y eficientes que la familia MPT.

Para las últimas noticias de IA, visite unite.ai.