Inteligencia Artificial
MPT-30B: MosaicML eclipsa a GPT-3 con un nuevo LLM para ampliar los límites de la PNL

mosaicoml es un IA generativa empresa que proporciona soluciones de implementación y escalabilidad de IA. Su último modelo de lenguaje grande (LLM) MPT-30B está causando sensación en la comunidad de IA.
El viaje LLM de MosaicML comenzó con el lanzamiento de MPT-7B (Transformador preentrenado de mosaico) en mayo de 2023, que vino con tres variantes:
- MPT-7B-StoryWriter-65k+ (para la generación de historias de formato largo)
- MPT-7B-Instruct (para seguir instrucciones breves)
- MPT-7B-Chat (para generación de diálogo)
Los modelos fueron testigos de un éxito masivo en la comunidad de ML debido a su naturaleza de código abierto, facilidad de uso comercial y capacidad excepcional para manejar ventanas de contexto extendidas.
Lo que es más importante, el modelo estaba a la par y, en algunos casos, superó a otros modelos comparables (llama-7b, EstableLM 7B, etc). En junio, la serie MPT-7B se había descargado más de 3 millones de veces. El 22 de junio, MosaicML lanzó MPT-30B lo que elevó aún más el listón para los modelos básicos de código abierto.
El MPT-30B: un poderoso LLM que supera el GPT-3
MPT-30B es un LLM basado en decodificador de código abierto y con licencia comercial que es más poderoso que GPT-3-175B con solo el 17% de los parámetros GPT-3, es decir, 30B. Supera a GPT-3 en varias tareas. Aquí hay una comparación entre MPT-30B y GPT-3.
MPT-30B se basa en el modelo MPT-7B anterior. Es computacionalmente eficiente para entrenar en comparación con modelos con tamaños similares. Por ejemplo, LLaMA-30B usó aproximadamente 1.44 veces más presupuesto de FLOP que MPT-30B, mientras que Falcon-40B tuvo un presupuesto de FLOP 1.27 veces mayor que MPT-30B. Aquí hay una ilustración de la mejora del MPT-30B en varias tareas con respecto a su predecesor.
Algunas características especiales de MPT-30B son las siguientes:
Ventana de contexto de token de 8k
La ventana de contexto en LLM se refiere al rango de tokens que el modelo puede considerar antes de generar la salida. MPT-30B tenía una ventana de contexto de 8000 tokens en el momento del entrenamiento. Primero se entrenó en token 1T usando secuencias de tokens de 2k y luego tokens adicionales de 50B de secuencias de tokens de 8k (aproximadamente Palabras 6000).
Soporte ALiBi
Para explicar esta característica, consideremos una pregunta:
¿Cómo puede el MPT-30B comprender y hacer predicciones para secuencias más largas de las que se entrenó?
MPT-30B utiliza un Atención con Sesgos Lineales (ALiBi) técnica para comprender secuencias más largas y extender la ventana de contexto más allá de los tokens de 8k durante el ajuste fino o la inferencia.
En lugar de calcular incrustaciones posicionales en las que asignamos un vector a cada palabra de la secuencia, ALiBi calcula las puntuaciones de atención entre los tokens clave y de consulta. Cuando los tokens clave y de consulta están muy juntos, la penalización es baja, pero en caso contrario es mayor. Como resultado, el subyacente arquitectura del transformador puede extrapolar a entradas de formato largo.
Inferencia eficiente y rendimiento de entrenamiento a través de FlashAttention
La atención, es decir, centrarse en partes relevantes de la secuencia de entrada, es un componente crítico de los transformadores, pero puede ser lento y consumir mucha memoria, especialmente cuando se procesan secuencias de texto largas.
FlashAtención es un enfoque propuesto por investigadores de la Universidad de Cornell que aborda este problema para MPT-30B. Usando una técnica llamada mosaico, FlashAttention reduce la cantidad de veces que el modelo necesita leer o escribir en la memoria, lo que acelera el procesamiento. Por lo tanto, el modelo emplea la técnica FlashAttention de última generación y NVIDIA Transformador más rápido biblioteca de optimización para entrenamiento e inferencia eficientes.
Facilidad de entrenamiento e implementación
Los desarrolladores pueden entrenar MPT-30B desde cero o usar los puntos de control de MosaicML para implementaciones más rápidas. Además, se puede ajustar para casos de uso específicos de dominio en un conjunto de datos en particular.
El tamaño del modelo se eligió para permitir una implementación sin esfuerzo en una sola GPU, específicamente 1xA100-80GB con precisión de 16 bits o 1xA100-40GB con precisión de 8 bits. Esto significa que el modelo fue diseñado para adaptarse a las limitaciones de memoria de estas GPU.
Capacidades de codificación
MPT-30B también proporciona capacidades de codificación excepcionales. evaluación humana es un conjunto de datos publicado por OpenAI que contiene 164 problemas de programación hechos a mano. En el conjunto de datos HumanEval, el modelo supera los modelos LLM especialmente diseñados, como el codificador estrella .
Variantes afinadas: MPT-30B-Instruct y MPT-30B-Chat
MPT-30B-Instruir
Los LLM se utilizan principalmente para instrucciones tales como respuesta a preguntas, resumen de texto, traducción de idiomas, etc. MPT-30B-Instruct es una variante comercialmente utilizable (mantiene la licencia comercial CC-By-SA-3.0) de MPT-30B ajustada instrucciones que siguen a las tareas. Para el ajuste fino, se utilizaron los siguientes conjuntos de datos:
- FLAN
- P3
- Alpaca
- plataforma rodante-15k
El conjunto de datos de Dolly se aumentó aún más con Conjunto de datos útil e inofensivo de Anthropic para el ajuste fino de instrucciones. Además, se utilizó una amplia gama de conjuntos de datos para el aumento de datos, que son los siguientes:
- CompeticiónMatemáticas
- PrimariaMatemáticas
- SumaDiálogo
- DuoRC
- QASPER
- Calidad
- Pantalla de resumen
- Spiders
MPT-30B-Chat
MPT-30B-Chat es una versión mejorada de MPT-30B para generar diálogos. Es un artefacto de investigación publicado bajo la licencia CC-By-NC-SA-4.0, que solo permite uso no comercial. El modelo se ajustó utilizando varios conjuntos de datos de idiomas, que incluyen:
- Airoboros/GPT4-1.2
- Bayeta
- camello
- GPProfesor
- Guanaco
- Coberturas largas
- CompartirGPT
- AsistenteLM
Los LLM comparten una gran parte de la multimillonario mercado de IA generativa, que ha experimentado un tremendo crecimiento en poco tiempo después de que ChatGPT revolucionara el panorama el año pasado. La familia MPT es una parte fundamental de esta revolución. En un futuro próximo, podemos esperar ver modelos de código abierto disponibles comercialmente que sean mucho más potentes y eficientes que la familia MPT.
Para conocer las últimas noticias sobre IA, visite unir.ai.