Intelligence artificielle

MPT-30B : MosaicML surpasse GPT-3 avec un nouveau LLM pour repousser les limites du NLP

mm
Featured Blog Image-MPT-30B: MosaicML Outshines GPT-3 With A New LLM To Push The Boundaries of Language Models

MosaicML est une entreprise d’intelligence artificielle générative qui propose des solutions de déploiement et de mise à l’échelle de l’IA. Son dernier modèle de langage à grande échelle (LLM) MPT-30B fait des vagues dans la communauté de l’IA.

Le parcours de LLM de MosaicML a commencé avec la sortie de MPT-7B (Mosaic Pretrained Transformer) en mai 2023, qui comportait trois variantes :

  1. MPT-7B-StoryWriter-65k+ (pour la génération de longues histoires)
  2. MPT-7B-Instruct (pour la suivie d’instructions de courte forme)
  3. MPT-7B-Chat (pour la génération de dialogues)

Les modèles ont connu un succès massif dans la communauté ML en raison de leur nature open-source, de leur utilité commerciale et de leur capacité exceptionnelle à gérer des fenêtres de contexte étendues.

Le plus important, le modèle était à la hauteur et, dans certains cas, a surpassé les autres modèles comparables (LLaMA-7B, StableLM 7B, etc.). À la fin juin, la série MPT-7B avait été téléchargée plus de 3 millions de fois. Le 22 juin, MosaicML a publié MPT-30B, qui a encore une fois repoussé les limites des modèles de base open-source.

Le MPT-30B : un LLM puissant qui dépasse GPT-3

MPT-30B est un LLM open-source et sous licence commerciale basé sur un décodeur qui est plus puissant que GPT-3-175B avec seulement 17 % des paramètres de GPT-3, soit 30B. Il surpasse GPT-3 dans plusieurs tâches. Voici une comparaison entre MPT-30B et GPT-3.

MPT-30B s’appuie sur le modèle MPT-7B précédent. Il est efficace sur le plan computationnel pour la formation par rapport aux modèles de tailles similaires. Par exemple, LLaMA-30B a utilisé environ 1,44 fois plus de budget FLOPs que MPT-30B, tandis que Falcon-40B avait un budget FLOPs 1,27 fois supérieur à celui de MPT-30B. Voici une illustration de l’amélioration de MPT-30B sur diverses tâches par rapport à son prédécesseur.

Certaines fonctionnalités spéciales de MPT-30B sont les suivantes :

Fenêtre de contexte de 8 000 jetons

La fenêtre de contexte dans les LLM fait référence à la plage de jetons que le modèle peut prendre en compte avant de générer la sortie. MPT-30B avait une fenêtre de contexte de 8 000 jetons au moment de la formation. Il a été formé pour la première fois sur 1 T de jetons en utilisant des séquences de 2 000 jetons, puis sur 50 milliards de jetons supplémentaires de séquences de 8 000 jetons (environ 6 000 mots).

Prise en charge d’ALiBi

Pour expliquer cette fonctionnalité, considérons une question :

Comment MPT-30B peut-il comprendre et faire des prédictions pour des séquences plus longues que celles sur lesquelles il a été formé ?

MPT-30B utilise une technique d’attention avec des biais linéaires (ALiBi) pour comprendre des séquences plus longues et étendre la fenêtre de contexte au-delà de 8 000 jetons pendant la fine-tuning ou l’inférence.

Au lieu de calculer des embeddings de position dans lesquels nous attribuons un vecteur à chaque mot de la séquence, ALiBi calcule des scores d’attention entre les jetons clés et les jetons de requête. Lorsque les jetons clés et les jetons de requête sont proches, la pénalité est faible, mais plus élevée sinon. Par conséquent, l’architecture de base de transformateur peut extrapoler à des entrées de longue forme.

Inférence et formation efficaces via FlashAttention

L’attention, c’est-à-dire se concentrer sur les parties pertinentes de la séquence d’entrée, est un composant critique des transformateurs, mais elle peut être lente et gourmande en mémoire, en particulier lors du traitement de longues séquences de texte.

FlashAttention est une approche proposée par des chercheurs de l’Université Cornell qui répond à ce problème pour MPT-30B. En utilisant une technique appelée tuilage, FlashAttention réduit le nombre de fois où le modèle doit lire ou écrire dans la mémoire, accélérant ainsi le traitement. Par conséquent, le modèle emploie la technique FlashAttention et la bibliothèque d’optimisation FasterTransformer de NVIDIA pour une formation et une inférence efficaces.

Facilité de formation et de déploiement

Les développeurs peuvent former MPT-30B à partir de zéro ou utiliser les points de contrôle de MosaicML pour des déploiements plus rapides. De plus, il peut être affiné pour des cas d’utilisation spécifiques à un domaine sur un ensemble de données particulier.

La taille du modèle a été choisie pour permettre un déploiement sans effort sur une seule GPU, spécifiquement 1xA100-80GB en précision 16 bits ou 1xA100-40GB en précision 8 bits. Cela signifie que le modèle a été conçu pour tenir dans les limites de mémoire de ces GPU.

Capacités de codage

MPT-30B offre des capacités de codage exceptionnelles. HumanEval est un ensemble de données publié par OpenAI qui contient 164 problèmes de programmation créés à la main. Sur l’ensemble de données HumanEval, le modèle dépasse les modèles LLM spécialement conçus, tels que la série StarCoder.

Variants affinés : MPT-30B-Instruct et MPT-30B-Chat

MPT-30B-Instruct

Les LLM sont principalement utilisés pour les instructions telles que la réponse aux questions, la résumé de texte, la traduction de langage, etc. MPT-30B-Instruct est une variante de MPT-30B affinée spécifiquement pour les tâches de suivi d’instructions. Pour l’affinage, les ensembles de données suivants ont été utilisés :

  1. FLAN
  2. P3
  3. Alpaca
  4. Dolly-15k

L’ensemble de données Dolly a été augmenté avec l’ensemble de données Helpful and Harmless d’Anthropic pour l’affinage des instructions. De plus, une gamme diversifiée d’ensembles de données a été utilisée pour l’augmentation des données, qui sont les suivantes :

  1. CompetitionMath
  2. GradeSchoolMath
  3. DialogSum
  4. DuoRC
  5. QASPER
  6. QuALITY
  7. SummScreen
  8. Spider

MPT-30B-Chat

MPT-30B-Chat est une version affinée de MPT-30B pour la génération de dialogues. Il s’agit d’un artefact de recherche publié sous licence CC-By-NC-SA-4.0, qui n’autorise que l’utilisation non commerciale. Le modèle a été affiné en utilisant divers ensembles de données de langage, notamment :

  1. Airoboros/GPT4-1.2
  2. Baize
  3. Camel
  4. GPTeacher
  5. Guanaco
  6. LongCoversations
  7. ShareGPT
  8. WizardLM

Les LLM représentent une grande partie du marché de l’IA générative à plusieurs milliards de dollars, qui a connu une croissance considérable en un rien de temps après que ChatGPT ait révolutionné le paysage l’année dernière. La famille MPT est une partie fondamentale de cette révolution. Dans un avenir proche, nous pouvons nous attendre à voir des modèles open-source commercialement disponibles qui sont encore plus puissants et efficaces que la famille MPT.

Pour les dernières actualités sur l’IA, visitez unite.ai.

Haziqa est un Data Scientist avec une expérience approfondie dans la rédaction de contenu technique pour les entreprises d'IA et de SaaS.