Intelligence artificielle

MPT-30B : MosaicML surpasse GPT-3 avec un nouveau LLM pour repousser les limites de la PNL

Publié le

il y a des mois 10

5 juillet 2023

Blog en vedette Image-MPT-30B : MosaicML surpasse GPT-3 avec un nouveau LLM pour repousser les limites des modèles de langage

MosaïqueML est une IA générative entreprise qui fournit des solutions de déploiement et d'évolutivité de l'IA. Leur dernier grand modèle linguistique (LLM) MPT-30B fait des vagues dans la communauté de l'IA.

Le voyage LLM de MosaicML a commencé avec la sortie de MPT-7B (Mosaic Pretrained Transformer) en mai 2023 qui comportait trois variantes :

MPT-7B-StoryWriter-65k+ (pour la génération d'histoires longues)
MPT-7B-Instruct (pour suivre les instructions abrégées)
MPT-7B-Chat (pour la génération de dialogue)

Les modèles ont connu un énorme succès dans la communauté ML en raison de leur nature open source, de leur convivialité commerciale et de leur capacité exceptionnelle à gérer des fenêtres contextuelles étendues.

Plus important encore, le modèle était au pair et, dans certains cas, surpassait les autres modèles comparables (LLaMA-7B, EcurieLM 7B, etc). En juin, la série MPT-7B avait été téléchargée plus de 3 millions de fois. Le 22 juin, MosaicML a publié MPT-30B ce qui a encore relevé la barre pour les modèles de fondation open source.

Le MPT-30B : un LLM puissant qui dépasse le GPT-3

MPT-30B est un LLM basé sur un décodeur open source et sous licence commerciale qui est plus puissant que GPT-3-175B avec seulement 17% des paramètres GPT-3, soit 30B. Il surpasse GPT-3 sur plusieurs tâches. Voici une comparaison entre MPT-30B et GPT-3.

Le MPT-30B : un LLM puissant qui dépasse la comparaison GPT-3-GPT3-vs-MPT-30B

Identifier

MPT-30B s'appuie sur le modèle précédent MPT-7B. Il est efficace en termes de calcul de s'entraîner par rapport à des modèles de tailles similaires. Par exemple, LLaMA-30B utilisait environ 1.44 fois plus de budget FLOP que MPT-30B, tandis que Falcon-40B avait un budget FLOP 1.27 fois plus élevé que MPT-30B. Voici une illustration de l'amélioration de MPT-30B sur diverses tâches par rapport à son prédécesseur.

Le MPT-30B : un LLM puissant qui dépasse la comparaison GPT-3-MPT-30B-MPT-7B

Identifier

Certaines caractéristiques spéciales du MPT-30B sont les suivantes :

Fenêtre de contexte de jeton 8k

La fenêtre de contexte dans les LLM fait référence à la plage de jetons que le modèle peut prendre en compte avant de générer la sortie. MPT-30B avait une fenêtre de contexte de 8000 jetons au moment de la formation. Il a d'abord été formé sur un jeton 1T en utilisant des séquences de jetons de 2k, puis 50B jetons supplémentaires de séquences de jetons de 8k (environ Mots 6000).

Assistance ALiBi

Pour expliquer cette fonctionnalité, considérons une question :

Comment le MPT-30B peut-il comprendre et faire des prédictions pour des séquences plus longues que celles sur lesquelles il a été entraîné ?

MPT-30B utilise un Attention avec biais linéaires (ALiBi) technique pour comprendre des séquences plus longues et étendre la fenêtre de contexte au-delà de 8 XNUMX jetons lors d'un réglage fin ou d'une inférence.

Au lieu de calculer des intégrations positionnelles dans lesquelles nous attribuons un vecteur à chaque mot de la séquence, ALiBi calcule les scores d'attention entre les jetons de clé et de requête. Lorsque les jetons de clé et de requête sont proches l'un de l'autre, la pénalité est faible mais plus élevée dans le cas contraire. En conséquence, le sous-jacent architecture du transformateur peut extrapoler aux entrées de forme longue.

Inférence efficace et performances d'entraînement via FlashAttention

L'attention, c'est-à-dire se concentrer sur les parties pertinentes de la séquence d'entrée, est un composant essentiel des transformateurs, mais elle peut être lente et gourmande en mémoire, en particulier lors du traitement de longues séquences de texte.

FlashAttention est une approche proposée par des chercheurs de l'Université Cornell qui résout ce problème pour MPT-30B. À l'aide d'une technique appelée mosaïque, FlashAttention réduit le nombre de fois où le modèle doit lire ou écrire dans la mémoire, accélérant ainsi le traitement. Par conséquent, le modèle utilise la technique de pointe FlashAttention et la technologie NVIDIA Transformateur plus rapide bibliothèque d'optimisation pour une formation et une inférence efficaces.

Facilité de formation et de déploiement

Les développeurs peuvent former MPT-30B à partir de zéro ou utiliser les points de contrôle de MosaicML pour des déploiements plus rapides. En outre, il peut être affiné pour des cas d'utilisation spécifiques à un domaine sur un ensemble de données particulier.

La taille du modèle a été choisie pour permettre un déploiement sans effort sur un seul GPU, en particulier 1xA100-80 Go en précision 16 bits ou 1xA100-40 Go en précision 8 bits. Cela signifie que le modèle a été conçu pour s'adapter aux limitations de mémoire de ces GPU.

Capacités de codage

Le MPT-30B offre également des capacités de codage exceptionnelles. HumanEval est un ensemble de données publié par OpenAI qui contient 164 problèmes de programmation artisanaux. Sur l'ensemble de données HumanEval, le modèle surpasse les modèles LLM spécialement conçus, tels que le Codeur étoile série.

Identifier

Variantes affinées : MPT-30B-Instruct et MPT-30B-Chat

MPT-30B-Instruction

Les LLM sont principalement utilisés pour des instructions telles que la réponse aux questions, la synthèse de texte, la traduction de la langue, etc. instruction suivant les tâches. Pour affiner, les ensembles de données suivants ont été utilisés :

CRÈME
P3
Alpaga
Chariot-15k

L'ensemble de données Dolly a été complété par Ensemble de données utiles et inoffensifs d'Anthropic pour le réglage fin des instructions. De plus, une gamme variée d'ensembles de données ont été utilisés pour l'augmentation des données, qui sont les suivants :

ConcoursMaths
NoteÉcoleMaths
Somme de la boîte de dialogue
DuoRC
QASPER
Qualité
Écran de somme
Spider

MPT-30B-Chat

MPT-30B-Chat est une version affinée de MPT-30B pour la génération de dialogue. Il s'agit d'un artefact de recherche publié sous la licence CC-By-NC-SA-4.0, permettant uniquement une utilisation non commerciale. Le modèle a été affiné à l'aide de divers ensembles de données linguistiques, notamment :

Airoboros/GPT4-1.2
Tapis
Camel
GPProfesseur
Guanaco
Couvertures longues
PartagerGPT
AssistantLM

Les LLM partagent une grande partie du plusieurs milliards de dollars marché de l'IA générative, qui a connu une croissance phénoménale en un rien de temps après que ChatGPT a révolutionné le paysage l'année dernière. La famille MPT est un élément fondamental de cette révolution. Dans un avenir proche, nous pouvons nous attendre à voir des modèles open source disponibles dans le commerce qui sont bien plus puissants et efficaces que la famille MPT.

Pour les dernières nouvelles sur l'IA, visitez unir.ai.