Intelligence artificielle

Tout ce que vous devez savoir sur Llama 3 | Le modèle open source le plus puissant à ce jour | Concepts d'utilisation

Le kit de préparation mis à jour on 24 avril 2024

Meta Llama 3 LLM open source SURPERFORMER GPT 4

Meta a récemment publié Llama 3, la prochaine génération de son grand modèle de langage (LLM) open source de pointe. S'appuyant sur les bases établies par son prédécesseur, Llama 3 vise à améliorer les capacités qui ont positionné Llama 2 comme un concurrent open source important de ChatGPT, comme indiqué dans l'examen complet de l'article. Llama 2 : une plongée approfondie dans le challenger open source de ChatGPT.

Dans cet article, nous discuterons des concepts de base derrière Llama 3, explorerons son architecture innovante et son processus de formation, et fournirons des conseils pratiques sur la manière d'accéder, d'utiliser et de déployer ce modèle révolutionnaire de manière responsable. Que vous soyez chercheur, développeur ou passionné d'IA, cet article vous fournira les connaissances et les ressources nécessaires pour exploiter la puissance de Llama 3 pour vos projets et applications.

L'évolution du lama : du lama 2 au lama 3

Le PDG de Meta, Mark Zuckerberg, annoncé les débuts de Llama 3, le dernier modèle d'IA développé par Meta AI. Ce modèle de pointe, désormais open source, devrait améliorer les différents produits de Meta, notamment Messenger et Instagram. Zuckerberg a souligné que Llama 3 positionne Meta AI comme la plus avancée assistant IA disponible gratuitement.

Avant de parler des spécificités de Llama 3, revenons brièvement sur son prédécesseur, Llama 2. Introduit en 2022, Llama 2 a constitué une étape importante dans le paysage LLM open source, offrant un modèle puissant et efficace pouvant être exécuté sur du matériel grand public. .

Cependant, même si Llama 2 était une réussite notable, il avait ses limites. Les utilisateurs ont signalé des problèmes de faux refus (le modèle refusant de répondre à des invites bénignes), une utilité limitée et des possibilités d'amélioration dans des domaines tels que le raisonnement et la génération de code.

Entrez dans Llama 3 : la réponse de Meta à ces défis et les commentaires de la communauté. Avec Llama 3, Meta a décidé de créer les meilleurs modèles open source comparables aux meilleurs modèles propriétaires disponibles aujourd'hui, tout en donnant la priorité à des pratiques de développement et de déploiement responsables.

Lama 3 : Architecture et formation

L'une des innovations clés de Llama 3 est son tokenizer, qui propose un vocabulaire considérablement élargi de Jetons 128,256 (contre 32,000 2 dans Llama XNUMX). Ce vocabulaire plus large permet un codage plus efficace du texte, tant pour l'entrée que pour la sortie, conduisant potentiellement à un multilinguisme plus fort et à des améliorations globales des performances.

Llama 3 intègre également Attention aux requêtes groupées (GQA), une technique de représentation efficace qui améliore l'évolutivité et aide le modèle à gérer plus efficacement des contextes plus longs. Le 8B La version de Llama 3 utilise GQA, tandis que les deux 8B ainsi que 70M les modèles peuvent traiter des séquences jusqu'à Jetons 8,192.

Données de formation et mise à l'échelle

Les données d'entraînement utilisées pour Llama 3 sont un facteur crucial dans l'amélioration de ses performances. Meta a organisé un ensemble de données massif de plus de 15 billions jetons provenant de sources en ligne accessibles au public, sept fois plus volumineux que l'ensemble de données utilisé pour Llama 2. Cet ensemble de données comprend également une partie importante (plus de 5 %) de données non anglaises de haute qualité, couvrant plus de 30 langues , en préparation de futures applications multilingues.

Pour garantir la qualité des données, Meta a utilisé des techniques de filtrage avancées, notamment des filtres heuristiques, des filtres NSFW, une déduplication sémantique et des classificateurs de texte formés sur Llama 2 pour prédire la qualité des données. L'équipe a également mené des expériences approfondies pour déterminer la combinaison optimale de sources de données pour le pré-entraînement, garantissant ainsi que Llama 3 fonctionne bien dans un large éventail de cas d'utilisation, notamment les anecdotes, les STEM, le codage et les connaissances historiques.

L'intensification de la pré-formation était un autre aspect essentiel du développement de Llama 3. Meta a développé des lois de mise à l'échelle qui leur ont permis de prédire les performances de ses plus grands modèles sur des tâches clés, telles que la génération de code, avant de les entraîner. Cela a éclairé les décisions sur la combinaison de données et l'allocation de calcul, conduisant finalement à une formation plus efficace et efficiente.

Les plus grands modèles de Llama 3 ont été formés sur deux clusters de 24,000 2 GPU personnalisés, en tirant parti d'une combinaison de techniques de parallélisation des données, de parallélisation de modèles et de parallélisation de pipelines. La pile de formation avancée de Meta a automatisé la détection, la gestion et la maintenance des erreurs, maximisant la disponibilité du GPU et augmentant l'efficacité de la formation d'environ trois fois par rapport à Llama XNUMX.

Instruction de mise au point et de performances

Pour libérer tout le potentiel de Llama 3 en matière d'applications de chat et de dialogue, Meta a innové dans son approche de la mise au point des instructions. Sa méthode combine mise au point supervisée (SFT), échantillonnage de rejet, optimisation des politiques proximales (OPP), et optimisation des préférences directes (DPO).

La qualité des invites utilisées dans SFT et les classements de préférences utilisés dans PPO et DPO ont joué un rôle crucial dans les performances des modèles alignés. L'équipe de Meta a soigneusement conservé ces données et effectué plusieurs cycles d'assurance qualité sur les annotations fournies par des annotateurs humains.

La formation sur les classements de préférences via PPO et DPO a également considérablement amélioré les performances de Llama 3 dans les tâches de raisonnement et de codage. Meta a découvert que même lorsqu'un modèle a du mal à répondre directement à une question de raisonnement, il peut toujours produire la trace de raisonnement correcte. La formation sur les classements de préférences a permis au modèle d'apprendre à sélectionner la bonne réponse à partir de ces traces.

Les résultats parlent d'eux-mêmes : Llama 3 surpasse de nombreux modèles de chat open source disponibles sur les références courantes de l'industrie, établissant de nouvelles performances de pointe pour les LLM aux échelles de paramètres 8B et 70B.

Considérations relatives au développement responsable et à la sécurité

Tout en recherchant des performances de pointe, Meta a également donné la priorité aux pratiques de développement et de déploiement responsables pour Llama 3. La société a adopté une approche au niveau du système, envisageant les modèles Llama 3 comme faisant partie d'un écosystème plus large qui place les développeurs aux commandes, leur permettant de concevoir et personnalisez les modèles en fonction de leurs cas d'utilisation spécifiques et de leurs exigences de sécurité.

Meta a mené de nombreux exercices d'équipe rouge, effectué des évaluations contradictoires et mis en œuvre des techniques d'atténuation de la sécurité pour réduire les risques résiduels dans ses modèles adaptés aux instructions. Cependant, la société reconnaît que des risques résiduels persisteront probablement et recommande aux développeurs d'évaluer ces risques dans le contexte de leurs cas d'utilisation spécifiques.

Pour soutenir un déploiement responsable, Meta a mis à jour son Guide d'utilisation responsable, fournissant une ressource complète permettant aux développeurs de mettre en œuvre les meilleures pratiques de sécurité au niveau du modèle et du système pour leurs applications. Le guide couvre des sujets tels que la modération du contenu, l'évaluation des risques et l'utilisation d'outils de sécurité tels que Llama Guard 2 et Code Shield.

Llama Guard 2, construit sur la taxonomie MLCommons, est conçu pour classer les entrées (invites) et les réponses LLM, en détectant le contenu qui peut être considéré comme dangereux ou nuisible. CyberSecEval 2 étend son prédécesseur en ajoutant des mesures visant à empêcher les abus de l'interpréteur de code du modèle, les capacités de cybersécurité offensives et la susceptibilité aux attaques par injection rapide.

Code Shield, une nouvelle introduction avec Llama 3, ajoute un filtrage au moment de l'inférence du code non sécurisé produit par les LLM, atténuant ainsi les risques associés aux suggestions de code non sécurisé, aux abus de l'interpréteur de code et à l'exécution de commandes sécurisées.

Accéder et utiliser Llama 3

Suite au lancement de Llama 3 de Meta AI, plusieurs outils open source ont été mis à disposition pour un déploiement local sur divers systèmes d'exploitation, notamment Mac, Windows et Linux. Cette section détaille trois outils notables : Ollama, Open WebUI et LM Studio, chacun offrant des fonctionnalités uniques pour exploiter les capacités de Llama 3 sur les appareils personnels.

Ollama: Disponible pour Mac, Linux et Windows, Ollama simplifie le fonctionnement de Llama 3 et d'autres grands modèles de langage sur les ordinateurs personnels, même ceux dotés d'un matériel moins robuste. Il comprend un gestionnaire de packages pour une gestion facile des modèles et prend en charge les commandes sur toutes les plates-formes pour télécharger et exécuter des modèles.

Ouvrez l'interface Web avec Docker: Cet outil fournit une interface conviviale, DockerInterface basée sur Mac, Linux et Windows. Il s'intègre parfaitement aux modèles du registre Ollama, permettant aux utilisateurs de déployer et d'interagir avec des modèles comme Llama 3 dans une interface Web locale.

Studio LM: Ciblant les utilisateurs sur Mac, Linux et Windows, Studio LM prend en charge une gamme de modèles et est construit sur le projet llama.cpp. Il fournit une interface de discussion et facilite l'interaction directe avec divers modèles, y compris le modèle Llama 3 8B Instruct.

Ces outils garantissent que les utilisateurs peuvent utiliser efficacement Llama 3 sur leurs appareils personnels, en s'adaptant à une gamme de compétences et d'exigences techniques. Chaque plateforme propose des processus étape par étape pour la configuration et l'interaction des modèles, rendant l'IA avancée plus accessible aux développeurs et aux passionnés.

Déployer Llama 3 à grande échelle

En plus de fournir un accès direct aux pondérations du modèle, Meta s'est associé à divers fournisseurs de cloud, services d'API de modèle et plates-formes matérielles pour permettre un déploiement transparent de Llama 3 à grande échelle.

L'un des principaux avantages de Llama 3 est l'efficacité améliorée de ses jetons, grâce au nouveau tokenizer. Les benchmarks montrent que Llama 3 nécessite jusqu'à 15 % de jetons en moins par rapport à Llama 2, ce qui permet une inférence plus rapide et plus rentable.

L'intégration de Grouped Query Attention (GQA) dans la version 8B de Llama 3 contribue à maintenir une efficacité d'inférence comparable à celle de la version 7B de Llama 2, malgré l'augmentation du nombre de paramètres.

Pour simplifier le processus de déploiement, Meta a fourni le référentiel Llama Recipes, qui contient du code open source et des exemples pour le réglage fin, le déploiement, l'évaluation du modèle, etc. Ce référentiel constitue une ressource précieuse pour les développeurs cherchant à exploiter les capacités de Llama 3 dans leurs applications.

Pour ceux qui souhaitent explorer les performances de Llama 3, Meta a intégré ses derniers modèles dans Meta AI, un assistant d'IA de premier plan construit avec la technologie Llama 3. Les utilisateurs peuvent interagir avec Meta AI via diverses applications Meta, telles que Facebook, Instagram, WhatsApp, Messenger et le Web, pour faire avancer les choses, apprendre, créer et se connecter avec ce qui compte pour eux.

Quelle est la prochaine étape pour Lama 3 ?

Alors que les modèles 8B et 70B marquent le début de la sortie de Llama 3, Meta a des projets ambitieux pour l'avenir de ce LLM révolutionnaire.

Dans les mois à venir, nous pouvons nous attendre à voir de nouvelles fonctionnalités introduites, notamment la multimodalité (la capacité de traiter et de générer différentes modalités de données, telles que des images et des vidéos), le multilinguisme (prise en charge de plusieurs langues) et des fenêtres contextuelles beaucoup plus longues pour des performances améliorées. tâches qui nécessitent un contexte étendu.

De plus, Meta prévoit de publier des modèles de plus grande taille, y compris des modèles comportant plus de 400 milliards de paramètres, qui sont actuellement en formation et montrent des tendances prometteuses en termes de performances et de capacités.

Pour faire progresser ce domaine, Meta publiera également un document de recherche détaillé sur Llama 3, partageant ses conclusions et ses idées avec la communauté plus large de l'IA.

En guise d'aperçu de ce qui va arriver, Meta a partagé quelques premiers instantanés des performances de son plus grand modèle LLM sur divers benchmarks. Bien que ces résultats soient basés sur un premier point de contrôle et soient susceptibles de changer, ils donnent un aperçu passionnant du potentiel futur de Llama 3.

Conclusion

Llama 3 représente une étape importante dans l'évolution des grands modèles de langage open source, repoussant les limites des performances, des capacités et des pratiques de développement responsable. Avec son architecture innovante, son vaste ensemble de données de formation et ses techniques de réglage fin de pointe, Llama 3 établit de nouvelles références de pointe pour les LLM aux échelles de paramètres 8B et 70B.

Cependant, Llama 3 est plus qu'un simple modèle de langage puissant ; cela témoigne de l'engagement de Meta à favoriser un écosystème d'IA ouvert et responsable. En fournissant des ressources complètes, des outils de sécurité et des bonnes pratiques, Meta permet aux développeurs d'exploiter tout le potentiel de Llama 3 tout en garantissant un déploiement responsable adapté à leurs cas d'utilisation et publics spécifiques.

Alors que l'aventure Llama 3 se poursuit, avec de nouvelles capacités, tailles de modèles et résultats de recherche à l'horizon, la communauté de l'IA attend avec impatience les applications innovantes et les percées qui émergeront sans aucun doute de ce LLM révolutionnaire.

Que vous soyez un chercheur repoussant les limites du traitement du langage naturel, un développeur créant la prochaine génération d'applications intelligentes ou un passionné d'IA curieux des dernières avancées, Llama 3 promet d'être un outil puissant dans votre arsenal, ouvrant de nouvelles portes et ouvrir un monde de possibilités.

Rubriques connexes:Flamme lama 2 Llama 3 LLM LLM objectif

Microsoft dévoile Phi-3 : de puissants modèles d'IA ouverts offrant des performances optimales dans des tailles réduites

Ne manquez pas

FrugalGPT : un changement de paradigme dans l'optimisation des coûts pour les grands modèles de langage

Ayush Mittal

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.