Intelligence artificielle
Dévoilant Meta Llama 3 : Un bond en avant dans les modèles de langage à grande échelle
Dans le domaine de l’IA générative, Meta continue de mener avec son engagement en faveur de la disponibilité open-source, en distribuant sa série avancée de Modèles de Langage à Grande Échelle Meta AI (Llama) à l’échelle mondiale aux développeurs et aux chercheurs. En s’appuyant sur ses initiatives progressives, Meta a récemment introduit la troisième itération de cette série, Llama 3. Cette nouvelle édition améliore considérablement Llama 2, offrant de nombreuses améliorations et établissant des références qui défient les concurrents de l’industrie tels que Google, Mistral et Anthropic. Cet article explore les avancées significatives de Llama 3 et comment il se compare à son prédécesseur, Llama 2.
La série Llama de Meta : De l’exclusivité à l’accès ouvert et aux performances améliorées
Meta a lancé sa série Llama en 2022 avec le lancement de Llama 1, un modèle confiné à une utilisation non commerciale et accessible uniquement à des institutions de recherche sélectionnées en raison des exigences computationnelles immenses et de la nature propriétaire qui caractérisaient les LLM les plus récents à l’époque. En 2023, avec le lancement de Llama 2, Meta AI s’est tourné vers une plus grande ouverture, offrant le modèle gratuitement à la fois pour la recherche et les fins commerciales. Cette démarche visait à démocratiser l’accès aux technologies d’IA générative sophistiquées, permettant à un plus large éventail d’utilisateurs, notamment les startups et les petites équipes de recherche, d’innover et de développer des applications sans les coûts élevés généralement associés aux modèles à grande échelle. En continuant cette tendance vers l’ouverture, Meta a introduit Llama 3, qui se concentre sur l’amélioration des performances des modèles plus petits sur divers benchmarks industriels.
Présentation de Llama 3
Llama 3 est la deuxième génération de modèles de langage à grande échelle open-source de Meta, présentant à la fois des modèles pré-entraînés et des modèles affinés avec 8B et 70B paramètres. Conformément à ses prédécesseurs, Llama 3 utilise une architecture de transformateur uniquement décodeur et continue la pratique d’un entraînement autoregressif, auto-supervisé pour prédire les jetons suivants dans les séquences de texte. Llama 3 est pré-entraîné sur un jeu de données sept fois plus grand que celui utilisé pour Llama 2, comportant plus de 15 billions de jetons tirés d’un mélange nouvellement curé de données en ligne publiques. Ce vaste jeu de données est traité à l’aide de deux grappes équipées de 24 000 GPU. Pour maintenir la haute qualité de ces données d’entraînement, diverses techniques d’IA axées sur les données ont été employées, notamment des filtres heuristiques et NSFW, une déduplication sémantique et une classification de la qualité du texte. Conçu pour les applications de dialogue, le modèle Instruct de Llama 3 a été considérablement amélioré, incorporant plus de 10 millions d’échantillons de données annotés par des humains et exploitant un mélange sophistiqué de méthodes d’entraînement telles que l’affinage supervisé (SFT), l’échantillonnage de rejet, l’optimisation de la politique proximale (PPO) et l’optimisation directe de la politique (DPO).
Llama 3 vs. Llama 2 : Améliorations clés
Llama 3 apporte plusieurs améliorations par rapport à Llama 2, améliorant considérablement sa fonctionnalité et ses performances :
- Vocabulaire étendu : Llama 3 a augmenté son vocabulaire à 128 256 jetons, contre 32 000 jetons pour Llama 2. Cette amélioration prend en charge une codification de texte plus efficace pour les entrées et les sorties et renforce ses capacités multilingues.
- Longueur de contexte étendue : Les modèles Llama 3 offrent une longueur de contexte de 8 000 jetons, doublant les 4 090 jetons pris en charge par Llama 2. Cette augmentation permet une gestion de contenu plus étendue, englobant à la fois les invites de l’utilisateur et les réponses du modèle.
- Données d’entraînement améliorées : Le jeu de données d’entraînement pour Llama 3 est sept fois plus grand que celui de Llama 2, comprenant quatre fois plus de code. Il contient plus de 5 % de données de haute qualité non anglaises couvrant plus de 30 langues, ce qui est crucial pour le soutien d’applications multilingues. Ces données font l’objet d’un contrôle qualité rigoureux à l’aide de techniques avancées telles que des filtres heuristiques et NSFW, une déduplication sémantique et des classificateurs de texte.
- Affinage et évaluation des instructions améliorés : S’écartant de Llama 2, Llama 3 utilise des techniques d’affinage d’instructions avancées, notamment l’affinage supervisé (SFT), l’échantillonnage de rejet, l’optimisation de la politique proximale (PPO) et l’optimisation directe de la politique (DPO). Pour compléter ce processus, un nouveau jeu d’évaluation humaine de haute qualité a été introduit, composé de 1 800 invites couvrant divers cas d’utilisation tels que les conseils, le brainstorming, la classification, la codification, etc., garantissant une évaluation et un affinage complets et précis des capacités du modèle.
- Sécurité avancée de l’IA : Llama 3, comme Llama 2, intègre des mesures de sécurité strictes telles que l’affinage d’instructions et le red teaming complet pour atténuer les risques, en particulier dans des domaines critiques tels que la cybersécurité et les menaces biologiques. Pour soutenir ces efforts, Meta a également introduit Llama Guard 2, affiné sur la version 8B de Llama 3. Ce nouveau modèle améliore la série Llama Guard en classifiant les entrées et les réponses des LLM pour identifier le contenu potentiellement dangereux, le rendant idéal pour les environnements de production.
Disponibilité de Llama 3
Les modèles Llama 3 sont maintenant intégrés à l’écosystème Hugging Face, améliorant l’accessibilité pour les développeurs. Les modèles sont également disponibles via des plateformes de modèle en tant que service telles que Perplexity Labs et Fireworks.ai, et sur des plateformes cloud telles que AWS SageMaker, Azure ML et Vertex AI. Meta prévoit d’élargir encore la disponibilité de Llama 3, notamment sur des plateformes telles que Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM et Snowflake. De plus, le support matériel pour Llama 3 sera étendu pour inclure des plateformes d’AMD, AWS, Dell, Intel, NVIDIA et Qualcomm.
Améliorations à venir dans Llama 3
Meta a révélé que la version actuelle de Llama 3 n’est que la première phase de sa vision plus large pour la version complète de Llama 3. Ils développent un modèle avancé avec plus de 400 milliards de paramètres qui introduira de nouvelles fonctionnalités, notamment la multimodalité et la capacité de gérer plusieurs langues. Cette version améliorée comportera également une fenêtre de contexte significativement étendue et des capacités de performances globales améliorées.
En résumé
Llama 3 de Meta marque une évolution significative dans le paysage des modèles de langage à grande échelle, propulsant la série non seulement vers une plus grande accessibilité open-source mais également en améliorant considérablement ses capacités de performance. Avec un jeu de données d’entraînement sept fois plus grand que son prédécesseur et des fonctionnalités telles que le vocabulaire étendu et la longueur de contexte accrue, Llama 3 établit de nouvelles références qui défient même les concurrents les plus solides de l’industrie.
Cette troisième itération ne continue pas seulement à démocratiser la technologie d’IA en rendant des capacités de haut niveau accessibles à un spectre plus large de développeurs, mais introduit également des avancées significatives en matière de sécurité et de précision d’entraînement. En intégrant ces modèles dans des plateformes telles que Hugging Face et en étendant la disponibilité via les principaux services cloud, Meta s’assure que Llama 3 est à la fois omniprésent et puissant.
En regardant vers l’avenir, les développements en cours de Meta promettent des capacités encore plus robustes, notamment la multimodalité et le soutien étendu des langues, ce qui prépare le terrain pour que Llama 3 ne soit pas seulement en concurrence avec d’autres modèles d’IA majeurs sur le marché, mais les dépasse potentiellement. Llama 3 est un témoignage de l’engagement de Meta à diriger la révolution de l’IA, en fournissant des outils qui ne sont pas seulement plus accessibles mais également considérablement plus avancés et plus sûrs pour une base d’utilisateurs mondiaux.






