Suivez nous sur

Meilleur de

5 meilleurs LLM Open Source (juillet 2025)

mm
Le kit de préparation mis à jour on
LLM Open Source

grands modèles linguistiques (LLM) sont devenus la pierre angulaire de l'IA d'aujourd'hui, stimulant les innovations et remodelant la façon dont nous interagissons avec la technologie.

À mesure que ces modèles deviennent de plus en plus sophistiqués, on met de plus en plus l'accent sur la démocratisation de leur accès. Les modèles open source, en particulier, jouent un rôle central dans cette démocratisation, offrant aux chercheurs, développeurs et passionnés la possibilité d'approfondir leurs subtilités, de les affiner pour des tâches spécifiques, ou même de s'appuyer sur leurs fondations.

Dans ce blog, nous explorerons certains des meilleurs LLM open source qui font des vagues dans la communauté de l'IA. Chacun apporte ses atouts et ses capacités uniques.

1. Llama 3

Metas LLAMA 3 tout simplement stupéfait tout le monde ! (Open SourceGPT-4)

Llama 3 de Meta représente un bond en avant monumental dans leur gamme de grands modèles de langage open source. En tant que successeur du révolutionnaire Llama 2 sorti en 2023, Llama 3 établit un nouvel état de l'art pour les modèles librement disponibles aux échelles de paramètres 8B et 70B. Il ne s'agit pas simplement d'une mise à jour incrémentielle ; il s'agit d'une avancée transformatrice qui permettra aux développeurs de créer des applications de pointe en langage naturel tout en stimulant la recherche ouverte et l'innovation dans le domaine de l'IA.

Les performances inégalées de Llama 3 sont dues à des améliorations majeures de son processus et de son architecture de pré-entraînement. Le modèle a été formé sur un ensemble de données massif de plus de 15 7 milliards de jetons provenant de sources accessibles au public, soit 2 fois plus de données que Llama 4. Cela comprend 3 fois plus de données de code pour renforcer les capacités de codage de Llama 30, ainsi qu'une couverture significative de plus de 3 langues pour jeter les bases des futures versions multilingues. Un filtrage approfondi a été utilisé pour conserver ces données, garantissant que Llama XNUMX n'apprend qu'à partir de sources de la plus haute qualité.

Mais les améliorations de Llama 3 vont au-delà du simple ajout de données. Des optimisations de pointe apportées à l'architecture et au processus de formation du modèle ont considérablement amélioré ses capacités de raisonnement, la génération de code, le suivi des instructions et la diversité des réponses. Un tokenizer amélioré rend Llama 3 jusqu'à 15 % plus efficace en tokens que son prédécesseur. L'attention aux requêtes groupées permet au modèle 8B de maintenir la parité d'inférence avec le modèle 7B précédent.

Source : Méta

Le résultat final est un modèle de langage qui excelle dans une grande variété de tâches linguistiques complexes :

  • Génération créative: Llama 3 peut générer un texte très cohérent et créatif sous forme d'histoires, de scripts, de pièces musicales, de poèmes, etc.
  • Codage et raisonnement: Grâce à ses données améliorées de formation au code, Llama 3 possède des compétences de codage et de raisonnement logique incroyablement solides pour résoudre des problèmes complexes.
  • Question Répondant: En connectant les informations à travers sa vaste base de connaissances, Llama 3 peut fournir des réponses approfondies à des questions sur divers sujets.
  • Récapitulation: Llama 3 est apte à produire des résumés concis mais complets d'articles longs et de contenu factuel.
  • Instructions suivantes: L'une des prouesses les plus impressionnantes de Llama 3 est sa capacité à suivre avec précision des instructions complexes en plusieurs étapes pour des tâches ouvertes.

L'avenir est prometteur pour la série Llama. Meta développe déjà des versions de Llama 3 avec plus de 400 milliards de paramètres qui sont non seulement plus grands mais également multilingues et multimodaux. Les premiers tests montrent que ces modèles à très grande échelle fournissent des résultats prometteurs, compétitifs par rapport aux meilleurs systèmes propriétaires.

Source : Méta

Visitez Lama 3 →

2. Bloom

Introduction à l'IA Bloom Open Source

En 2022, le projet BLOOM a été dévoilé après un effort de collaboration d’un an dirigé par la société d’IA Hugging Face et impliquant plus de 1,000 70 chercheurs bénévoles de plus de 176 pays. BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) est un grand modèle de langage de XNUMX milliards de paramètres conçu pour la génération de texte autorégressive, capable d'étendre une invite de texte donnée pour générer des histoires, des scripts, de la poésie, des articles cohérents, etc.

Ce qui distingue BLOOM est sa nature en libre accès : le modèle, le code source et les données de formation sont tous disponibles gratuitement sous licences ouvertes, contrairement à la plupart des autres grands modèles de langage développés par les entreprises technologiques. Cette ouverture invite à un examen, une utilisation et une amélioration continus du modèle par la communauté plus large de l’IA.

BLOOM possède des capacités multilingues impressionnantes, ayant été formé sur un vaste ensemble de données de 1.6 To (le corpus ROOTS) couvrant 46 langues naturelles et 13 langages de programmation, avec plus de 30 % des données en anglais. Pour de nombreuses langues comme l'espagnol et l'arabe, BLOOM est le premier modèle de sa taille.

Le modèle a été formé pendant 3.5 mois sur le supercalculateur Jean Zay en France à l'aide de 384 GPU NVIDIA A100, rendu possible grâce à une subvention de calcul du gouvernement français, ce qui équivaut à plus de 5 millions d'heures de calcul. Basé sur l'architecture GPT avec des modifications, BLOOM atteint des performances compétitives sur les benchmarks.

Points forts de BLOOM :

  • Libre accès : Les données de modèle, de code et de formation de BLOOM sont disponibles gratuitement, démocratisant l'accès à des modèles de langage puissants et permettant une recherche ouverte.
  • Compétence multilingue : Formé sur des données couvrant 46 langages naturels et 13 langages de programmation, BLOOM dispose de capacités multilingues étendues.
  • Compétences linguistiques polyvalentes : De la génération de texte à la réponse aux questions, en passant par le résumé, la traduction et la génération de code, BLOOM excelle dans une variété de tâches linguistiques.
  • Développement responsable de l'IA : BLOOM a été développé en mettant l’accent sur des pratiques responsables en matière d’IA et est publié sous une licence interdisant les cas d’utilisation malveillante.
  • Déploiement facile : Les développeurs peuvent accéder à BLOOM via la bibliothèque Hugging Face Transformers et la déployer à l'aide d'Accelerate.

Pour l’avenir, l’équipe BigScience prévoit d’étendre BLOOM à davantage de langages, de compresser le modèle et de l’utiliser comme point de départ pour des architectures plus avancées. BLOOM représente une étape majeure pour rendre les grands modèles de langage plus transparents et accessibles à tous.

Visitez Bloom →

3. MPT-7B

MPT-7B - Le premier modèle de style LLaMA entièrement formé et utilisable commercialement

MosaicML Foundations a apporté une contribution significative à cet espace avec l'introduction de MPT-7B, leur dernier LLM open source. MPT-7B, acronyme de MosaicML Pretrained Transformer, est un modèle de transformateur de type GPT, décodeur uniquement. Ce modèle bénéficie de plusieurs améliorations, notamment des implémentations de couches optimisées pour les performances et des modifications architecturales qui garantissent une plus grande stabilité de formation.

Une caractéristique remarquable de MPT-7B est sa formation sur un vaste ensemble de données comprenant 1 9.5 milliards de jetons de texte et de code. Cette formation rigoureuse a été exécutée sur la plate-forme MosaicML sur une période de XNUMX jours.

La nature open source du MPT-7B le positionne comme un outil précieux pour les applications commerciales. Il a le potentiel d'avoir un impact significatif sur l'analyse prédictive et les processus décisionnels des entreprises et des organisations.

En plus du modèle de base, MosaicML Foundations publie également des modèles spécialisés adaptés à des tâches spécifiques, tels que MPT-7B-Instruct pour le suivi d'instructions abrégées, MPT-7B-Chat pour la génération de dialogues et MPT-7B-StoryWriter-65k+. pour la création d'histoires longues.

Le parcours de développement de MPT-7B a été complet, l'équipe MosaicML gérant toutes les étapes, de la préparation des données au déploiement en quelques semaines. Les données provenaient de divers référentiels, et l'équipe a utilisé des outils tels que GPT-NeoX d'EleutherAI et le tokenizer 20B pour assurer un mélange de formation varié et complet.

Présentation des principales caractéristiques du MPT-7B :

  • Licence commerciale : MPT-7B est autorisé pour un usage commercial, ce qui en fait un atout précieux pour les entreprises.
  • Données d'entraînement étendues : Le modèle propose une formation sur un vaste ensemble de données de 1 XNUMX milliards de jetons.
  • Gestion des entrées longues : MPT-7B est conçu pour traiter des entrées extrêmement longues sans compromis.
  • Rapidité et efficacité : Le modèle est optimisé pour une formation et une inférence rapides, garantissant des résultats rapides.
  • Code Open Source : MPT-7B est livré avec un code de formation open source efficace, favorisant la transparence et la facilité d'utilisation.
  • Excellence comparative : Le MPT-7B a démontré sa supériorité sur les autres modèles open source de la gamme 7B-20B, sa qualité correspondant à celle du LLaMA-7B.

Visitez MPT-7B →

4. Falcon 2

Déployez le FALCON-180B instantanément ! Le NOUVEAU modèle d'IA open source n°1

*Vidéo sur le Falcon 180B, le prédécesseur du Falcon 2

Falcon 2 est la dernière génération de modèles open source en grand langage du Technology Innovation Institute (TII) d'Abu Dhabi, s'appuyant sur le succès de leurs précédents modèles Falcon 7B, 40B et 180B sortis en 2023. La série Falcon 2 comprend actuellement :

  • Faucon 2 11B : Un modèle causal de 11 milliards de paramètres uniquement avec décodeur qui surpasse le LLaMA 3 8B de Meta et fonctionne à égalité avec le modèle Gemma 7B de Google sur les tests de référence standard, comme le vérifie le classement Hugging Face.
  • Faucon 2 11B VLM : Une version multimodale révolutionnaire du Falcon 2 11B avec des capacités vision-langage, ce qui en fait l'un des seuls modèles open source à offrir cette fonctionnalité.

Source : TII

Les modèles Falcon 2 sont entièrement open source sous la permissive TII Falcon License 2.0, basée sur Apache 2.0 mais avec une politique d'utilisation acceptable pour promouvoir le développement responsable de l'IA. Cela permet une utilisation gratuite des modèles pour la recherche et la plupart des applications commerciales.

Les modèles Falcon 2 ont été formés sur plus de 5 XNUMX milliards de jetons issus de l'ensemble de données amélioré RefinedWeb, qui comprend un mélange diversifié de données Web de haute qualité, de livres, de rédaction technique, de code et de conversations. Des techniques approfondies de filtrage et de déduplication ont été utilisées pour extraire les meilleures données. Bien qu'elles soient toujours principalement axées sur l'anglais, une partie des données de formation couvre d'autres langues comme l'allemand, l'espagnol, le français et l'italien, jetant ainsi les bases de futurs modèles multilingues.

Falcon 2 utilise une architecture de transformateur optimisée uniquement pour décodeur qui permet des performances élevées à une plus petite échelle par rapport aux autres modèles ouverts. TII prévoit d'améliorer encore son efficacité en utilisant des techniques telles que le mélange d'experts dans les prochaines versions.

En termes de capacités brutes, Falcon 2 11B excelle dans un large éventail de tâches en langage naturel, notamment :

  • Génération de texte de contenu long et cohérent comme des histoires et des articles
  • Réponses aux questions bien informées en connectant des informations sur divers sujets
  • Résumé de haute qualité d'articles longs ou de contenu factuel
  • Instruction précise qui suit une fois affinée
  • Solides performances sur les tests de codage et de raisonnement

La variante Falcon 2 11B VLM ajoute la capacité unique de comprendre des images et de générer du texte basé sur des entrées visuelles et linguistiques. Cela permet de puissants cas d'utilisation multimodaux tels que la réponse visuelle aux questions, le sous-titrage d'images et le raisonnement vision-langage.

Pour l’avenir, TII a partagé son intention d’étendre la série Falcon 2 avec des modèles de plus grande taille tout en mettant l’accent sur l’efficacité et le libre accès. Des techniques telles que le mélange d’experts seront exploitées pour augmenter les capacités sans augmenter considérablement les exigences informatiques.

Visitez Faucon 2 →

5. Vigogne-13B

Exécutez Vicuna-13B sur votre ordinateur local 🤯 | Tutoriel (GPU)

 

LMSYS ORG a fait une marque significative dans le domaine des LLM open source avec Vicuna-13B. Ce chatbot open source a été méticuleusement formé en peaufinant LLaMA sur environ 70 XNUMX conversations partagées par les utilisateurs provenant de ShareGPT.com à l'aide d'API publiques. Pour garantir la qualité des données, les conversations ont été reconverties du HTML en markdown et filtrées pour supprimer les échantillons inappropriés ou de mauvaise qualité. Les longues conversations ont également été divisées en segments plus petits qui correspondent à la longueur maximale du contexte du modèle.

Les évaluations préliminaires, avec GPT-4 agissant en tant que juge, ont indiqué que Vicuna-13B a ​​atteint une qualité de plus de 90 % par rapport à des modèles renommés comme OpenAI ChatGPT et Google Bard. De manière impressionnante, Vicuna-13B a ​​surpassé d'autres modèles notables tels que LLaMA et Stanford Alpaca dans plus de 90 % des cas à l'époque. L'ensemble du processus de formation pour Vicuna-13B a ​​été exécuté pour un coût d'environ 300 $, en tirant parti de techniques telles que les instances ponctuelles, les points de contrôle de gradient et l'attention flash pour optimiser l'utilisation de la mémoire et réduire les coûts. Pour ceux qui souhaitent explorer ses capacités, le code, les poids et une démonstration en ligne ont été rendus publics à des fins non commerciales.

La recette d'entraînement pour Vicuna s'appuie sur le modèle Alpaca de Stanford avec plusieurs améliorations clés :

  • Conversations à plusieurs tours : La perte de formation est ajustée pour tenir compte des conversations à plusieurs tours, en calculant la perte de réglage uniquement sur la sortie du chatbot.
  • Optimisations de la mémoire : La longueur maximale du contexte est étendue de 512 dans Alpaca à 2048 dans Vicuna, permettant la compréhension d'un contexte plus long au prix d'exigences accrues en mémoire GPU. Ce problème est résolu par le biais de points de contrôle de gradient et d’attention flash.
  • Réduction des coûts: Un ensemble de données 40 fois plus grand et une longueur de séquence 4 fois présentaient des défis en termes de dépenses de formation, mais l'utilisation d'instances ponctuelles gérées via SkyPilot a considérablement réduit les coûts : de 82 140 $ à 7 $ pour le modèle 135B et de 300 13 $ à XNUMX $ pour le modèle XNUMXB.

Pour servir Vicuna, un système de service distribué a été construit, capable de gérer plusieurs modèles avec des travailleurs pouvant être connectés de manière flexible à partir de clusters sur site ou du cloud. L'utilisation de contrôleurs tolérants aux pannes et d'instances ponctuelles gérées permet à ce système de bien fonctionner avec des instances ponctuelles moins chères provenant de plusieurs cloud afin de minimiser les coûts de service. Bien qu'il s'agisse actuellement d'une implémentation légère, des travaux sont en cours pour intégrer les dernières recherches afin d'améliorer davantage l'infrastructure de service.

Principales caractéristiques de Vicuna-13B :

  • Nature Open Source : Vicuna-13B est accessible au public, ce qui favorise la transparence et l'implication de la communauté.
  • Données d'entraînement étendues : Le modèle a été formé sur 70 XNUMX conversations partagées par les utilisateurs, garantissant une compréhension complète des diverses interactions.
  • Formation rentable : Des techniques telles que les instances ponctuelles gérées, les points de contrôle de gradient et l'attention flash ont permis une formation rentable à environ 300 $ pour le modèle 13B.
  • Recette d'entraînement améliorée : Vicuna s'appuie sur la recette Alpaca avec des améliorations pour la gestion des conversations multi-tours, l'optimisation de la mémoire et la réduction des coûts.
  • Infrastructure de services distribués : Un système de service distribué flexible et rentable a été construit pour rendre Vicuna accessible au public.
  • Disponibilité de la démo en ligne : Une démo interactive en ligne est disponible pour que les utilisateurs testent et expérimentent les capacités de Vicuna-13B.

Il est important de noter que l'analyse était basée sur des évaluations préliminaires non scientifiques utilisant GPT-4. Une évaluation rigoureuse est encore nécessaire.

Visitez Vicuna-13B →

Le domaine en expansion des grands modèles de langage

Les grands modèles de langage constituent un domaine en évolution rapide, avec de nouveaux modèles repoussant constamment les limites des performances et des capacités. La nature open source des LLM abordés dans cet article démontre l'esprit de collaboration au sein de la communauté de l'IA et jette les bases de l'innovation future.

Ces modèles représentent l’état actuel de la technologie LLM. Les modèles open source joueront sans aucun doute un rôle important dans la poursuite des progrès dans ce domaine.

Pour les chercheurs, les passionnés d’IA et ceux qui souhaitent explorer les applications potentielles de ces modèles, c’est le moment opportun pour s’engager et exploiter les capacités étendues offertes par les LLM open source de pointe.

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.

Antoine est un leader visionnaire et partenaire fondateur d'Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et on le surprend souvent en train de s'extasier sur le potentiel des technologies disruptives et de l'AGI.

En tant que joueur futuriste, il se consacre à l'exploration de la manière dont ces innovations façonneront notre monde. En outre, il est le fondateur de Titres.io, une plateforme axée sur l’investissement dans les technologies de pointe qui redéfinissent l’avenir et remodèlent des secteurs entiers.