Meilleur de

5 meilleurs LLM Open Source (mai 2024)

Le kit de préparation mis à jour on 1 mai 2024

Alex McFarland ainsi que le Antoine Tardif

Dans le monde en évolution rapide de l'intelligence artificielle (IA), les grands modèles de langage (LLM) sont devenus une pierre angulaire, stimulant les innovations et remodelant la façon dont nous interagissons avec la technologie.

À mesure que ces modèles deviennent de plus en plus sophistiqués, on met de plus en plus l'accent sur la démocratisation de leur accès. Les modèles open source, en particulier, jouent un rôle central dans cette démocratisation, offrant aux chercheurs, développeurs et passionnés la possibilité d'approfondir leurs subtilités, de les affiner pour des tâches spécifiques, ou même de s'appuyer sur leurs fondations.

Dans ce blog, nous explorerons certains des meilleurs LLM open source qui font des vagues dans la communauté de l'IA, chacun apportant ses forces et ses capacités uniques à la table.

1. Llama 2

Meta's Llama 2 est un ajout révolutionnaire à leur gamme de modèles d'IA. Ce n'est pas juste un autre modèle; il est conçu pour alimenter une gamme d'applications de pointe. Les données d'entraînement de Llama 2 sont vastes et variées, ce qui en fait une avancée significative par rapport à son prédécesseur. Cette diversité de formation garantit que Llama 2 n'est pas seulement une amélioration progressive, mais une étape monumentale vers l'avenir des interactions basées sur l'IA.

La collaboration entre Meta et Microsoft a élargi les horizons de Llama 2. Le modèle open source est désormais pris en charge sur des plates-formes comme Azure et Windows, visant à fournir aux développeurs et aux organisations les outils nécessaires pour créer des expériences génératives basées sur l'IA. Ce partenariat souligne l'engagement des deux entreprises à rendre l'IA plus accessible et ouverte à tous.

Llama 2 n'est pas seulement un successeur du modèle Llama original ; cela représente un changement de paradigme dans le domaine des chatbots. Alors que le premier modèle Llama était révolutionnaire dans la génération de texte et de code, sa disponibilité était limitée pour éviter les abus. Lama 2, en revanche, devrait toucher un public plus large. Il est optimisé pour des plates-formes telles qu'AWS, Azure et la plate-forme d'hébergement de modèles d'IA de Hugging Face. De plus, avec la collaboration de Meta avec Microsoft, Llama 2 est sur le point de laisser sa marque non seulement sur Windows, mais également sur les appareils alimentés par le système sur puce Snapdragon de Qualcomm.

La sécurité est au cœur de la conception de Llama 2. Reconnaissant les défis auxquels étaient confrontés les grands modèles de langage antérieurs comme GPT, qui produisaient parfois du contenu trompeur ou préjudiciable, Meta a pris des mesures importantes pour assurer la fiabilité de Llama 2. Le modèle a suivi une formation rigoureuse pour minimiser les « hallucinations », la désinformation et les préjugés.

Principales caractéristiques de LLaMa 2 :

Diverses données d'entraînement : Les données d'entraînement de Llama 2 sont à la fois étendues et variées, garantissant une compréhension et des performances complètes.
Collaboration avec Microsoft : Llama 2 est pris en charge sur des plates-formes telles qu'Azure et Windows, élargissant ainsi son champ d'application.
Disponibilité ouverte : Contrairement à son prédécesseur, Llama 2 est disponible pour un public plus large, prêt à être peaufiné sur plusieurs plates-formes.
Conception axée sur la sécurité : Meta a mis l'accent sur la sécurité, en veillant à ce que Llama 2 produise des résultats précis et fiables tout en minimisant les sorties nocives.
Versions optimisées : Llama 2 est disponible en deux versions principales - Llama 2 et Llama 2-Chat, cette dernière étant spécialement conçue pour les conversations bidirectionnelles. Ces versions varient en complexité de 7 milliards à 70 milliards de paramètres.
Formation renforcée : Llama 2 a été formé sur deux millions de jetons, une augmentation significative par rapport aux 1.4 billions de jetons du Llama original.

2. Bloom

En 2022, après un effort de collaboration mondial impliquant des volontaires de plus de 70 pays et des experts de Hugging Face, le projet BLOOM a été dévoilé. Ce grand modèle de langage (LLM), créé dans le cadre d'une initiative d'un an, est conçu pour la génération de texte autorégressive, capable d'étendre une invite de texte donnée. Il a été formé sur un corpus massif de données textuelles utilisant une puissance de calcul substantielle.

Les débuts de BLOOM ont constitué une étape importante pour rendre la technologie de l'IA générative plus accessible. En tant que LLM open source, il possède 176 milliards de paramètres, ce qui en fait l'un des plus redoutables de sa catégorie. BLOOM a la capacité de générer un texte cohérent et précis dans 46 langues et 13 langages de programmation.

Le projet met l'accent sur la transparence, permettant au public d'accéder à son code source et à ses données de formation. Cette ouverture invite à un examen, une utilisation et une amélioration continus du modèle.

Accessible gratuitement via la plateforme Hugging Face, BLOOM témoigne de l’innovation collaborative en matière d’IA.

Principales caractéristiques de Bloom :

Capacités multilingues : BLOOM maîtrise la génération de texte dans 46 langues et 13 langages de programmation, mettant en valeur sa large gamme linguistique.
Accès open source : Le code source et les données de formation du modèle sont accessibles au public, favorisant la transparence et l'amélioration collaborative.
Génération de texte autorégressive : Conçu pour continuer le texte à partir d'une invite donnée, BLOOM excelle dans l'extension et la complétion de séquences de texte.
Nombre massif de paramètres : Avec 176 milliards de paramètres, BLOOM se présente comme l’un des LLM open source les plus puissants qui existent.
Collaboration mondiale : Développé dans le cadre d'un projet d'un an avec la contribution de bénévoles de plus de 70 pays et de chercheurs de Hugging Face.
Accessibilité gratuite : Les utilisateurs peuvent accéder et utiliser BLOOM gratuitement via l'écosystème Hugging Face, renforçant ainsi sa démocratisation dans le domaine de l'IA.
Formation à l'échelle industrielle : Le modèle a été formé sur de grandes quantités de données textuelles en utilisant d'importantes ressources informatiques, garantissant ainsi des performances robustes.

3. MPT-7B

MosaicML Foundations a apporté une contribution significative à cet espace avec l'introduction de MPT-7B, leur dernier LLM open source. MPT-7B, acronyme de MosaicML Pretrained Transformer, est un modèle de transformateur de type GPT, décodeur uniquement. Ce modèle bénéficie de plusieurs améliorations, notamment des implémentations de couches optimisées pour les performances et des modifications architecturales qui garantissent une plus grande stabilité de formation.

Une caractéristique remarquable de MPT-7B est sa formation sur un vaste ensemble de données comprenant 1 9.5 milliards de jetons de texte et de code. Cette formation rigoureuse a été exécutée sur la plate-forme MosaicML sur une période de XNUMX jours.

La nature open source du MPT-7B le positionne comme un outil précieux pour les applications commerciales. Il a le potentiel d'avoir un impact significatif sur l'analyse prédictive et les processus décisionnels des entreprises et des organisations.

En plus du modèle de base, MosaicML Foundations publie également des modèles spécialisés adaptés à des tâches spécifiques, tels que MPT-7B-Instruct pour le suivi d'instructions abrégées, MPT-7B-Chat pour la génération de dialogues et MPT-7B-StoryWriter-65k+. pour la création d'histoires longues.

Le parcours de développement de MPT-7B a été complet, l'équipe MosaicML gérant toutes les étapes, de la préparation des données au déploiement en quelques semaines. Les données provenaient de divers référentiels, et l'équipe a utilisé des outils tels que GPT-NeoX d'EleutherAI et le tokenizer 20B pour assurer un mélange de formation varié et complet.

Présentation des principales caractéristiques du MPT-7B :

Licence commerciale : MPT-7B est autorisé pour un usage commercial, ce qui en fait un atout précieux pour les entreprises.
Données d'entraînement étendues : Le modèle propose une formation sur un vaste ensemble de données de 1 XNUMX milliards de jetons.
Gestion des entrées longues : MPT-7B est conçu pour traiter des entrées extrêmement longues sans compromis.
Rapidité et efficacité : Le modèle est optimisé pour une formation et une inférence rapides, garantissant des résultats rapides.
Code Open Source : MPT-7B est livré avec un code de formation open source efficace, favorisant la transparence et la facilité d'utilisation.
Excellence comparative : Le MPT-7B a démontré sa supériorité sur les autres modèles open source de la gamme 7B-20B, sa qualité correspondant à celle du LLaMA-7B.

4. Falcon

Falcon LLM, est un modèle qui a rapidement atteint le sommet de la hiérarchie LLM. Falcon LLM, en particulier Falcon-40B, est un LLM fondamental équipé de 40 milliards de paramètres et a été formé sur un impressionnant billion de jetons. Il fonctionne comme un modèle de décodeur autorégressif uniquement, ce qui signifie essentiellement qu'il prédit le jeton suivant dans une séquence basée sur les jetons précédents. Cette architecture rappelle le modèle GPT. Notamment, l'architecture de Falcon a démontré des performances supérieures à GPT-3, réalisant cet exploit avec seulement 75 % du budget de calcul de formation et nécessitant beaucoup moins de calcul pendant l'inférence.

L'équipe du Technology Innovation Institute a mis l'accent sur la qualité des données lors du développement de Falcon. Reconnaissant la sensibilité des LLM à la qualité des données de formation, ils ont construit un pipeline de données pouvant atteindre des dizaines de milliers de cœurs de processeur. Cela a permis un traitement rapide et l'extraction de contenu de haute qualité du Web, grâce à des processus de filtrage et de déduplication approfondis.

En plus du Falcon-40B, TII a également introduit d'autres versions, dont le Falcon-7B, qui possède 7 milliards de paramètres et a été formé sur 1,500 40 milliards de jetons. Il existe également des modèles spécialisés tels que Falcon-7B-Instruct et Falcon-XNUMXB-Instruct, adaptés à des tâches spécifiques.

La formation du Falcon-40B a été un processus de longue haleine. Le modèle a été formé sur l'ensemble de données RefinedWeb, un ensemble de données Web anglais massif construit par TII. Cet ensemble de données a été construit sur CommonCrawl et a subi un filtrage rigoureux pour garantir la qualité. Une fois le modèle préparé, il a été validé par rapport à plusieurs références open source, notamment EAI Harness, HELM et BigBench.

Aperçu des fonctionnalités clés de Falcon LLM :

Paramètres étendus : Le Falcon-40B est équipé de 40 milliards de paramètres, garantissant un apprentissage et des performances complets.
Modèle avec décodeur autorégressif uniquement : Cette architecture permet à Falcon de prédire les jetons suivants en fonction des précédents, comme le modèle GPT.
Une performance supérieure: Falcon surpasse GPT-3 tout en n'utilisant que 75 % du budget de calcul de formation.
Pipeline de données de haute qualité : Le pipeline de données de TII assure l'extraction de contenu de haute qualité du Web, crucial pour la formation du modèle.
Variété de modèles : En plus du Falcon-40B, TII propose le Falcon-7B et des modèles spécialisés comme le Falcon-40B-Instruct et le Falcon-7B-Instruct.
Disponibilité Open Source : Falcon LLM a été open source, favorisant l'accessibilité et l'inclusivité dans le domaine de l'IA.

5. Vigogne-13B

LMSYS ORG a fait une marque significative dans le domaine des LLM open source avec l'introduction de Vicuna-13B. Ce chatbot open source a été méticuleusement formé en affinant LLaMA sur les conversations partagées par les utilisateurs provenant de ShareGPT. Les évaluations préliminaires, avec GPT-4 agissant en tant que juge, indiquent que Vicuna-13B atteint plus de 90% de qualité des modèles renommés comme OpenAI ChatGPT et Google Bard.

De manière impressionnante, Vicuna-13B surpasse d'autres modèles notables tels que LLaMA et Stanford Alpaca dans plus de 90% des cas. L'ensemble du processus de formation pour Vicuna-13B a été exécuté à un coût d'environ 300 $. Pour ceux qui souhaitent explorer ses capacités, le code, les poids et une démo en ligne ont été mis à la disposition du public à des fins non commerciales.

Le modèle Vicuna-13B a été affiné avec 70 4 conversations ChatGPT partagées par les utilisateurs, ce qui lui permet de générer des réponses plus détaillées et bien structurées. La qualité de ces réponses est comparable à ChatGPT. L'évaluation des chatbots, cependant, est une entreprise complexe. Avec les progrès de GPT-4, il y a une curiosité croissante quant à son potentiel à servir de cadre d'évaluation automatisé pour la génération de benchmarks et les évaluations de performances. Les premiers résultats suggèrent que GPT-4 peut produire des classements cohérents et des évaluations détaillées lors de la comparaison des réponses des chatbots. Des évaluations préliminaires basées sur GPT-90 montrent que Vicuna atteint XNUMX % des capacités de modèles tels que Bard/ChatGPT.

Présentation des principales caractéristiques de Vicuna-13B :

Nature Open Source : Vicuna-13B est accessible au public, ce qui favorise la transparence et l'implication de la communauté.
Données d'entraînement étendues : Le modèle a été formé sur 70 XNUMX conversations partagées par les utilisateurs, garantissant une compréhension complète des diverses interactions.
Performances compétitives : Les performances de Vicuna-13B sont comparables à celles des leaders de l'industrie tels que ChatGPT et Google Bard.
Formation rentable : L'ensemble du processus de formation pour Vicuna-13B a été exécuté à un faible coût d'environ 300 $.
Réglage fin sur LLaMA : Le modèle a été affiné sur LLaMA, garantissant des performances et une qualité de réponse améliorées.
Disponibilité de la démo en ligne : Une démo interactive en ligne est disponible pour que les utilisateurs testent et expérimentent les capacités de Vicuna-13B.

Le domaine en expansion des grands modèles de langage

Le domaine des grands modèles de langage est vaste et en constante expansion, chaque nouveau modèle repoussant les limites de ce qui est possible. La nature open-source des LLM discutées dans ce blog met non seulement en valeur l'esprit de collaboration de la communauté de l'IA, mais ouvre également la voie à de futures innovations.

Ces modèles, des impressionnantes capacités de chatbot de Vicuna aux mesures de performances supérieures de Falcon, représentent le summum de la technologie LLM actuelle. Alors que nous continuons d'assister à des progrès rapides dans ce domaine, il est clair que les modèles open source joueront un rôle crucial dans le façonnement de l'avenir de l'IA.

Que vous soyez un chercheur chevronné, un passionné d'IA en herbe ou quelqu'un curieux du potentiel de ces modèles, il n'y a pas de meilleur moment pour plonger et explorer les vastes possibilités qu'ils offrent.

Rubriques connexes:best of

10 meilleurs outils d'IA pour le marketing d'affiliation (mai 2024)

Ne manquez pas

10 meilleurs scribes médicaux en IA (mai 2024)

Alex McFarland

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.

Antoine Tardif

Partenaire fondateur d'unite.AI et membre du Conseil technologique de Forbes, Antoine est un futuriste qui est passionné par l'avenir de l'IA et de la robotique.

Il est également le fondateur de Titres.io, un site Web axé sur l'investissement dans les technologies de rupture.

Unite.AI

5 meilleurs LLM Open Source (mai 2024)

Meilleur de

5 meilleurs LLM Open Source (mai 2024)

Table des matières

1. Llama 2

2. Bloom

3. MPT-7B

4. Falcon

5. Vigogne-13B

Le domaine en expansion des grands modèles de langage

Derniers Articles

Unite.AI

5 meilleurs LLM Open Source (mai 2024)

Table des matières

1. Llama 2

2. Bloom

3. MPT-7B

4. Falcon

5. Vigogne-13B

Le domaine en expansion des grands modèles de langage

Tu peux aimer

Derniers Articles