Suivez nous sur

Snowflake Arctic : le LLM de pointe pour l'IA d'entreprise

Intelligence Artificielle

Snowflake Arctic : le LLM de pointe pour l'IA d'entreprise

mm
Snowflake Arctic : le LLM de pointe pour l'IA d'entreprise

Aujourd'hui, les entreprises explorent de plus en plus les moyens d'exploiter les grands modèles de langage (LLM) pour augmenter la productivité et créer des applications intelligentes. Cependant, la plupart des options LLM disponibles sont des modèles génériques non adaptés aux besoins spécialisés des entreprises, tels que l'analyse des données, le codage et l'automatisation des tâches. Entrer Flocon de neige Arctique – un LLM de pointe spécialement conçu et optimisé pour les cas d’utilisation de base en entreprise.

Développé par l'équipe de recherche en IA de Snowflake, Arctic repousse les limites du possible grâce à une formation efficace, une rentabilité optimale et un niveau d'ouverture inégalé. Ce modèle révolutionnaire excelle dans les benchmarks clés de l'entreprise tout en nécessitant beaucoup moins de puissance de calcul que les LLM existants. Découvrons ce qui fait d'Arctic un modèle révolutionnaire pour l'IA d'entreprise.

L'intelligence d'entreprise redĂ©finie Ă€ la base, Arctic se concentre sur la fourniture de performances exceptionnelles sur des mesures qui comptent vraiment pour les entreprises : codage, requĂŞtes SQL, suivi d'instructions complexes et production de rĂ©sultats fondĂ©s et fondĂ©s sur des faits. Snowflake a combinĂ© ces capacitĂ©s critiques dans un roman «intelligence d'entreprise” mĂ©trique.

Les résultats parlent d'eux-mêmes. Arctic respecte ou surpasse les modèles tels que LAMA 7B et LAMA 70B sur les critères d'intelligence d'entreprise tout en utilisant moins de la moitié du budget informatique pour la formation. Remarquablement, malgré l'utilisation 17 fois moins de ressources de calcul que le LAMA 70B, Arctic atteint la parité sur les tests spécialisés comme le codage (HumanEval+, MBPP+), la génération SQL (Spider) et le suivi d'instructions (IFEval).

Mais les prouesses d'Arctic vont au-delà de la simple réussite aux tests d'entreprise. Il maintient d'excellentes performances en compréhension générale du langage, en raisonnement et en aptitudes mathématiques, par rapport à des modèles entraînés avec des budgets de calcul exponentiellement plus élevés comme DBRX. Cette capacité holistique fait d'Arctic un choix imbattable pour répondre aux divers besoins d'IA d'une entreprise.

L'innovation

Transformateur hybride Dense-MoE Comment l'équipe Snowflake a-t-elle construit un LLM aussi incroyablement performant et efficace ? La réponse réside dans l'architecture de pointe du transformateur hybride Dense Mixture-of-Experts (MoE) d'Arctic.

Les modèles de transformateurs denses traditionnels deviennent de plus en plus coûteux à former à mesure que leur taille augmente, les exigences de calcul augmentant de manière linéaire. La conception du MoE permet de contourner ce problème en utilisant plusieurs réseaux de rétroaction parallèles (experts) et en activant uniquement un sous-ensemble pour chaque jeton d'entrée.

Cependant, la simple utilisation d'une architecture MoE ne suffit pas : Arctic combine ingĂ©nieusement les atouts des composants denses et MoE. Il associe un encodeur Ă  transformateur dense de 10 milliards de paramètres Ă  une couche perceptron multicouche (MLP) MoE rĂ©siduelle de 128 experts. Ce modèle hybride MoE dense totalise 480 milliards de paramètres, mais seuls 17 milliards sont actifs Ă  un instant T grâce Ă  la modulation top-2.

Les implications sont profondes : Arctic atteint une qualitĂ© et une capacitĂ© de modèle sans prĂ©cĂ©dent tout en restant remarquablement efficace en termes de calcul pendant la formation et l'infĂ©rence. Par exemple, Arctic a 50 % de paramètres actifs en moins que les modèles comme DBRX lors de l'infĂ©rence.

Mais l'architecture des modèles n'est qu'une partie de l'Ă©quation. L'excellence d'Arctic est l'aboutissement de plusieurs techniques et connaissances pionnières dĂ©veloppĂ©es par l'Ă©quipe de recherche de Snowflake :

  1. Programme de formation aux données axé sur l'entreprise. Grâce à de nombreuses expérimentations, l'équipe a découvert que les compétences génériques comme le raisonnement de bon sens doivent être acquises tôt, tandis que les spécialisations plus complexes comme le codage et SQL s'acquièrent mieux plus tard dans le processus de formation. Le programme de formation aux données d'Arctic suit une approche en trois étapes imitant les progressions d'apprentissage humaines.

Les premiers tératojetons visent à construire une base générale élargie. Les 1.5 tératojetons suivants se concentrent sur le développement des compétences d'entreprise grâce à des données adaptées au SQL, aux tâches de codage, etc. Les derniers tératojetons affinent les spécialisations d'Arctic grâce à des ensembles de données raffinés.

  1. Choix architecturaux optimaux Alors que les MoE promettent une meilleure qualité par calcul, le choix des bonnes configurations est crucial mais mal compris. Grâce à des recherches détaillées, Snowflake a atterri sur une architecture employant 128 experts avec les 2 meilleurs contrôles de chaque couche après avoir évalué les compromis qualité-efficacité.

L'augmentation du nombre d'experts permet d'obtenir davantage de combinaisons, améliorant ainsi la capacité du modèle. Cependant, cela augmente également les coûts de communication, c'est pourquoi Snowflake a atterri sur 128 experts « condensés » soigneusement conçus, activés via le top 2 gating comme équilibre optimal.

  1. Co-conception du système Mais même une architecture de modèle optimale peut être compromise par des goulots d'étranglement du système. L’équipe Snowflake a donc innové ici également en co-concevant l’architecture du modèle main dans la main avec les systèmes de formation et d’inférence sous-jacents.

Pour un entraînement efficace, les composants denses et MoE ont été structurés de manière à permettre une communication et un calcul superposés, masquant ainsi d'importants frais de communication. Côté inférence, l'équipe a exploité les innovations de NVIDIA pour permettre un déploiement très efficace malgré l'envergure d'Arctic.

Des techniques comme la quantification FP8 permettent d'ajuster le modèle complet sur un seul nĹ“ud GPU pour une infĂ©rence interactive. Les lots plus importants exploitent les capacitĂ©s de parallĂ©lisme d'Arctic sur plusieurs nĹ“uds tout en conservant une efficacitĂ© de calcul impressionnante grâce Ă  ses 17 B de paramètres actifs compacts.

Grâce à une licence Apache 2.0, les pondérations et le code d'Arctic sont disponibles sans restriction pour tout usage personnel, de recherche ou commercial. Mais Snowflake est allé bien plus loin en rendant open source l'intégralité de ses recettes de données, ses implémentations de modèles, ses conseils et les analyses approfondies qui alimentent Arctic.

Le "Livre de recettes arctique» est une base de connaissances complète couvrant tous les aspects de la construction et de l’optimisation d’un modèle MoE à grande échelle comme Arctic. Il distille des enseignements clés en matière d'approvisionnement en données, de conception d'architecture de modèle, de co-conception de systèmes, de schémas de formation/inférence optimisés et bien plus encore.

De l'identification de programmes de données optimaux à l'architecture de MoE tout en co-optimisant les compilateurs, les planificateurs et le matériel, ce vaste ensemble de connaissances démocratise des compétences auparavant confinées aux laboratoires d'IA d'élite. L'Arctic Cookbook accélère les courbes d'apprentissage et permet aux entreprises, aux chercheurs et aux développeurs du monde entier de créer leurs propres LLM rentables et personnalisés pour pratiquement tous les cas d'utilisation.

Premiers pas avec l'Arctique

Pour les entreprises dĂ©sireuses de tirer parti d’Arctic, Snowflake propose plusieurs voies pour dĂ©marrer rapidement :

InfĂ©rence sans serveur : les clients Snowflake peuvent accĂ©der gratuitement au modèle Arctic sur Snowflake Cortex, la plateforme d'IA entièrement gĂ©rĂ©e de l'entreprise. De plus, Arctic est disponible sur tous les principaux catalogues de modèles comme AWS, Microsoft Azure, NVIDIA, etc.

Partir de zĂ©ro : les pondĂ©rations et les implĂ©mentations du modèle open source permettent aux dĂ©veloppeurs d'intĂ©grer directement Arctic dans leurs applications et services. Le dĂ©pĂ´t Arctic fournit des exemples de code, des didacticiels de dĂ©ploiement, des recettes de rĂ©glage fin et bien plus encore.

Créez des modèles personnalisés : grâce aux guides exhaustifs de l'Arctic Cookbook, les développeurs peuvent créer leurs propres modèles MoE personnalisés à partir de zéro, optimisés pour tout cas d'utilisation spécialisé en utilisant les enseignements tirés du développement d'Arctic.

Une nouvelle ère d'entreprise ouverte AI Arctic est bien plus qu'un simple modèle de langage puissant : il annonce une nouvelle ère de capacités d'IA ouvertes, rentables et spécialisées, spécialement conçues pour l'entreprise.

De la révolution de l'analyse de données et de la productivité du codage à l'automatisation des tâches et à la création d'applications plus intelligentes, l'ADN d'Arctic, axé sur l'entreprise, en fait un choix imbattable par rapport aux LLM génériques. En rendant open source non seulement le modèle, mais aussi l'ensemble du processus de R&D qui le sous-tend, Snowflake favorise une culture de collaboration qui propulsera l'écosystème de l'IA dans son ensemble.

Alors que les entreprises adoptent de plus en plus l'IA générative, Arctic propose un modèle audacieux pour développer des modèles objectivement supérieurs aux charges de travail de production et aux environnements d'entreprise. Sa combinaison de recherche de pointe, d'efficacité inégalée et d'une philosophie d'ouverture résolue établit une nouvelle référence en matière de démocratisation du potentiel transformateur de l'IA.

Voici une section avec des exemples de code sur la façon d'utiliser le modèle Snowflake Arctic :

Pratique avec l'Arctique

Maintenant que nous avons couvert ce qui rend Arctic véritablement révolutionnaire, examinons comment les développeurs et les scientifiques des données peuvent commencer à mettre en œuvre ce modèle puissant.
Prêt à l'emploi, Arctic est disponible pré-entraîné et prêt à être déployé via des centres de modèles majeurs tels que Hugging Face et des plateformes d'IA partenaires. Mais sa véritable puissance apparaît lors de sa personnalisation et de son ajustement pour vos cas d'utilisation spécifiques.

La licence Apache 2.0 d'Arctic vous offre une libertĂ© totale pour l'intĂ©grer Ă  vos applications, services ou workflows d'IA personnalisĂ©s. Voici quelques exemples de code utilisant la bibliothèque Transformers pour vous aider Ă  dĂ©marrer :
Inférence de base avec Arctic

Pour des cas d'utilisation de gĂ©nĂ©ration de texte rapide, nous pouvons charger Arctic et exĂ©cuter une infĂ©rence de base très facilement :

from transformers import AutoTokenizer, AutoModelForCausalLM

# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")

# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")

# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

print(generated_text)

Cela devrait produire quelque chose comme :

La capitale de la France est Paris. Paris est la plus grande ville de France et le centre économique, politique et culturel du pays. Elle abrite des monuments célèbres comme la tour Eiffel, le musée du Louvre et la cathédrale Notre-Dame.

Comme vous pouvez le constater, Arctic comprend parfaitement la requête et fournit une réponse détaillée et fondée en tirant parti de ses solides capacités de compréhension du langage.

Ajustement pour les tâches spécialisées

Bien qu'impressionnant dès le dĂ©part, Arctic brille vraiment lorsqu'il est personnalisĂ© et affinĂ© sur vos donnĂ©es exclusives pour des tâches spĂ©cialisĂ©es. Snowflake a fourni des recettes dĂ©taillĂ©es couvrant :

  • Organiser des donnĂ©es de formation de haute qualitĂ© adaptĂ©es Ă  votre cas d'utilisation
  • Mise en Ĺ“uvre de programmes de formation personnalisĂ©s en plusieurs Ă©tapes
  • Tirer parti des approches efficaces de rĂ©glage fin LoRA, P-Tuning ou FactorizedFusion
  • Optimisations pour discerner SQL, le codage ou d'autres compĂ©tences clĂ©s de l'entreprise

Voici un exemple de la façon d'affiner Arctic sur vos propres ensembles de donnĂ©es de codage Ă  l'aide des recettes LoRA et Snowflake :

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training

# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)

# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)

# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)

# Your coding datasets
data = load_coding_datasets()

# Fine-tune with Snowflake's recipes
train(model, data, ...)

Ce code illustre comment vous pouvez facilement charger Arctic, initialiser une configuration LoRA adaptée à la génération de code, puis affiner le modèle sur vos ensembles de données de codage propriétaires en tirant parti des conseils de Snowflake.

Personnalisé et optimisé, Arctic devient une centrale privée conçue pour offrir des performances inégalées sur les flux de travail de votre entreprise et les besoins de vos parties prenantes.

Le cycle d'innovation rapide de l'Arctique

L'un des aspects les plus impressionnants d'Arctic est la rapidité avec laquelle l'équipe de recherche en IA de Snowflake a conçu, développé et diffusé ce modèle de pointe au monde entier. De sa conception à sa publication en open source, l'ensemble du projet Arctic a nécessité moins de trois mois et n'a mobilisé qu'environ un huitième du budget de calcul habituellement nécessaire à l'entraînement de modèles linguistiques de grande taille similaires.

Cette capacité à itérer, innover et produire rapidement des recherches de pointe en IA est tout simplement remarquable. Elle démontre les compétences techniques approfondies de Snowflake et permet à l'entreprise de repousser sans cesse les limites du développement de nouvelles fonctionnalités d'IA optimisées pour l'entreprise.

La famille Arctic et les intégrations

Arctic n'est que le début des ambitions de Snowflake dans le domaine du LLM d'entreprise. L'entreprise a déjà ouvert le code source de la famille Snowflake Arctic Embed, composée de modèles d'intégration de texte de pointe optimisés pour une recherche performante sur plusieurs profils de taille.

Comme illustré ci-dessous, les modèles Arctic Embed atteignent une précision de récupération de pointe sur le benchmark respecté MTEB (récupération de texte), surpassant les autres principaux modèles d'intégration, y compris les offres fermées des grands géants de la technologie.

[Insérer une image montrant les résultats de référence de récupération MTEB pour les modèles Arctic Embed]

Ces modèles d'intégration complètent l'Arctic LLM et permettent aux entreprises de créer de puissantes solutions de génération de questions-réponses et de récupération augmentée à partir d'une pile open source intégrée.

Mais la feuille de route de Snowflake va bien au-delà d'Arctic et des intégrations. Les chercheurs en IA de l'entreprise travaillent d'arrache-pied à l'enrichissement de la famille Arctic avec de nouveaux modèles adaptés aux tâches multimodales, à la parole, à la vidéo et à d'autres fonctionnalités de pointe, tous construits selon les mêmes principes de spécialisation, d'efficacité et d'ouverture.

Partenariat pour un Ă©cosystème d'IA ouvert Snowflake comprend que pour exploiter tout le potentiel de l'IA ouverte d'entreprise, il faut cultiver un riche Ă©cosystème de partenariats au sein de la communautĂ© de l'IA. La version Arctic a dĂ©jĂ  galvanisĂ© les collaborations avec les principales plateformes et fournisseurs :

NVIDIA a collaboré étroitement avec Snowflake pour optimiser Arctic et assurer un déploiement efficace grâce à sa pile d'inférence IA de pointe, incluant TensorRT, Triton et bien d'autres. Les entreprises peuvent ainsi exploiter Arctic à grande échelle et de manière rentable.

Hugging Face, le principal centre de modèles open source, a accueilli Arctic dans ses bibliothèques et référentiels de modèles. Cela permet une intégration transparente d’Arctic dans les flux de travail et applications d’IA existants basés sur Hugging Face.

Des plates-formes telles que Replicate, SageMaker et bien d'autres ont rapidement évolué pour proposer des démos hébergées, des API et des voies d'intégration fluides pour Arctic, accélérant ainsi son adoption.

L'open source a guidé le développement d'Arctic, et les écosystèmes ouverts restent au cœur de son évolution. Snowflake s'engage à favoriser une collaboration enrichissante avec les chercheurs, les développeurs, les partenaires et les entreprises du monde entier afin de repousser les limites du possible grâce à des modèles d'IA ouverts et spécialisés.

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.