Kënschtlech Intelligenz

Snowflake Arctic: The Cutting-Edge LLM fir Enterprise AI

publizéiert

2 Wochen

Abrëll 25, 2024

Snowflake Arctic: The Cutting-Edge LLM fir Enterprise AI

Entreprisen haut erfuerschen ëmmer méi Weeër fir grouss Sproochmodeller (LLMs) ze profitéieren fir Produktivitéit ze stäerken an intelligent Uwendungen ze kreéieren. Wéi och ëmmer, vill vun de verfügbaren LLM Optiounen si generesch Modeller déi net fir spezialiséiert Enterprise Bedierfnesser ugepasst sinn wéi Datenanalyse, Kodéierung an Taskautomatiséierung. Gitt an Snowflake Arktis - e State-of-the-art LLM gezielt entworf an optimiséiert fir Kär Enterprise Benotzungsfäll.

Entwéckelt vum AI Fuerschungsteam bei Snowflake, dréckt d'Arctic d'Grenze vun deem wat méiglech ass mat effizienten Training, Käschte-Effizienz, an engem eemolegen Niveau vun Offenheet. Dëse revolutionäre Modell exceléiert op Schlëssel Enterprise Benchmarks wärend vill manner Rechenkraaft erfuerdert am Verglach zu existente LLMs. Loosst eis an dauchen wat d'Arctic e Spillwechsel fir Enterprise AI mécht.

Enterprise Intelligence nei definéiert Am Kär ass d'Arktis laserfokuséiert fir aussergewéinlech Leeschtung op Metriken ze liwweren, déi wierklech wichteg fir d'Entreprisen sinn - Kodéierung, SQL Ufroen, komplex Instruktioune folgend, a produzéiert gegrënnt, Tatsaach-baséiert Ausgab. Snowflake huet dës kritesch Fäegkeeten an e Roman kombinéiert "Enterprise Intelligenz" metresch.

D'Resultater schwätze fir sech. Arktis trëfft oder iwwerpréift Modeller wéi LLAMA 7B an LLAMA 70B op Enterprise Intelligenz Benchmarks wärend manner wéi d'Halschent vum Rechenbudget fir Training benotzt. Bemierkenswäert, trotz der Benotzung 17 Mol manner Rechenressourcen wéi LLAMA 70B, Arktis erreecht Paritéit op spezialiséiert Tester wéi Kodéierung (HumanEval +, MBPP +), SQL Generatioun (Spider), an Instruktioune folgend (IFEval).

Awer d'Arktis Fäegkeet geet doriwwer eraus nëmmen Acing Enterprise Benchmarks. Et hält staark Leeschtung iwwer allgemeng Sproochverständnis, Begrënnung, a mathematesch Aptitude am Verglach mat Modeller trainéiert mat exponentiell méi héije Rechenbudgeten wéi DBRX. Dës holistesch Kapazitéit mécht d'Arktis eng onvergläichbar Wiel fir déi verschidden AI Bedierfnesser vun enger Entreprise unzegoen.

D'Innovatioun

Dense-MoE Hybrid Transformer Also wéi huet d'Snowflake Team sou en onheemlech kapabel awer effizient LLM gebaut? D'Äntwert läit an der Arktis seng opzedeelen Dense Mixture-of-Experts (MoE) Hybrid Transformer Architektur.

Traditionell dichte Transformatormodeller ginn ëmmer méi deier fir ze trainéieren wéi hir Gréisst wiisst, mat computational Ufuerderunge linear erop. De MoE Design hëlleft dëst ze ëmgoen andeems Dir verschidde parallele Feed-Forward Netzwierker (Experten) benotzt an nëmmen e Subset fir all Input Token aktivéiert.

Wéi och ëmmer, einfach eng MoE Architektur ze benotzen ass net genuch - Arctic kombinéiert d'Stäerkte vu béiden dichten a MoE Komponenten genial. Et paréiert en 10 Milliarden Parameter dichten Transformator Encoder mat enger 128 Expert Rescht MoE Multi-Layer Perceptron (MLP) Schicht. Dësen dichte-MoE Hybridmodell ass am Ganzen 480 Milliarde Parameteren awer nëmmen 17 Milliarde sinn aktiv zu all Moment mat Top-2 Gating.

D'Implikatioune sinn déif - Arktis erreecht onendlech Modellqualitéit a Kapazitéit wärend bemierkenswäert recheneffizient bleift wärend Training an Inferenz. Zum Beispill, Arktis huet 50% manner aktiv Parameteren wéi Modeller wéi DBRX während Inferenz.

Awer Modellarchitektur ass nëmmen een Deel vun der Geschicht. D'Exzellenz vun der Arktis ass de Kulminatioun vu verschiddene Pionéiertechniken an Abléck entwéckelt vum Snowflake Fuerschungsteam:

Enterprise-Focused Training Data Curriculum Duerch extensiv Experimenter huet d'Team entdeckt datt generesch Fäegkeeten wéi Commonsense Begrënnung fréi sollte geléiert ginn, wärend méi komplex Spezialisatiounen wéi Kodéierung a SQL am beschten spéider am Trainingsprozess erliewt ginn. D'Arctic Datecurriculum follegt eng Dräi-Etapp Approche déi mënschlech Léierprogressiounen mimikéiert.

Déi éischt Teratokens konzentréieren sech op eng breet allgemeng Basis ze bauen. Déi nächst 1.5 Teratokens konzentréiere sech op d'Entwécklung vun Enterprise Kompetenzen duerch Daten ugepasst fir SQL, Kodéierungsaufgaben, a méi. Déi lescht Teratokens verfeineren d'Arktis Spezialisatioune weider mat raffinéierte Datesätz.

Optimal Architekturwahlen Wärend MoEs besser Qualitéit pro Computer verspriechen, ass d'Auswiel vun de richtege Konfiguratiounen entscheedend awer schlecht verstanen. Duerch detailléiert Fuerschung ass Snowflake op eng Architektur gelant, déi 128 Experten beschäftegt mat Top-2 gating all Schicht no der Evaluatioun vun der Qualitéit-Effizienz Ausgläich.

D'Erhéijung vun der Unzuel vun Experten bitt méi Kombinatiounen, d'Modellkapazitéit verbessert. Wéi och ëmmer, dëst erhéicht och Kommunikatiounskäschte, sou datt Snowflake op 128 suergfälteg entworf "kondenséiert" Experten gelant ass, aktivéiert iwwer Top-2 Gating als optimal Balance.

System Co-Design Awer och eng optimal Modellarchitektur kann duerch System Flaschenhals ënnergruewen ginn. Also huet d'Snowflake Team och hei innovéiert - d'Modellarchitektur Hand-an-Hand mat den ënnerierdesche Trainings- an Inferenzsystemer co-designéiert.

Fir effizient Ausbildung goufen déi dichten a MoE Komponenten strukturéiert fir iwwerlappend Kommunikatioun a Berechnung z'erméiglechen, substantiell Kommunikatiounsoverheads ze verstoppen. Op der Inferenz Säit huet d'Team d'NVIDIA Innovatiounen benotzt fir héich effizient Deployment trotz der Skala vun der Arktis z'erméiglechen.

Techniken wéi FP8 Quantiséierung erlaben de komplette Modell op engem eenzegen GPU Node fir interaktiv Inferenz ze passen. Méi grouss Chargen engagéieren d'Arctic's Parallelismusfäegkeeten iwwer verschidde Wirbelen wärend se beandrockend recheneffizient bleiwen dank senge kompakten 17B aktive Parameteren.

Mat enger Apache 2.0 Lizenz sinn d'Gewiichter an d'Code vun der Arktis ungéiert verfügbar fir all perséinlech, Fuerschung oder kommerziell Notzung. Awer Snowflake ass vill méi wäit gaang, Open-sourcing hir komplett Daterezepter, Modellimplementatiounen, Tipps, an déi déif Fuerschungserkenntnisser, déi d'Arktis ubidden.

De "Arktis Kachbuch” ass eng ëmfaassend Wëssensbasis déi all Aspekt vum Bau an Optimisatioun vun engem grousse MoE Modell wéi Arktis deckt. Et distilléiert Schlësselléiere iwwer Datensourcing, Modellarchitekturdesign, System Co-Design, optimiséiert Training / Inferenzschemaen a méi.

Vun der Identifikatioun vun optimalen Datecurriculen bis Architektur vun MoEs wärend d'Compiler, Scheduler an Hardware cooptiméieren - dësen extensiv Kierper vu Wëssen demokratiséiert Fäegkeeten, déi virdru limitéiert waren op Elite AI Laboe. D'Arctic Cookbook beschleunegt d'Léierkurven an erméiglecht d'Entreprisen, d'Fuerscher an d'Entwéckler weltwäit hir eege kosteneffizient, personaliséiert LLMs fir praktesch all Benotzungsfall ze kreéieren.

Ugefaangen mat Arktis

Fir Firmen déi d'Arktis gär hunn, bitt Snowflake verschidde Weeër fir séier unzefänken:

Serverlos Inferenz: Snowflake Clienten kënnen Zougang zum Arktesche Modell gratis op Snowflake Cortex, der Firma voll geréiert AI Plattform. Doriwwer eraus ass Arctic verfügbar iwwer all gréisser Modellkataloge wéi AWS, Microsoft Azure, NVIDIA, a méi.

Start vun Null: D'Open Source Modellgewichten an Implementatiounen erlaben d'Entwéckler d'Arctic direkt an hir Apps a Servicer z'integréieren. D'Arctic Repo liwwert Code Echantillon, Deployment Tutorials, Feintuning Rezepter, a méi.

Build Custom Modeller: Dank den ustrengende Guiden vum Arctic Cookbook kënnen d'Entwéckler hir eege MoE Modeller vun Null bauen, optimiséiert fir all spezialiséiert Benotzungsfall mat Léiere vun der Arctic Entwécklung.

Eng nei Ära vun Open Enterprise AI Arktis ass méi wéi nëmmen en anere mächtege Sproochemodell - et heraldéiert eng nei Ära vun oppenen, kosteneffizienten a spezialiséierten AI Fäegkeeten Zweck-gebaut fir d'Entreprise.

Vun der Revolutioun vun Datenanalytik a Kodéierungsproduktivitéit fir d'Taskautomatiséierung a méi schlau Uwendungen z'ënnerstëtzen, mécht d'Arctic's Enterprise-First DNA et eng onbegrenzte Wiel iwwer generesch LLMs. An duerch Open Sourcing net nëmmen de Modell, mee de ganze R&D Prozess hannendrun, fërdert Snowflake eng Kultur vun Zesummenaarbecht déi de ganzen AI Ökosystem erhéijen.

Wéi d'Entreprisen ëmmer méi generativ AI ëmfaassen, bitt d'Arctic e fett Blueprint fir Modeller z'entwéckelen, déi objektiv superieur fir d'Produktiounsaarbechtslaascht an d'Entreprise Ëmfeld sinn. Seng Zesummefaassung vu modernste Fuerschung, oniwwertraff Effizienz an e stännegen oppenen Ethos setzt en neie Benchmark fir dem transformativen Potenzial vun AI ze demokratiséieren.

Hei ass eng Sektioun mat Code Beispiller wéi Dir de Snowflake Arctic Modell benotzt:

Hands-On mat Arktis

Elo datt mir ofgedeckt hunn wat d'Arktis wierklech banebrytend mécht, loosst eis an dauchen wéi Entwéckler an Datewëssenschaftler kënnen ufänken dëse Powerhouse Modell ze schaffen.
Aus der Këscht ass Arctic verfügbar pre-trainéiert a prett fir duerch grouss Modellhubs wéi Hugging Face a Partner AI Plattformen z'installéieren. Awer seng reell Kraaft entsteet wann Dir se personaliséiert a feinstëmmt fir Är spezifesch Benotzungsfäll.

Arctic's Apache 2.0 Lizenz bitt voll Fräiheet fir se an Är Apps, Servicer oder personaliséiert AI Workflows z'integréieren. Loosst eis duerch e puer Code Beispiller duerch d'Transformatorbibliothéik goen fir Iech unzefänken:
Basis Inferenz mat Arktis

Fir séier Textgeneratioun Benotzungsfäll, kënne mir Arktis lueden a grondleeënd Inferenz ganz einfach ausféieren:

from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

Dëst sollt eppes ausginn wéi:

"D'Haaptstad vu Frankräich ass Paräis. Paräis ass déi gréisste Stad a Frankräich an de wirtschaftlechen, politeschen a kulturellen Zentrum vum Land. Et ass Heem fir berühmt Landmarken wéi den Eiffeltuerm, de Louvre Musée an d'Kathedral Notre-Dame.

Wéi Dir kënnt gesinn, versteet d'Arctic nahtlos d'Ufro a liwwert eng detailléiert, gegrënnt Äntwert, déi seng robust Sproochverständnisfäegkeeten benotzt.

Fine-tuning fir spezialiséiert Aufgaben

Wärend beandrockend Out-of-the-Box, Arktis blénkt wierklech wann se personaliséiert a finjustéiert sinn op Är propriétaire Daten fir spezialiséiert Aufgaben. Snowflake huet extensiv Rezepter geliwwert déi decken:

Curating qualitativ héichwäerteg Trainingsdaten ugepasst fir Äre Gebrauchsfall
Ëmsetzung vun personaliséierte Multi-Stage Training Curriculums
Effizient LoRA, P-Tuning oder FactorizedFusion Feintuning Approche benotzen
Optimisatiounen fir erfuerderlech SQL, Kodéierung oder aner Schlëssel Enterprise Fäegkeeten

Hei ass e Beispill vu wéi Dir Arctic op Ären eegene Kodéierungsdatessätz feinstëmmt mat LoRA a Snowflake Rezepter:

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)

Dëse Code illustréiert wéi Dir ouni Ustrengung Arctic luede kënnt, eng LoRA Konfiguratioun initialiséieren, déi fir Code Generatioun ugepasst ass, an dann de Modell op Äre propriétaire Kodéierungsdatesets ofstëmmen, déi d'Leedung vum Snowflake benotzen.

Personnaliséiert a fein gestëmmt, Arctic gëtt e privaten Kraaftwierk ofgestëmmt fir oniwwertraff Leeschtung op Äre Kär Enterprise Workflows an Interessentenbedürfnisser ze liwweren.

Arktis's Rapid Innovation Cycle

Ee vun den beandrockendsten Aspekter vun der Arktis ass de blassende Tempo an deem dem Snowflake säin AI Fuerschungsteam dëse modernste Modell op d'Welt konzipéiert, entwéckelt a verëffentlecht huet. Vun Ufank un Open Source Verëffentlechung, huet de ganze Arktis Projet manner wéi dräi Méint gedauert an huet nëmmen ongeféier een Aachtel vum Rechenbudget, deen typesch ass fir ähnlech grouss Sproochmodeller ze trainéieren.

Dës Fäegkeet fir déi modernst AI Fuerschung séier ze iteréieren, innovéieren a produktiséieren ass wierklech bemierkenswäert. Et weist dem Snowflake seng déif technesch Fäegkeeten a positionéiert d'Firma fir kontinuéierlech d'Grenzen ze drécken fir nei, Entreprise-optimiséiert AI Fäegkeeten z'entwéckelen.

Der Arktis Famill an embeddings

Arktis ass just den Ufank vun Snowflake seng Ambitiounen am Enterprise LLM Raum. D'Firma huet schonn d'Snowflake Arctic Embed Famill vun Industrieféierend Text Embedding Modeller opgemaach, optiméiert fir d'Retrievalleistung iwwer verschidde Gréisstprofiler.

Wéi hei ënnen illustréiert, erreechen d'Arctic Embed Modeller modernste Retrieval Genauegkeet op der respektéierter MTEB (Text Retrieval) Benchmark, iwwerflësseg aner féierend Embedding Modeller abegraff zougemaach Offere vu groussen Tech Risen.

[Füügt Bild a weist MTEB Retrieval Benchmark Resultater fir Arctic Embed Modeller]

Dës Embedding Modeller ergänzen d'Arctic LLM an erméiglechen d'Entreprisen mächteg Froe-Äntwerten a Retrieval-augmentéiert Generatiounsléisungen aus engem integréierten Open Source Stack ze bauen.

Awer dem Snowflake säi Fahrplang erstreckt sech wäit iwwer just Arktis an Embeddings. D'AI Fuerscher vun der Firma schaffen haart un der Erweiderung vun der Arktescher Famill mat neie Modeller geschnidde fir multimodal Aufgaben, Ried, Video a méi Grenzfäegkeeten - all gebaut mat de selwechte Prinzipien vu Spezialisatioun, Effizienz an Offenheet.

Partner fir en oppenen AI-Ökosystem Snowflake versteet datt d'Realiséierung vum vollen Potenzial vun oppenen, Entreprise-Grad AI erfuerdert, e räiche Ökosystem vu Partnerschaften an der AI Gemeinschaft ze kultivéieren. D'Arctic Release huet scho galvaniséiert Zesummenaarbecht mat grousse Plattformen a Fournisseuren:

NVIDIA huet enk mat Snowflake zesummegeschafft fir d'Arktis ze optimiséieren fir effizient Deployment mam NVIDIA's opzedeelen AI Inferenzstack inklusiv TensorRT, Triton a méi. Dëst erlaabt d'Entreprisen d'Arktis op Skala kosteneffektiv ze déngen.

Hugging Face, de féierende Open Source Modell Hub, huet d'Arctic a seng Bibliothéiken a Modellrepositories begréisst. Dëst erlaabt eng nahtlos Integratioun vun der Arktis an existent Hugging Face-baséiert AI Workflows an Uwendungen.

Plattforme wéi Replicate, SageMaker, a méi hu sech séier geplënnert fir gehost Demos, APIen a fléissend Integratiounsweeër fir Arktis ze bidden, hir Adoptioun ze beschleunegen.

Open Source huet d'Entwécklung vun der Arktis gestéiert, an oppe Ökosystemer bleiwen zentral fir seng Evolutioun. Snowflake ass engagéiert fir räich Zesummenaarbecht mat Fuerscher, Entwéckler, Partner an Entreprisen weltwäit ze fërderen fir d'Grenze vun deem wat méiglech ass mat oppenen, spezialiséierten AI Modeller ze drécken.

No weider

Mini-Gemini: Mining de Potenzial vu Multi-Modalitéit Vision Sproochmodeller

Hu keng Miss

AIOS: Betribssystem fir LLM Agenten

Aayush Mittal

Ech hunn déi lescht fënnef Joer verbruecht an déi faszinéierend Welt vum Machine Learning an Deep Learning ënnerzegoen. Meng Leidenschaft an Expertise hunn mech dozou gefouert fir zu iwwer 50 verschiddenste Software Engineering Projeten bäizedroen, mat engem besonnesche Fokus op AI / ML. Meng kontinuéierlech Virwëtzegkeet huet mech och Richtung Natural Language Processing gezunn, e Feld dat ech gär hunn weider ze entdecken.