Kunstig intelligens

Snowflake Arctic: The Cutting-Edge LLM for Enterprise AI

Udgivet

2 uger siden

April 25, 2024

Snowflake Arctic: The Cutting-Edge LLM for Enterprise AI

Virksomheder i dag udforsker i stigende grad måder at udnytte store sprogmodeller (LLM'er) til at øge produktiviteten og skabe intelligente applikationer. Imidlertid er mange af de tilgængelige LLM-muligheder generiske modeller, der ikke er skræddersyet til specialiserede virksomhedsbehov som dataanalyse, kodning og opgaveautomatisering. Gå ind Snefnug Arktis – en state-of-the-art LLM målrettet designet og optimeret til kernevirksomheder.

Arctic, der er udviklet af AI-forskerteamet hos Snowflake, flytter grænserne for, hvad der er muligt med effektiv træning, omkostningseffektivitet og et uovertruffent niveau af åbenhed. Denne revolutionerende model udmærker sig ved vigtige virksomhedsbenchmarks, mens den kræver langt mindre computerkraft sammenlignet med eksisterende LLM'er. Lad os dykke ned i, hvad der gør Arctic til en game-changer for enterprise AI.

Enterprise Intelligence Redefineret I sin kerne er Arctic laser-fokuseret på at levere enestående ydeevne på målinger, der virkelig betyder noget for virksomheder – kodning, SQL-forespørgsler, kompleks instruktionsfølgning og produktion af jordede, faktabaserede output. Snowflake har kombineret disse kritiske egenskaber til en roman "enterprise intelligence"metrik.

Resultaterne taler for sig selv. Arctic opfylder eller udkonkurrerer modeller som LLAMA 7B og LLAMA 70B på enterprise intelligence benchmarks, mens de bruger mindre end halvdelen af computerbudgettet til træning. Bemærkelsesværdigt, trods udnyttelse 17 gange færre computerressourcer end LLAMA 70B, Arctic opnår paritet på specialiserede test som kodning (HumanEval+, MBPP+), SQL-generering (Spider) og instruktionsfølgning (IFEval).

Men Arctics dygtighed rækker ud over blot at opnå standard benchmarks for virksomheder. Det opretholder en stærk ydeevne på tværs af generel sprogforståelse, ræsonnement og matematiske evner sammenlignet med modeller trænet med eksponentielt højere beregningsbudgetter som DBRX. Denne holistiske evne gør Arctic til et uovertruffent valg til at tackle en virksomheds forskellige AI-behov.

Innovation

Dense-MoE Hybrid Transformer Så hvordan byggede Snowflake-teamet en så utrolig dygtig, men effektiv LLM? Svaret ligger i Arctics banebrydende Dense Mixture-of-Experts (MoE) Hybrid Transformer-arkitektur.

Traditionelle tætte transformatormodeller bliver stadig dyrere at træne, efterhånden som deres størrelse vokser, og beregningskravene stiger lineært. MoE-designet hjælper med at omgå dette ved at bruge flere parallelle feed-forward-netværk (eksperter) og kun aktivere en delmængde for hvert inputtoken.

Men blot at bruge en MoE-arkitektur er ikke nok - Arctic kombinerer styrkerne fra både tætte og MoE-komponenter på genial vis. Den parrer en 10 milliarder parametertæt transformatorkoder med et 128 ekspert residual MoE multi-layer perceptron (MLP) lag. Denne tætte MoE-hybridmodel har i alt 480 milliarder parametre, men kun 17 milliarder er aktive på et givet tidspunkt ved hjælp af top-2 gating.

Implikationerne er dybe – Arctic opnår hidtil uset modelkvalitet og kapacitet, mens den forbliver bemærkelsesværdig computereffektiv under træning og konklusioner. For eksempel har Arctic 50 % færre aktive parametre end modeller som DBRX under inferens.

Men modelarkitektur er kun en del af historien. Arctics fortræffelighed er kulminationen af adskillige banebrydende teknikker og indsigter udviklet af Snowflake-forskerholdet:

Enterprise-Focused Training Data Curriculum Gennem omfattende eksperimenter opdagede teamet, at generiske færdigheder som sund fornuft burde læres tidligt, mens mere komplekse specialiseringer som kodning og SQL bedst tilegnes senere i træningsprocessen. Arctics datapensum følger en tre-trins tilgang, der efterligner menneskelige læringsforløb.

De første teratokens fokuserer på at opbygge en bred generel base. De næste 1.5 teratokens koncentrerer sig om at udvikle virksomhedsfærdigheder gennem data skræddersyet til SQL, kodningsopgaver og mere. De sidste teratokens forfiner Arctics specialiseringer yderligere ved hjælp af raffinerede datasæt.

Optimale arkitektoniske valg Mens MoEs lover bedre kvalitet pr. computer, er det afgørende at vælge de rigtige konfigurationer, men alligevel dårligt forstået. Gennem detaljeret forskning landede Snowflake på en arkitektur, der beskæftiger 128 eksperter med top-2 gating hvert lag efter at have evalueret afvejninger mellem kvalitet og effektivitet.

At øge antallet af eksperter giver flere kombinationer, hvilket øger modelkapaciteten. Dette øger dog også kommunikationsomkostningerne, så Snowflake landede på 128 omhyggeligt designede "kondenserede" eksperter aktiveret via top-2 gating som den optimale balance.

System Co-Design Men selv en optimal modelarkitektur kan undermineres af systemflaskehalse. Så Snowflake-teamet fornyede også her - co-designet modelarkitekturen hånd i hånd med de underliggende trænings- og inferenssystemer.

For effektiv træning blev de tætte og MoE-komponenter struktureret til at muliggøre overlappende kommunikation og beregning, hvilket skjuler betydelige kommunikationsomkostninger. På inferenssiden udnyttede holdet NVIDIAs innovationer til at muliggøre højeffektiv implementering på trods af Arctics skala.

Teknikker som FP8-kvantisering gør det muligt at tilpasse den fulde model på en enkelt GPU-node for interaktiv inferens. Større batches engagerer Arctics parallelitetsevner på tværs af flere noder, mens de forbliver imponerende beregningseffektive takket være dets kompakte 17B aktive parametre.

Med en Apache 2.0-licens er Arctics vægte og kode tilgængelige ugated til enhver personlig, forskningsmæssig eller kommerciel brug. Men Snowflake er gået meget længere og har åbnet deres komplette dataopskrifter, modelimplementeringer, tips og den dybe forskningsindsigt, der driver Arctic.

Den "Arktisk kogebog” er en omfattende videnbase, der dækker alle aspekter af opbygning og optimering af en storstilet MoE-model som Arctic. Det destillerer nøglelæring på tværs af datakilder, modelarkitekturdesign, systemco-design, optimerede trænings-/inferensskemaer og mere.

Fra identifikation af optimale datapensum til arkitektur af MoE'er, mens compilere, planlæggere og hardware co-optimeres – denne omfattende viden demokratiserer færdigheder, der tidligere var begrænset til elite AI-laboratorier. Arctic Cookbook accelererer læringskurver og giver virksomheder, forskere og udviklere globalt mulighed for at skabe deres egne omkostningseffektive, skræddersyede LLM'er til stort set enhver brug.

Kom godt i gang med Arctic

For virksomheder, der er interesserede i at udnytte Arktis, tilbyder Snowflake flere veje til hurtigt at komme i gang:

Serverløs slutning: Snowflake-kunder kan få adgang til Arctic-modellen gratis på Snowflake Cortex, virksomhedens fuldt administrerede AI-platform. Ud over det er Arctic tilgængelig på tværs af alle større modelkataloger som AWS, Microsoft Azure, NVIDIA og mere.

Start fra bunden: Open source-modelvægtene og implementeringerne giver udviklere mulighed for direkte at integrere Arctic i deres apps og tjenester. Den arktiske repo leverer kodeeksempler, implementeringsvejledninger, finjustering af opskrifter og mere.

Byg brugerdefinerede modeller: Takket være Arctic Cookbooks udtømmende vejledninger kan udviklere bygge deres egne tilpassede MoE-modeller fra bunden, optimeret til enhver specialiseret brugssituation ved at bruge erfaringer fra Arctics udvikling.

A New Era of Open Enterprise AI Arctic er mere end blot endnu en kraftfuld sprogmodel – den varsler en ny æra af åbne, omkostningseffektive og specialiserede AI-kapaciteter, der er specialbygget til virksomheden.

Fra revolutionerende dataanalyse og kodningsproduktivitet til at drive opgaveautomatisering og smartere applikationer gør Arctic's enterprise-first DNA det til et uovertruffent valg frem for generiske LLM'er. Og ved at åbne ikke kun modellen, men hele R&D-processen bag den, fremmer Snowflake en samarbejdskultur, der vil løfte hele AI-økosystemet.

Efterhånden som virksomheder i stigende grad omfavner generativ kunstig intelligens, tilbyder Arctic en modig plan for udvikling af modeller, der objektivt er overlegne til produktionsbelastninger og virksomhedsmiljøer. Dens sammenløb af banebrydende forskning, uovertruffen effektivitet og en fast åben etos sætter et nyt benchmark i demokratisering af AI's transformative potentiale.

Her er et afsnit med kodeeksempler på, hvordan man bruger Snowflake Arctic-modellen:

Hands-on med Arctic

Nu hvor vi har dækket, hvad der gør Arctic virkelig banebrydende, lad os dykke ned i, hvordan udviklere og dataforskere kan begynde at sætte denne kraftcentermodel i gang.
Ud af boksen er Arctic tilgængelig foruddannet og klar til at implementere gennem store modelhubs som Hugging Face og partner AI-platforme. Men dens reelle kraft kommer frem, når du tilpasser og finjusterer den til dine specifikke brugstilfælde.

Arctics Apache 2.0-licens giver fuld frihed til at integrere den i dine apps, tjenester eller tilpassede AI-arbejdsgange. Lad os gennemgå nogle kodeeksempler ved hjælp af transformatorbiblioteket for at komme i gang:
Grundlæggende slutning med Arktis

For hurtig tekstgenerering kan vi indlæse Arctic og køre grundlæggende inferens meget nemt:

from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

Dette skal udsende noget som:

"Frankrigs hovedstad er Paris. Paris er den største by i Frankrig og landets økonomiske, politiske og kulturelle centrum. Det er hjemsted for berømte vartegn som Eiffeltårnet, Louvre-museet og Notre-Dame-katedralen."

Som du kan se, forstår Arctic problemfrit forespørgslen og giver et detaljeret, funderet svar, der udnytter dets robuste sprogforståelsesevner.

Finjustering til specialiserede opgaver

Selvom det er imponerende ud af kassen, skinner Arctic virkelig, når det er tilpasset og finjusteret på dine proprietære data til specialiserede opgaver. Snowflake har leveret omfattende opskrifter, der dækker:

Kurater af træningsdata af høj kvalitet, skræddersyet til din brugssituation
Implementering af tilpassede undervisningsplaner i flere stadier
Udnyttelse af effektive LoRA, P-Tuning eller FactorizedFusion finjusteringsmetoder
Optimeringer til kræsne SQL, kodning eller andre vigtige virksomhedsfærdigheder

Her er et eksempel på, hvordan du finjusterer Arctic på dine egne kodningsdatasæt ved hjælp af LoRA og Snowflakes opskrifter:

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)

Denne kode illustrerer, hvordan du ubesværet kan indlæse Arctic, initialisere en LoRA-konfiguration, der er skræddersyet til kodegenerering, og derefter finjustere modellen på dine proprietære kodningsdatasæt ved at udnytte Snowflakes vejledning.

Skræddersyet og finjusteret bliver Arctic et privat kraftcenter, der er tunet til at levere uovertruffen ydeevne på dine kernevirksomheders arbejdsgange og interessenters behov.

Arktis hurtige innovationscyklus

Et af de mest imponerende aspekter af Arktis er det blæsende tempo, hvormed Snowflakes AI-forskerteam udtænkte, udviklede og frigav denne banebrydende model til verden. Fra starten til open source-udgivelsen tog hele det arktiske projekt mindre end tre måneder og udnyttede kun omkring en ottendedel af det beregningsbudget, der er typisk for træning af lignende store sprogmodeller.

Denne evne til hurtigt at iterere, innovere og producere state-of-the-art AI-forskning er virkelig bemærkelsesværdig. Det demonstrerer Snowflakes dybe tekniske evner og positionerer virksomheden til løbende at skubbe grænserne for at udvikle nye, virksomhedsoptimerede AI-kapaciteter.

Den arktiske familie og indlejringer

Arctic er kun starten på Snowflakes ambitioner i virksomhedens LLM-rum. Virksomheden har allerede open sourcet Snowflake Arctic Embed-familien af brancheførende tekstindlejringsmodeller optimeret til genfindingsydelse på tværs af profiler i flere størrelser.

Som illustreret nedenfor opnår Arctic Embed-modellerne avanceret genfindingsnøjagtighed på det respekterede MTEB (teksthentning) benchmark, og overgår andre førende indlejringsmodeller, herunder lukkede tilbud fra store teknologigiganter.

[Indsæt billede, der viser benchmarkresultater for MTEB-hentning for Arctic Embed-modeller]

Disse indlejringsmodeller komplementerer Arctic LLM og gør det muligt for virksomheder at bygge kraftfulde spørgsmål-besvarelse og genfindingsforstærkede generationsløsninger fra en integreret open source-stack.

Men Snowflakes køreplan strækker sig langt ud over kun Arktis og indlejringer. Virksomhedens AI-forskere arbejder hårdt på at udvide den arktiske familie med nye modeller, der er skræddersyet til multimodale opgaver, tale, video og flere grænseoverskridende kapaciteter – alt sammen bygget efter de samme principper om specialisering, effektivitet og åbenhed.

Partnerskab for et åbent AI-økosystem Snowflake forstår, at realisering af det fulde potentiale af åben AI i virksomhedskvalitet kræver, at man dyrker et rigt økosystem af partnerskaber på tværs af AI-fællesskabet. Arctic-udgivelsen har allerede galvaniseret samarbejder med store platforme og udbydere:

NVIDIA har samarbejdet tæt med Snowflake for at optimere Arctic til effektiv implementering ved hjælp af NVIDIAs banebrydende AI-inferensstack inklusive TensorRT, Triton og mere. Dette giver virksomheder mulighed for at betjene Arktis i skala omkostningseffektivt.

Hugging Face, den førende open source-modelhub, har budt Arctic velkommen i sine biblioteker og modellagre. Dette muliggør problemfri integration af Arctic i eksisterende Hugging Face-baserede AI-workflows og applikationer.

Platforme som Replicate, SageMaker og flere har flyttet sig hurtigt for at tilbyde hostede demoer, API'er og flydende integrationsveje til Arctic, hvilket accelererer deres indførelse.

Open source styrede udviklingen af Arktis, og åbne økosystemer forbliver centrale i dets udvikling. Snowflake er forpligtet til at fremme et rigt samarbejde med forskere, udviklere, partnere og virksomheder globalt for at skubbe grænserne for, hvad der er muligt med åbne, specialiserede AI-modeller.

Næste

Mini-Gemini: Udvinding af potentialet ved multimodalitetsvisionsprogmodeller

Gå ikke glip af

AIOS: Operativsystem til LLM-agenter

Aayush Mittal

Jeg har brugt de sidste fem år på at fordybe mig i den fascinerende verden af Machine Learning og Deep Learning. Min passion og ekspertise har ført mig til at bidrage til over 50 forskellige software engineering projekter, med særligt fokus på AI/ML. Min vedvarende nysgerrighed har også trukket mig hen imod Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.