Kunstig intelligens

Snowflake Arctic: The Cutting-Edge LLM for Enterprise AI

Publisert

2 uker siden

April 25, 2024

Snowflake Arctic: The Cutting-Edge LLM for Enterprise AI

Bedrifter i dag utforsker i økende grad måter å utnytte store språkmodeller (LLM) for å øke produktiviteten og lage intelligente applikasjoner. Imidlertid er mange av de tilgjengelige LLM-alternativene generiske modeller som ikke er skreddersydd for spesialiserte bedriftsbehov som dataanalyse, koding og oppgaveautomatisering. Tast inn Snowflake Arctic – en toppmoderne LLM målrettet utformet og optimalisert for kjernebedrifter.

Utviklet av AI-forskerteamet ved Snowflake, flytter Arctic grensene for hva som er mulig med effektiv trening, kostnadseffektivitet og et uovertruffent nivå av åpenhet. Denne revolusjonerende modellen utmerker seg ved viktige bedriftsstandarder samtidig som den krever langt mindre datakraft sammenlignet med eksisterende LLM-er. La oss dykke ned i hva som gjør Arctic til en gamechanger for enterprise AI.

Enterprise Intelligence Redefinert I kjernen er Arctic laserfokusert på å levere eksepsjonell ytelse på beregninger som virkelig betyr noe for bedrifter – koding, SQL-spørring, kompleks instruksjonsfølging og produksjon av jordet, faktabasert utdata. Snowflake har kombinert disse kritiske egenskapene til en roman "enterprise intelligens" metrikk.

Resultatene taler for seg selv. Arctic møter eller utkonkurrerer modeller som LLAMA 7B og LLAMA 70B på enterprise intelligence benchmarks mens de bruker mindre enn halvparten av databudsjettet til opplæring. Bemerkelsesverdig, til tross for bruk 17 ganger færre dataressurser enn LLAMA 70B, oppnår Arctic paritet på spesialiserte tester som koding (HumanEval+, MBPP+), SQL-generering (Spider) og instruksjonsfølging (IFEval).

Men Arctics dyktighet strekker seg utover bare ledende bedriftsreferanser. Den opprettholder sterk ytelse på tvers av generell språkforståelse, resonnement og matematiske evner sammenlignet med modeller trent med eksponentielt høyere beregningsbudsjetter som DBRX. Denne helhetlige evnen gjør Arctic til et uslåelig valg for å takle de ulike AI-behovene til en bedrift.

Innovasjonen

Dense-MoE Hybrid Transformer Så hvordan bygde Snowflake-teamet en så utrolig dyktig, men effektiv LLM? Svaret ligger i Arctics banebrytende Dense Mixture-of-Experts (MoE) Hybrid Transformer-arkitektur.

Tradisjonelle tette transformatormodeller blir stadig dyrere å trene ettersom størrelsen vokser, med beregningskrav som øker lineært. MoE-designen hjelper til med å omgå dette ved å bruke flere parallelle feed-forward-nettverk (eksperter) og bare aktivere et delsett for hvert input-token.

Det er imidlertid ikke nok å bare bruke en MoE-arkitektur – Arctic kombinerer styrken til både tette og MoE-komponenter på genial vis. Den parer en 10 milliarder parametertett transformatorkoder med et 128 ekspertresidual MoE multi-layer perceptron (MLP) lag. Denne tette MoE-hybridmodellen utgjør totalt 480 milliarder parametere, men bare 17 milliarder er aktive til enhver tid ved å bruke topp-2-porter.

Implikasjonene er dype – Arctic oppnår enestående modellkvalitet og kapasitet samtidig som den forblir bemerkelsesverdig dataeffektiv under trening og slutninger. For eksempel har Arctic 50 % færre aktive parametere enn modeller som DBRX under inferens.

Men modellarkitektur er bare en del av historien. Arctics fortreffelighet er kulminasjonen av flere banebrytende teknikker og innsikter utviklet av Snowflake-forskerteamet:

Læreplan for bedriftsfokusert opplæringsdata Gjennom omfattende eksperimentering oppdaget teamet at generiske ferdigheter som sunn fornuft bør læres tidlig, mens mer komplekse spesialiseringer som koding og SQL er best å tilegne seg senere i opplæringsprosessen. Arctics datapensum følger en tre-trinns tilnærming som etterligner menneskelig læringsprogresjon.

De første teratokens fokuserer på å bygge en bred generell base. De neste 1.5 teratokenene konsentrerer seg om å utvikle bedriftsferdigheter gjennom data skreddersydd for SQL, kodeoppgaver og mer. De endelige teratokenene foredler Arctics spesialiseringer ytterligere ved å bruke raffinerte datasett.

Optimale arkitektoniske valg Mens MoEs lover bedre kvalitet per databehandling, er det avgjørende å velge de riktige konfigurasjonene, men likevel dårlig forstått. Gjennom detaljerte undersøkelser landet Snowflake på en arkitektur som sysselsetter 128 eksperter med topp-2 gating hvert lag etter å ha evaluert avveininger mellom kvalitet og effektivitet.

Å øke antallet eksperter gir flere kombinasjoner, og forbedrer modellkapasiteten. Dette øker imidlertid også kommunikasjonskostnadene, så Snowflake landet på 128 nøye utformede "kondenserte" eksperter aktivert via topp-2 porter som den optimale balansen.

System Co-Design Men selv en optimal modellarkitektur kan undergraves av systemflaskehalser. Så Snowflake-teamet innoverte også her - co-designet modellarkitekturen hånd i hånd med de underliggende trenings- og slutningssystemene.

For effektiv trening ble de tette komponentene og MoE-komponentene strukturert for å muliggjøre overlappende kommunikasjon og beregning, og skjule betydelige kommunikasjonskostnader. På slutningssiden utnyttet teamet NVIDIAs innovasjoner for å muliggjøre svært effektiv distribusjon til tross for Arctics skala.

Teknikker som FP8-kvantisering gjør det mulig å tilpasse hele modellen på en enkelt GPU-node for interaktiv slutning. Større batcher engasjerer Arctics parallellitetsevner på tvers av flere noder, samtidig som de forblir imponerende beregningseffektive takket være de kompakte 17B aktive parameterne.

Med en Apache 2.0-lisens er Arctics vekter og kode tilgjengelig ugated for personlig, forskningsmessig eller kommersiell bruk. Men Snowflake har gått mye lenger, og åpnet deres fullstendige dataoppskrifter, modellimplementeringer, tips og den dype forskningsinnsikten som driver Arctic.

Den "Arktisk kokebok” er en omfattende kunnskapsbase som dekker alle aspekter ved å bygge og optimalisere en storskala MoE-modell som Arctic. Den destillerer nøkkellæring på tvers av datakilder, modellarkitekturdesign, systemsamdesign, optimaliserte opplærings-/slutningsordninger og mer.

Fra å identifisere optimale datapensum til å bygge MoEs samtidig som kompilatorer, planleggere og maskinvare samoptimeres – denne omfattende kunnskapsmengden demokratiserer ferdigheter som tidligere var begrenset til elite AI-laboratorier. The Arctic Cookbook akselererer læringskurver og gir bedrifter, forskere og utviklere globalt mulighet til å lage sine egne kostnadseffektive, skreddersydde LLM-er for praktisk talt alle bruksområder.

Komme i gang med Arctic

For selskaper som er opptatt av å utnytte Arktis, tilbyr Snowflake flere veier for å komme raskt i gang:

Serverløs slutning: Snowflake-kunder kan få tilgang til Arctic-modellen gratis på Snowflake Cortex, selskapets fullt administrerte AI-plattform. Utover det er Arctic tilgjengelig på tvers av alle store modellkataloger som AWS, Microsoft Azure, NVIDIA og mer.

Start fra bunnen av: Modellvektene og implementeringene med åpen kildekode lar utviklere integrere Arctic direkte i appene og tjenestene sine. Den arktiske repoen gir kodeeksempler, distribusjonsveiledninger, finjusteringsoppskrifter og mer.

Bygg tilpassede modeller: Takket være Arctic Cookbooks uttømmende veiledninger, kan utviklere bygge sine egne tilpassede MoE-modeller fra bunnen av, optimalisert for alle spesialiserte brukstilfeller ved å bruke erfaringer fra Arctics utvikling.

A New Era of Open Enterprise AI Arctic er mer enn bare nok en kraftig språkmodell – den varsler en ny æra med åpne, kostnadseffektive og spesialiserte AI-evner spesialbygd for bedriften.

Fra revolusjonerende dataanalyse og kodingsproduktivitet til å drive oppgaveautomatisering og smartere applikasjoner, gjør Arctics bedrifts-første DNA det til et uslåelig valg fremfor generiske LLM-er. Og ved å åpne ikke bare modellen, men hele FoU-prosessen bak den, fremmer Snowflake en samarbeidskultur som vil heve hele AI-økosystemet.

Ettersom bedrifter i økende grad omfavner generativ AI, tilbyr Arctic en dristig plan for å utvikle modeller som er objektivt overlegne for produksjonsarbeidsbelastninger og bedriftsmiljøer. Dens sammenløp av banebrytende forskning, uovertruffen effektivitet og en standhaftig åpen etos setter en ny målestokk for å demokratisere AIs transformative potensial.

Her er en seksjon med kodeeksempler på hvordan du bruker Snowflake Arctic-modellen:

Hands-on med Arctic

Nå som vi har dekket hva som gjør Arctic virkelig banebrytende, la oss dykke ned i hvordan utviklere og dataforskere kan begynne å sette denne kraftmodellen i bruk.
Ut av esken er Arctic tilgjengelig forhåndsopplært og klar til å distribueres gjennom store modellhuber som Hugging Face og partner AI-plattformer. Men dens virkelige kraft kommer frem når du tilpasser og finjusterer den for dine spesifikke brukstilfeller.

Arctics Apache 2.0-lisens gir full frihet til å integrere den i appene, tjenestene eller tilpassede AI-arbeidsflyter. La oss gå gjennom noen kodeeksempler ved å bruke transformatorbiblioteket for å komme i gang:
Grunnleggende slutning med Arktis

For rask tekstgenerering kan vi laste inn Arctic og kjøre grunnleggende slutninger veldig enkelt:

from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

Dette skal gi ut noe sånt som:

«Frankrikes hovedstad er Paris. Paris er den største byen i Frankrike og landets økonomiske, politiske og kulturelle sentrum. Det er hjemmet til kjente landemerker som Eiffeltårnet, Louvre-museet og Notre-Dame-katedralen.»

Som du kan se, forstår Arctic sømløst søket og gir et detaljert, forankret svar som utnytter dens robuste språkforståelsesevner.

Finjustering for spesialiserte oppgaver

Mens det er imponerende rett ut av esken, skinner Arctic virkelig når det er tilpasset og finjustert på dine proprietære data for spesialiserte oppgaver. Snowflake har gitt omfattende oppskrifter som dekker:

Kuraterer treningsdata av høy kvalitet skreddersydd for ditt bruksområde
Implementering av tilpassede flertrinns opplæringsplaner
Utnytte effektive LoRA, P-Tuning eller FactorizedFusion finjusteringsmetoder
Optimaliseringer for kresne SQL, koding eller andre viktige bedriftsferdigheter

Her er et eksempel på hvordan du kan finjustere Arctic på dine egne kodedatasett ved å bruke LoRA og Snowflakes oppskrifter:

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)

Denne koden illustrerer hvordan du enkelt kan laste inn Arctic, initialisere en LoRA-konfigurasjon skreddersydd for kodegenerering, og deretter finjustere modellen på dine proprietære kodedatasett ved å utnytte Snowflakes veiledning.

Tilpasset og finjustert, blir Arctic et privat kraftsenter som er innstilt for å levere uovertruffen ytelse på kjernearbeidsflytene og interessentenes behov.

Arktis raske innovasjonssyklus

En av de mest imponerende aspektene ved Arktis er det voldsomme tempoet som Snowflakes AI-forskningsteam unnfanget, utviklet og lanserte denne banebrytende modellen til verden. Fra starten til åpen kildekode-utgivelse tok hele Arctic-prosjektet mindre enn tre måneder og utnyttet bare omtrent en åttendedel av beregningsbudsjettet som er typisk for opplæring av lignende store språkmodeller.

Denne evnen til raskt å iterere, innovere og produsere toppmoderne AI-forskning er virkelig bemerkelsesverdig. Den demonstrerer Snowflakes dype tekniske evner og posisjonerer selskapet til kontinuerlig å flytte grensene for å utvikle nye, bedriftsoptimerte AI-evner.

Den arktiske familien og innbygginger

Arctic er bare starten på Snowflakes ambisjoner i enterprise LLM-området. Selskapet har allerede åpnet Snowflake Arctic Embed-familien av bransjeledende tekstinnbyggingsmodeller optimert for gjenfinningsytelse på tvers av profiler i flere størrelser.

Som illustrert nedenfor, oppnår Arctic Embed-modellene toppmoderne gjenfinningsnøyaktighet på den respekterte MTEB (teksthenting) benchmark, og overgår andre ledende innbyggingsmodeller, inkludert lukkede tilbud fra store teknologigiganter.

[Sett inn bilde som viser MTEB-innhentingsresultater for Arctic Embed-modeller]

Disse innbyggingsmodellene utfyller Arctic LLM og gjør det mulig for bedrifter å bygge kraftige spørsmålssvar og gjenfinningsutvidede generasjonsløsninger fra en integrert åpen kildekodestabel.

Men Snowflakes veikart strekker seg langt utover bare Arktis og innebygginger. Selskapets AI-forskere jobber hardt med å utvide Arctic-familien med nye modeller skreddersydd for multimodale oppgaver, tale, video og flere grenseoverskridende evner – alt bygget etter de samme prinsippene for spesialisering, effektivitet og åpenhet.

Samarbeid for et åpent AI-økosystem Snowflake forstår at det å realisere det fulle potensialet til åpen AI i bedriftsklasse krever å dyrke et rikt økosystem av partnerskap på tvers av AI-fellesskapet. Arctic-utgivelsen har allerede galvanisert samarbeid med store plattformer og leverandører:

NVIDIA har samarbeidet tett med Snowflake for å optimalisere Arctic for effektiv distribusjon ved å bruke NVIDIAs banebrytende AI-slutningsstabel inkludert TensorRT, Triton og mer. Dette gjør at bedrifter kan betjene Arktis i stor skala på en kostnadseffektiv måte.

Hugging Face, det ledende modellsenteret for åpen kildekode, har ønsket Arctic velkommen inn i sine biblioteker og modelllagre. Dette tillater sømløs integrering av Arctic i eksisterende Hugging Face-baserte AI-arbeidsflyter og applikasjoner.

Plattformer som Replicate, SageMaker og flere har beveget seg raskt for å tilby vertsbaserte demoer, APIer og flytende integrasjonsveier for Arctic, og akselererer adopsjonen.

Åpen kildekode styrte utviklingen av Arktis, og åpne økosystemer er fortsatt sentrale i utviklingen. Snowflake er forpliktet til å fremme et rikt samarbeid med forskere, utviklere, partnere og bedrifter globalt for å flytte grensene for hva som er mulig med åpne, spesialiserte AI-modeller.

Relaterte temaer:AI-forskning Arctic Bedrifter LLM Blanding av eksperter Snowflake transformator

Neste

Mini-Gemini: Utvinne potensialet til multimodalitetssynsspråkmodeller

Ikke gå glipp av

AIOS: Operativsystem for LLM-agenter

Aayush Mittal

Jeg har brukt de siste fem årene på å fordype meg i den fascinerende verdenen av maskinlæring og dyplæring. Min lidenskap og ekspertise har ført til at jeg har bidratt til over 50 ulike programvareprosjekter, med spesielt fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot naturlig språkbehandling, et felt jeg er ivrig etter å utforske videre.