Artificiell intelligens

Snowflake Arctic: The Cutting-Edge LLM för Enterprise AI

publicerade

2 veckor sedan

25 april 2024

Snowflake Arctic: The Cutting-Edge LLM för Enterprise AI

Företag i dag undersöker allt mer sätt att utnyttja stora språkmodeller (LLM) för att öka produktiviteten och skapa intelligenta applikationer. Men många av de tillgängliga LLM-alternativen är generiska modeller som inte är skräddarsydda för specialiserade företagsbehov som dataanalys, kodning och uppgiftsautomatisering. Stiga på Snöflinga Arktis – en toppmodern LLM målmedvetet designad och optimerad för kärnföretagsanvändning.

Utvecklat av AI-forskarteamet på Snowflake, tänjer Arctic på gränserna för vad som är möjligt med effektiv träning, kostnadseffektivitet och en oöverträffad nivå av öppenhet. Denna revolutionerande modell utmärker sig vid viktiga företagsriktmärken samtidigt som den kräver mycket mindre datorkraft jämfört med befintliga LLM:er. Låt oss dyka in i vad som gör Arctic till en spelväxlare för företags-AI.

Enterprise Intelligence Omdefinierad I kärnan är Arctic laserfokuserad på att leverera exceptionell prestanda på mätningar som verkligen betyder något för företag – kodning, SQL-förfrågningar, komplexa instruktioner som följer och producerar jordade, faktabaserade utdata. Snowflake har kombinerat dessa kritiska förmågor till en roman "företagsintelligens" mått.

Resultaten talar för sig själva. Arctic möter eller överträffar modeller som LLAMA 7B och LLAMA 70B på riktmärken för företagsintelligens samtidigt som de använder mindre än halva datorbudgeten för utbildning. Anmärkningsvärt, trots att använda 17 gånger färre beräkningsresurser än LLAMA 70B, Arctic uppnår paritet på specialiserade tester som kodning (HumanEval+, MBPP+), SQL-generering (Spider) och instruktionsföljning (IFEval).

Men Arctics skicklighet sträcker sig längre än att bara bli framgångsrika företagsriktmärken. Den upprätthåller starka prestanda över allmän språkförståelse, resonemang och matematisk begåvning jämfört med modeller tränade med exponentiellt högre beräkningsbudgetar som DBRX. Denna holistiska förmåga gör Arctic till ett oslagbart val för att möta ett företags olika AI-behov.

Innovation

Dense-MoE Hybrid Transformer Så hur byggde Snowflake-teamet en så otroligt kapabel men ändå effektiv LLM? Svaret ligger i Arctics banbrytande Dense Mixture-of-Experts (MoE) Hybrid Transformer-arkitektur.

Traditionella kompakta transformatormodeller blir allt dyrare att träna när deras storlek växer, med beräkningskrav som ökar linjärt. MoE-designen hjälper till att kringgå detta genom att använda flera parallella feed-forward-nätverk (experter) och endast aktivera en delmängd för varje inmatningstoken.

Det räcker dock inte att bara använda en MoE-arkitektur – Arctic kombinerar styrkorna hos både täta komponenter och MoE-komponenter på ett genialiskt sätt. Den parar en transformatorkodare med 10 miljarder parametrar med ett 128 expertresidual MoE multi-layer perceptron (MLP) lager. Denna kompakta MoE-hybridmodell uppgår till totalt 480 miljarder parametrar men endast 17 miljarder är aktiva vid varje given tidpunkt med hjälp av topp-2 gating.

Konsekvenserna är djupgående – Arctic uppnår oöverträffad modellkvalitet och kapacitet samtidigt som den förblir anmärkningsvärt beräkningseffektiv under träning och slutledning. Till exempel har Arctic 50 % färre aktiva parametrar än modeller som DBRX under slutledning.

Men modellarkitektur är bara en del av historien. Arctics förträfflighet är kulmen på flera banbrytande tekniker och insikter som utvecklats av forskargruppen Snowflake:

Företagsfokuserad utbildningsdataläroplan Genom omfattande experiment upptäckte teamet att generiska färdigheter som sunt förnuft bör läras in tidigt, medan mer komplexa specialiseringar som kodning och SQL bäst förvärvas senare i utbildningsprocessen. Arctics dataläroplan följer en metod i tre steg som efterliknar mänskliga inlärningsförlopp.

De första teratokens fokuserar på att bygga en bred allmän bas. De kommande 1.5 teratokens koncentrerar sig på att utveckla företagsfärdigheter genom data skräddarsydd för SQL, kodningsuppgifter och mer. De sista teratokens förfinar Arctics specialiseringar ytterligare med förfinade datauppsättningar.

Optimala arkitektoniska val Även om MoEs lovar bättre kvalitet per beräkning, är det avgörande att välja rätt konfigurationer men ändå dåligt förstådd. Genom detaljerad forskning landade Snowflake på en arkitektur som sysselsatte 128 experter med topp-2 gating varje lager efter att ha utvärderat kompromisser mellan kvalitet och effektivitet.

Att öka antalet experter ger fler kombinationer, vilket ökar modellkapaciteten. Men detta höjer också kommunikationskostnaderna, så Snowflake landade på 128 noggrant designade "kondenserade" experter aktiverade via top-2 gating som den optimala balansen.

System Co-Design Men även en optimal modellarkitektur kan undergrävas av systemflaskhalsar. Så Snowflake-teamet förnyade även här – designade modellarkitekturen hand i hand med de underliggande tränings- och slutledningssystemen.

För effektiv träning strukturerades de täta och MoE-komponenterna för att möjliggöra överlappande kommunikation och beräkning, vilket döljer betydande kommunikationskostnader. På slutledningssidan utnyttjade teamet NVIDIAs innovationer för att möjliggöra högeffektiv distribution trots Arctics skala.

Tekniker som FP8-kvantisering gör det möjligt att montera hela modellen på en enda GPU-nod för interaktiv slutledning. Större batcher utnyttjar Arctics parallellitetsförmåga över flera noder samtidigt som de förblir imponerande beräkningseffektiva tack vare dess kompakta 17B aktiva parametrar.

Med en Apache 2.0-licens är Arctics vikter och kod tillgängliga för personligt bruk, forskning eller kommersiellt bruk. Men Snowflake har gått mycket längre genom att öppna sina fullständiga datarecept, modellimplementationer, tips och de djupa forskningsinsikterna som driver Arctic.

Den "Arktisk kokbok” är en omfattande kunskapsbas som täcker alla aspekter av att bygga och optimera en storskalig MoE-modell som Arctic. Det destillerar viktiga lärdomar från datakälla, modellarkitekturdesign, systemsamdesign, optimerade utbildnings-/inferensscheman och mer.

Från att identifiera optimala dataläroplaner till att utforma MoEs samtidigt som man samoptimerar kompilatorer, schemaläggare och hårdvara – denna omfattande kunskapsmassa demokratiserar färdigheter som tidigare var begränsade till elit-AI-labb. Arctic Cookbook accelererar inlärningskurvor och ger företag, forskare och utvecklare globalt möjlighet att skapa sina egna kostnadseffektiva, skräddarsydda LLM:er för praktiskt taget alla användningsområden.

Komma igång med Arctic

För företag som är intresserade av att utnyttja Arktis erbjuder Snowflake flera vägar för att snabbt komma igång:

Serverlös slutledning: Snowflake-kunder kan komma åt Arctic-modellen gratis på Snowflake Cortex, företagets fullt hanterade AI-plattform. Utöver det är Arctic tillgängligt i alla större modellkataloger som AWS, Microsoft Azure, NVIDIA och mer.

Börja från början: Modellvikterna och implementeringarna med öppen källkod tillåter utvecklare att direkt integrera Arctic i sina appar och tjänster. Arctic repo tillhandahåller kodexempel, implementeringshandledningar, finjusteringsrecept och mer.

Bygg anpassade modeller: Tack vare Arctic Cookbooks uttömmande guider kan utvecklare bygga sina egna anpassade MoE-modeller från grunden optimerade för alla specialiserade användningsfall med hjälp av lärdomar från Arctics utveckling.

A New Era of Open Enterprise AI Arctic är mer än bara ytterligare en kraftfull språkmodell – den förebådar en ny era av öppna, kostnadseffektiva och specialiserade AI-funktioner specialbyggda för företaget.

Från att revolutionera dataanalys och kodningsproduktivitet till att driva uppgiftsautomation och smartare applikationer, Arctics första DNA gör det till ett oslagbart val framför generiska LLM:er. Och genom öppen källa, inte bara modellen utan hela FoU-processen bakom den, främjar Snowflake en samarbetskultur som kommer att lyfta hela AI-ekosystemet.

När företag i allt högre grad anammar generativ AI erbjuder Arctic en djärv plan för att utveckla modeller som är objektivt överlägsna för produktionsbelastningar och företagsmiljöer. Dess sammanflöde av banbrytande forskning, oöverträffad effektivitet och en stadig öppen etos sätter ett nytt riktmärke för att demokratisera AI:s transformativa potential.

Här är ett avsnitt med kodexempel på hur man använder Snowflake Arctic-modellen:

Hands-on med Arctic

Nu när vi har täckt vad som gör Arctic verkligen banbrytande, låt oss dyka in i hur utvecklare och datavetare kan börja använda denna kraftpaketmodell.
Arctic är tillgänglig förutbildad och redo att distribueras genom stora modellnav som Hugging Face och partner AI-plattformar. Men dess verkliga kraft kommer fram när du anpassar och finjusterar den för dina specifika användningsfall.

Arctics Apache 2.0-licens ger full frihet att integrera den i dina appar, tjänster eller anpassade AI-arbetsflöden. Låt oss gå igenom några kodexempel med hjälp av transformatorbiblioteket för att komma igång:
Grundläggande slutsats med Arktis

För snabb textgenerering kan vi ladda Arctic och köra grundläggande slutledning mycket enkelt:

from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

Detta bör ge ut något i stil med:

"Frankrikes huvudstad är Paris. Paris är den största staden i Frankrike och landets ekonomiska, politiska och kulturella centrum. Det är hem för kända landmärken som Eiffeltornet, Louvren och Notre-Dame-katedralen.”

Som du kan se förstår Arctic sömlöst frågan och ger ett detaljerat, grundat svar som utnyttjar dess robusta språkförståelse.

Finjustering för specialiserade uppgifter

Även om det är imponerande direkt från lådan, lyser Arctic verkligen när det är anpassat och finjusterat på din egen data för specialiserade uppgifter. Snowflake har tillhandahållit omfattande recept som täcker:

Kurerar utbildningsdata av hög kvalitet skräddarsydda för ditt användningsfall
Implementera skräddarsydda flerstegs utbildningsplaner
Utnyttja effektiva metoder för finjustering av LoRA, P-Tuning eller FactorizedFusion
Optimering för kräsna SQL, kodning eller andra viktiga företagsfärdigheter

Här är ett exempel på hur du finjusterar Arctic på dina egna kodningsdatauppsättningar med hjälp av LoRA och Snowflakes recept:

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)

Den här koden illustrerar hur du enkelt kan ladda Arctic, initiera en LoRA-konfiguration skräddarsydd för kodgenerering och sedan finjustera modellen på dina egna kodningsdatauppsättningar med hjälp av Snowflakes vägledning.

Skräddarsydd och finjusterad, Arctic blir ett privat kraftpaket som är trimmat för att leverera oöverträffad prestanda för dina kärnverksamhetsarbetsflöden och intressenters behov.

Arktis snabba innovationscykel

En av de mest imponerande aspekterna av Arktis är den blixtrande takten i vilken Snowflakes AI-forskarteam utarbetade, utvecklade och släppte den här banbrytande modellen till världen. Från starten till frisläppandet av öppen källkod tog hela det arktiska projektet mindre än tre månader och utnyttjade bara ungefär en åttondel av den beräkningsbudget som är typisk för att träna liknande stora språkmodeller.

Denna förmåga att snabbt iterera, förnya och producera den senaste AI-forskningen är verkligen anmärkningsvärd. Det visar Snowflakes djupa tekniska kapacitet och positionerar företaget för att kontinuerligt tänja på gränserna för att utveckla nya, företagsoptimerade AI-förmågor.

Den arktiska familjen och inbäddningar

Arctic är bara början på Snowflakes ambitioner inom LLM-företaget. Företaget har redan öppnat Snowflake Arctic Embed-familjen av branschledande textinbäddningsmodeller optimerade för hämtningsprestanda över profiler i flera storlekar.

Som illustreras nedan uppnår Arctic Embed-modellerna toppmodern hämtningsnoggrannhet på det respekterade MTEB-riktmärket (texthämtning), och överträffar andra ledande inbäddningsmodeller inklusive stängda erbjudanden från stora teknikjättar.

[Infoga bild som visar benchmarkresultat för MTEB-hämtning för Arctic Embed-modeller]

Dessa inbäddningsmodeller kompletterar Arctic LLM och gör det möjligt för företag att bygga kraftfulla generationslösningar för svar på frågor och hämtning från en integrerad öppen källkodsstack.

Men Snowflakes färdplan sträcker sig långt bortom bara Arktis och inbäddningar. Företagets AI-forskare jobbar hårt med att utöka Arctic-familjen med nya modeller skräddarsydda för multimodala uppgifter, tal, video och fler gränsöverskridande kapaciteter – allt byggt med samma principer om specialisering, effektivitet och öppenhet.

Samarbeta för ett öppet AI-ekosystem Snowflake förstår att för att förverkliga den fulla potentialen hos öppen, företagsklassad AI krävs att man odlar ett rikt ekosystem av partnerskap inom AI-gemenskapen. Arctic-releasen har redan skapat samarbete med stora plattformar och leverantörer:

NVIDIA har ett nära samarbete med Snowflake för att optimera Arctic för effektiv distribution med hjälp av NVIDIAs banbrytande AI-inferensstack inklusive TensorRT, Triton och mer. Detta gör det möjligt för företag att betjäna Arktis i stor skala på ett kostnadseffektivt sätt.

Hugging Face, den ledande modellhubben för öppen källkod, har välkomnat Arctic till sina bibliotek och modellförråd. Detta möjliggör sömlös integrering av Arctic i befintliga Hugging Face-baserade AI-arbetsflöden och applikationer.

Plattformar som Replicate, SageMaker och fler har flyttats snabbt för att erbjuda värdbaserade demos, API:er och flytande integrationsvägar för Arctic, vilket påskyndar adoptionen.

Öppen källkod styrde utvecklingen av Arktis, och öppna ekosystem förblir centrala i dess utveckling. Snowflake har åtagit sig att främja ett rikt samarbete med forskare, utvecklare, partners och företag globalt för att tänja på gränserna för vad som är möjligt med öppna, specialiserade AI-modeller.

Relaterade ämnen:AI-forskning arktisk företag LLM Blandning av experter Snöflinga transformator

Strax

Mini-Gemini: Utvinning av potentialen hos multimodala visionspråkmodeller

Missa inte

AIOS: Operativsystem för LLM-agenter

Aayush Mittal

Jag har ägnat de senaste fem åren åt att fördjupa mig i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika programvaruutvecklingsprojekt, med särskilt fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är ivrig att utforska vidare.