Connect with us

Kunstmatige intelligentie

Snowflake Arctic: De cutting-edge LLM voor Enterprise AI

mm
Snowflake Arctic: The Cutting-Edge LLM for Enterprise AI

Bedrijven onderzoeken tegenwoordig steeds vaker manieren om grote taalmodellen (LLM’s) te gebruiken om de productiviteit te verhogen en intelligente toepassingen te creëren. Echter, veel van de beschikbare LLM-opties zijn generieke modellen die niet zijn aangepast voor gespecialiseerde bedrijfsbehoeften zoals gegevensanalyse, codering en taakautomatisering. Kom binnen Snowflake Arctic – een state-of-the-art LLM die speciaal is ontworpen en geoptimaliseerd voor core bedrijfsgevallen.

Ontwikkeld door het AI-onderzoeksteam van Snowflake, Arctic duwt de grenzen van wat mogelijk is met efficiënte training, kostenefficiëntie en een ongekend niveau van openheid. Dit revolutionaire model blinkt uit in sleutelbedrijfsbenchmarks terwijl het veel minder rekenkracht vereist in vergelijking met bestaande LLM’s. Laten we duiken in wat Arctic een game-changer maakt voor bedrijfs-AI.

Bedrijfsintelligentie opnieuw gedefinieerd In zijn kern is Arctic gericht op het leveren van uitzonderlijke prestaties op metrics die echt belangrijk zijn voor bedrijven – codering, SQL-query’s, complexe instructievolging en het produceren van gefundeerde, feitengebaseerde uitvoer. Snowflake heeft deze kritieke capaciteiten gecombineerd in een novum “bedrijfsintelligentie“-meting.

De resultaten spreken voor zich. Arctic voldoet aan of overtreft modellen zoals LLAMA 7B en LLAMA 70B op bedrijfsintelligentiebenchmarks terwijl het minder dan de helft van het compute-budget voor training gebruikt. Opmerkelijk, ondanks het gebruik van 17 keer minder compute-resources dan LLAMA 70B, bereikt Arctic gelijkheid op gespecialiseerde tests zoals codering (HumanEval+, MBPP+), SQL-generatie (Spider) en instructievolging (IFEval).

Maar Arctic’s kracht gaat verder dan alleen het behalen van bedrijfsbenchmarks. Het behoudt een sterke prestatie over het algemeen taalbegrip, redeneren en wiskundige vaardigheid in vergelijking met modellen getraind met exponentieel hogere compute-budgets zoals DBRX. Deze holistische capaciteit maakt Arctic een onverslaanbare keuze voor het aanpakken van de diverse AI-behoeften van een bedrijf.

De innovatie

Dense-MoE Hybrid Transformer Hoe bouwde het Snowflake-team zo’n ongelooflijk capabel en efficiënt LLM? Het antwoord ligt in Arctic’s cutting-edge Dense Mixture-of-Experts (MoE) Hybrid Transformer-architectuur.

Traditionele dense transformer-modellen worden steeds duurder om te trainen naarmate hun formaat groeit, met computationele vereisten die lineair toenemen. De MoE-ontwerp helpt deze te omzeilen door meerdere parallelle feed-forward netwerken (experts) te gebruiken en alleen een subset te activeren voor elk invoertoken.

Maar het gebruik van alleen een MoE-architectuur is niet genoeg – Arctic combineert de kracht van zowel dense als MoE-componenten op een ingenieuze manier. Het koppelt een 10 miljard parameter dense transformer encoder aan een 128 expert residu MoE multi-laag perceptron (MLP) laag. Dit dense-MoE hybride model telt 480 miljard parameters, maar alleen 17 miljard zijn actief op een bepaald moment met top-2 gating.

De implicaties zijn diepgaand – Arctic bereikt ongekende modelkwaliteit en capaciteit terwijl het nog steeds opvallend compute-efficiënt blijft tijdens training en inferentie. Bijvoorbeeld, Arctic heeft 50% minder actieve parameters dan modellen zoals DBRX tijdens inferentie.

Maar modelarchitectuur is slechts een deel van het verhaal. Arctic’s excellentie is het resultaat van verschillende baanbrekende technieken en inzichten ontwikkeld door het Snowflake-onderzoeksteam:

  1. Ondernemingsgerichte trainingsgegevenscurriculum Door uitgebreid experimenteerwerk ontdekte het team dat generieke vaardigheden zoals gezond verstand redeneren moeten worden geleerd in een vroeg stadium, terwijl meer complexe specialisaties zoals codering en SQL het beste later in het trainingsproces worden verworven. Arctic’s gegevenscurriculum volgt een driedelige aanpak die menselijke leerprocessen imiteert.

De eerste teratokens richten zich op het opbouwen van een brede algemene basis. De volgende 1,5 teratokens concentreren zich op het ontwikkelen van ondernemingsvaardigheden via gegevens die zijn aangepast voor SQL, codetaak en meer. De laatste teratokens verfijnen Arctic’s specialisaties verder met verfijnde datasets.

  1. Optimale architectonische keuzes Terwijl MoE’s betere kwaliteit per compute beloven, is het kiezen van de juiste configuraties cruciaal maar slecht begrepen. Door gedetailleerd onderzoek kwam Snowflake tot een architectuur die 128 experts met top-2 gating in elke laag na het evalueren van kwaliteit-efficiëntie-uitwisselingen.

Het verhogen van het aantal experts biedt meer combinaties, waardoor de modelcapaciteit wordt verbeterd. Echter, dit verhoogt ook de communicatiekosten, dus Snowflake kwam tot 128 zorgvuldig ontworpen “gecondenseerde” experts die via top-2 gating worden geactiveerd als de optimale balans.

  1. Systeemco-ontwerp Maar zelfs een optimale modelarchitectuur kan worden ondermijnd door systeembottlenecks. Dus het Snowflake-team innoveerde hier ook – door de modelarchitectuur hand in hand te ontwerpen met de onderliggende trainings- en inferentiesystemen.

Voor efficiënte training werden de dense en MoE-componenten zo gestructureerd dat overlapping communicatie en berekening mogelijk werd, waardoor aanzienlijke communicatieoverhead werd verborgen. Aan de inferentiekant maakte het team gebruik van NVIDIA’s innovaties om een zeer efficiënte implementatie mogelijk te maken ondanks Arctic’s omvang.

Technieken zoals FP8-quantificatie maken het mogelijk om het volledige model op één GPU-knooppunt te plaatsen voor interactieve inferentie. Grotere batches activeren Arctic’s parallelle capaciteiten over meerdere knooppunten terwijl ze nog steeds indrukwekkend compute-efficiënt blijven dankzij de compacte 17B actieve parameters.

Met een Apache 2.0-licentie zijn Arctic’s gewichten en code onbeperkt beschikbaar voor persoonlijk, onderzoeks- of commercieel gebruik. Maar Snowflake is veel verder gegaan, door hun complete gegevensrecepten, modelimplementaties, tips en diepe onderzoeksinzichten die Arctic aandrijven, open source te maken.

De “Arctic Cookbook” is een uitgebreide kennisbank die elk aspect van het bouwen en optimaliseren van een grote MoE-model zoals Arctic behandelt. Het distilleert sleutelkennis over gegevenssourcing, modelarchitectuurontwerp, systeemco-ontwerp, geoptimaliseerde trainings-/inferentieschema’s en meer.

Van het identificeren van optimale gegevenscurricula tot het ontwerpen van MoE’s terwijl compilers, planners en hardware worden geoptimaliseerd – deze uitgebreide kennisbasis democratiseert vaardigheden die eerder beperkt waren tot elite AI-labs. De Arctic Cookbook versnelt leercurves en empowerd bedrijven, onderzoekers en ontwikkelaars wereldwijd om hun eigen kostenefficiënte, aangepaste LLM’s te creëren voor vrijwel elk gebruik.

Aan de slag met Arctic

Voor bedrijven die Arctic willen gebruiken, biedt Snowflake meerdere paden om snel aan de slag te gaan:

Serverless Inferentie: Snowflake-klanten kunnen toegang krijgen tot het Arctic-model gratis op Snowflake Cortex, het volledig beheerde AI-platform van het bedrijf. Bovendien is Arctic beschikbaar op alle grote modelcatalogi zoals AWS, Microsoft Azure, NVIDIA en meer.

Start van scratch: De open source modelgewichten en -implementaties stellen ontwikkelaars in staat om Arctic rechtstreeks in hun apps en services te integreren. De Arctic-repository biedt codevoorbeelden, implementatietutorials, fijnafstellingrecepten en meer.

Aangepaste modellen bouwen: Dankzij de uitgebreide gidsen in de Arctic Cookbook kunnen ontwikkelaars hun eigen aangepaste MoE-modellen van scratch bouwen, geoptimaliseerd voor elke gespecialiseerde use case met behulp van kennis uit Arctic’s ontwikkeling.

Een nieuwe era van open bedrijfs-AI Arctic is meer dan alleen een krachtig taalmodel – het luidt een nieuwe era van open, kostenefficiënte en gespecialiseerde AI-mogelijkheden in, speciaal ontworpen voor het bedrijfsleven.

Van het revolutioneren van gegevensanalyse en coderingsproductiviteit tot het aandrijven van taakautomatisering en slimmere toepassingen, Arctic’s ondernemingsfirst-DNA maakt het een onverslaanbare keuze boven generieke LLM’s. En door niet alleen het model maar het hele R&D-proces erachter open source te maken, bevordert Snowflake een cultuur van samenwerking die het hele AI-ecosysteem zal verheffen.

Naarmate bedrijven steeds vaker generatieve AI omarmen, biedt Arctic een moedig blauwdruk voor het ontwikkelen van modellen die objectief superieur zijn voor productieworkloads en bedrijfsomgevingen. De combinatie van cutting-edge onderzoek, ongeëvenaarde efficiëntie en een onwankelbare open ethos stelt een nieuwe benchmark in het democratiseren van de transformatieve potentie van AI.

Hands-On met Arctic

Nu we hebben besproken wat Arctic echt baanbrekend maakt, laten we duiken in hoe ontwikkelaars en datawetenschappers Arctic aan het werk kunnen zetten.
Out of the box is Arctic beschikbaar vooraf getraind en klaar voor implementatie via grote modelhubs zoals Hugging Face en partner AI-platforms. Maar zijn echte kracht komt tot uiting wanneer het wordt aangepast en fijn afgesteld voor specifieke use cases.

Arctic’s Apache 2.0-licentie biedt volledige vrijheid om het te integreren in uw apps, services of aangepaste AI-workflows. Laten we enkele codevoorbeelden bekijken met behulp van de transformers-bibliotheek om u aan de slag te helpen:
Basisinferentie met Arctic

Voor snelle tekstgeneratiegevallen kunnen we Arctic laden en basisinferentie heel eenvoudig uitvoeren:


from transformers import AutoTokenizer, AutoModelForCausalLM

# Laad de tokenizer en het model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")

# Maak een eenvoudige invoer en genereer tekst
input_text = "Hier is een basisvraag: Wat is de hoofdstad van Frankrijk?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")

# Genereer antwoord met Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

print(generated_text)

Dit zou iets moeten uitvoeren zoals:

“De hoofdstad van Frankrijk is Parijs. Parijs is de grootste stad in Frankrijk en het economische, politieke en culturele centrum van het land. Het is de thuisbasis van beroemde bezienswaardigheden zoals de Eiffeltoren, het Louvre-museum en de Notre-Dame-kathedraal.”

Zoals u kunt zien, begrijpt Arctic moeiteloos de vraag en levert een gedetailleerd, gefundeerd antwoord met zijn robuuste taalbegripsvermogen.

Fijnafstemming voor gespecialiseerde taken

Terwijl indrukwekkend out-of-the-box, Arctic schittert echt wanneer het wordt aangepast en fijn afgesteld op uw eigen gegevens voor gespecialiseerde taken. Snowflake heeft uitgebreide recepten beschikbaar gesteld die:

  • Het verzamelen van hoogwaardige trainingsgegevens aangepast voor uw use case
  • Het implementeren van aangepaste multi-stage trainingscurricula
  • Het gebruik van efficiënte LoRA, P-Tuning of FactorizedFusion fijnafstellingbenaderingen
  • Optimalisaties voor onderscheidende SQL, codering of andere sleutelbedrijfsvaardigheden

Hier is een voorbeeld van hoe u Arctic kunt fijnafstemmen op uw eigen coderingsdatasets met LoRA en Snowflake’s recepten:


from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training

# Laad het basis Arctic-model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)

# Initialiseer LoRA-configuratie
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)

# Bereid model voor op LoRA-fijnafstemming
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)

# Uw coderingsdatasets
data = load_coding_datasets()

# Fijnafstemming met Snowflake's recepten
train(model, data, ...)

Deze code illustreert hoe u Arctic kunt laden, een LoRA-configuratie kunt initialiseren die is aangepast voor codegeneratie, en vervolgens het model kunt fijnafstemmen op uw eigen coderingsdatasets met behulp van Snowflake’s richtlijnen.

Aangepast en fijn afgesteld, wordt Arctic een particuliere krachtpatser die is afgestemd op het leveren van ongeëvenaarde prestaties op uw core bedrijfsworkflows en stakeholderbehoeften.

Arctic’s snelle innovatiecyclus

Een van de meest indrukwekkende aspecten van Arctic is de verbluffende snelheid waarmee Snowflake’s AI-onderzoeksteam dit cutting-edge model heeft bedacht, ontwikkeld en vrijgegeven aan de wereld. Van conceptie tot open source-release duurde het hele Arctic-project minder dan drie maanden en maakte het gebruik van slechts ongeveer een achtste van het compute-budget dat typisch is voor het trainen van soortgelijke grote taalmodellen.

Deze capaciteit om snel te itereren, te innoveren en state-of-the-art AI-onderzoek te productiseren is echt opmerkelijk. Het toont Snowflake’s diepe technische capaciteiten en positioneert het bedrijf om continu de grenzen te verleggen bij het ontwikkelen van novelle, bedrijfsgeoptimaliseerde AI-mogelijkheden.

De Arctic-familie en embeddings

Arctic is slechts het begin van Snowflake’s ambities in de bedrijfs-LLM-ruimte. Het bedrijf heeft al de Snowflake Arctic Embed-familie van industrieleidende tekstembeddingmodellen geopend die zijn geoptimaliseerd voor ophaalprestaties over meerdere grootteprofielen.

Zoals hieronder wordt geïllustreerd, bereiken de Arctic Embed-modellen state-of-the-art ophaalprecisie op de gerespecteerde MTEB (tekstophaling)-benchmark, waarmee ze andere toonaangevende embeddingmodellen, waaronder gesloten aanbod van grote technologiebedrijven, overtreffen.

[Insert afbeelding die MTEB-ophalingsbenchmarkresultaten voor Arctic Embed-modellen toont]

Deze embeddingmodellen vullen het Arctic LLM aan en stellen bedrijven in staat om krachtige vraag- en antwoordoplossingen en ophaling-versterkte generatiemodellen te bouwen vanuit een geïntegreerde open source-stack.

Maar Snowflake’s roadmap gaat verder dan alleen Arctic en embeddings. Het bedrijfs AI-onderzoekers werken hard aan het uitbreiden van de Arctic-familie met nieuwe modellen die zijn aangepast voor multimodale taken, spraak, video en meer frontier-mogelijkheden – allemaal gebouwd met dezelfde principes van specialisatie, efficiëntie en openheid.

Partnerschap voor een open AI-ecosysteem Snowflake begrijpt dat het realiseren van het volledige potentieel van open, bedrijfsklasse AI het cultiveren van een rijke ecosystemen van partnerships over de hele AI-gemeenschap vereist. De Arctic-release heeft al samenwerkingen met grote platforms en leveranciers in gang gezet:

NVIDIA heeft nauw samengewerkt met Snowflake om Arctic te optimaliseren voor efficiënte implementatie met behulp van NVIDIA’s cutting-edge AI-inferentiestack, waaronder TensorRT, Triton en meer. Dit stelt bedrijven in staat om Arctic op grote schaal kostenefficiënt te serveren.

Hugging Face, de toonaangevende open source-modelhub, heeft Arctic verwelkomd in zijn bibliotheken en modelrepositories. Dit maakt een naadloze integratie van Arctic in bestaande Hugging Face-gebaseerde AI-workflows en -toepassingen mogelijk.

Platforms zoals Replicate, SageMaker en meer hebben snel gehandeld om gehoste demos, API’s en vloeiende integratiepaden voor Arctic aan te bieden, waardoor de adoptie wordt versneld.

Open source heeft de ontwikkeling van Arctic aangestuurd, en open ecosystemen blijven centraal in zijn evolutie. Snowflake is toegewijd aan het bevorderen van rijke samenwerking met onderzoekers, ontwikkelaars, partners en bedrijven wereldwijd om de grenzen van wat mogelijk is met open, gespecialiseerde AI-modellen te verleggen.

Ik heb de afgelopen vijf jaar mezelf ondergedompeld in de fascinerende wereld van Machine Learning en Deep Learning. Mijn passie en expertise hebben me geleid om bij te dragen aan meer dan 50 uiteenlopende software-engineeringprojecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een vakgebied dat ik graag verder wil verkennen.