Inteligenta Artificiala

Snowflake Arctic: LLM de ultimă oră pentru Enterprise AI

Publicat

în urmă cu 2 săptămâni

Aprilie 25, 2024

Snowflake Arctic: LLM de ultimă oră pentru Enterprise AI

Întreprinderile de astăzi explorează din ce în ce mai multe modalități de a folosi modele de limbaj mari (LLM) pentru a crește productivitatea și a crea aplicații inteligente. Cu toate acestea, multe dintre opțiunile LLM disponibile sunt modele generice care nu sunt adaptate nevoilor specializate ale întreprinderii, cum ar fi analiza datelor, codificarea și automatizarea sarcinilor. introduce Arctic fulg de nea – un LLM de ultimă generație conceput și optimizat în mod intenționat pentru cazurile de utilizare de bază ale întreprinderilor.

Dezvoltat de echipa de cercetare AI de la Snowflake, Arctic depășește limitele a ceea ce este posibil cu un antrenament eficient, rentabilitate și un nivel de deschidere fără egal. Acest model revoluționar excelează la punctele de referință cheie ale întreprinderilor, în timp ce necesită mult mai puțină putere de calcul în comparație cu LLM-urile existente. Să ne aprofundăm în ceea ce face din Arctic un schimbător de joc pentru IA pentru întreprinderi.

Enterprise Intelligence redefinită La baza sa, Arctic se concentrează asupra furnizării de performanțe excepționale în ceea ce privește valorile care contează cu adevărat pentru întreprinderi – codificare, interogare SQL, urmărire complexă a instrucțiunilor și producerea de rezultate bazate pe fapte. Fulgul de zăpadă a combinat aceste capacități critice într-un roman "inteligența întreprinderii” metrică.

Rezultatele vorbesc de la sine. Arctic îndeplinește sau depășește modelele precum LLAMA 7B și LLAMA 70B în ceea ce privește criteriile de referință ale inteligenței întreprinderii, folosind mai puțin de jumătate din bugetul de calcul pentru instruire. Remarcabil, în ciuda utilizării De 17 ori mai puține resurse de calcul decât LLAMA 70B, Arctic atinge paritatea la teste specializate precum codificare (HumanEval+, MBPP+), generarea SQL (Spider) și urmărirea instrucțiunilor (IFEval).

Dar priceperea Arctic depășește doar valorile de referință ale întreprinderilor. Menține o performanță puternică în înțelegerea generală a limbajului, raționamentul și aptitudinile matematice în comparație cu modelele antrenate cu bugete de calcul exponențial mai mari, cum ar fi DBRX. Această capacitate holistică face din Arctic o alegere imbatabilă pentru abordarea diverselor nevoi de IA ale unei întreprinderi.

Inovația

Transformator hibrid Dense-MoE Deci, cum a construit echipa Snowflake un LLM atât de incredibil de capabil, dar eficient? Răspunsul se află în arhitectura de ultimă oră a transformatorului hibrid Dense Mixture-of-Experts (MoE) din Arctic.

Modelele tradiționale de transformatoare dense devin din ce în ce mai costisitoare de antrenat pe măsură ce dimensiunea lor crește, cu cerințele de calcul crescând liniar. Designul MoE ajută la eludarea acestui lucru prin utilizarea mai multor rețele paralele de feed-forward (experți) și activând doar un subset pentru fiecare jeton de intrare.

Cu toate acestea, simpla folosire a unei arhitecturi MoE nu este suficientă – Arctic combină ingenios punctele forte ale componentelor dense și MoE. Împerechează un encoder cu transformator dens de 10 miliarde de parametri cu un strat de perceptron multistrat (MLP) MoE rezidual de 128 expert. Acest model hibrid cu MoE dens însumează 480 de miliarde de parametri, dar doar 17 miliarde sunt activi la un moment dat, folosind top-2 Gateing.

Implicațiile sunt profunde – Arctic atinge o calitate și o capacitate fără precedent a modelului, rămânând în același timp remarcabil de eficientă din punct de vedere al calculului în timpul antrenamentului și al inferenței. De exemplu, Arctic are cu 50% mai puțini parametri activi decât modelele precum DBRX în timpul inferenței.

Dar arhitectura modelului este doar o parte a poveștii. Excelența Arctic este punctul culminant al mai multor tehnici și perspective de pionierat dezvoltate de echipa de cercetare Snowflake:

Curriculum de date de instruire axat pe întreprinderi Prin experimente extinse, echipa a descoperit că abilitățile generice, cum ar fi raționamentul de bun simț, ar trebui învățate devreme, în timp ce specializările mai complexe, cum ar fi codificarea și SQL, sunt cel mai bine dobândite mai târziu în procesul de instruire. Curriculum-ul de date al Arctic urmează o abordare în trei etape care imită progresele învățării umane.

Primii teratoken-uri se concentrează pe construirea unei baze generale largi. Următorii 1.5 teratoken-uri se concentrează pe dezvoltarea abilităților întreprinderii prin date adaptate pentru SQL, sarcini de codare și multe altele. Teratoken-urile finale rafinează și mai mult specializările Arctici folosind seturi de date rafinate.

Opțiuni arhitecturale optime În timp ce MoE-urile promit o calitate mai bună per calcul, alegerea configurațiilor potrivite este crucială, dar puțin înțeleasă. Prin cercetări detaliate, Snowflake a ajuns la o arhitectură care angajează 128 de experți, cu top-2 porți fiecare strat după evaluarea compromisurilor calitate-eficiență.

Creșterea numărului de experți oferă mai multe combinații, sporind capacitatea modelului. Cu toate acestea, acest lucru crește și costurile de comunicare, așa că Snowflake a aterizat pe 128 de experți „condensați” proiectați cu atenție, activați prin gate de top-2 ca echilibru optim.

System Co-Design Dar chiar și o arhitectură optimă a modelului poate fi subminată de blocajele sistemului. Așadar, echipa Snowflake a inovat și aici – co-proiectând arhitectura modelului mână în mână cu sistemele de antrenament și inferență de bază.

Pentru un antrenament eficient, componentele dense și MoE au fost structurate pentru a permite comunicarea și calculul suprapus, ascunzând cheltuieli generale de comunicare substanțiale. În ceea ce privește inferența, echipa a folosit inovațiile NVIDIA pentru a permite o implementare extrem de eficientă, în ciuda dimensiunii Arctic.

Tehnici precum cuantizarea FP8 permit potrivirea întregului model pe un singur nod GPU pentru inferență interactivă. Loturi mai mari angajează capabilitățile de paralelism ale Arctic în mai multe noduri, rămânând în același timp impresionant de eficientă în calcul datorită parametrilor săi activi compacti 17B.

Cu o licență Apache 2.0, greutățile și codul Arctic sunt disponibile fără limitare pentru orice utilizare personală, de cercetare sau comercială. Dar Snowflake a mers mult mai departe, deschizându-și rețetele complete de date, implementările modelelor, sfaturile și cunoștințele de cercetare profunde care alimentează Arctic.

"Cartea de bucate arctic” este o bază de cunoștințe cuprinzătoare care acoperă fiecare aspect al construirii și optimizării unui model MoE la scară largă precum Arctic. Acesta distilează învățăturile cheie despre aprovizionarea datelor, proiectarea arhitecturii modelului, co-proiectarea sistemului, schemele optimizate de instruire/inferență și multe altele.

De la identificarea curriculum-urilor de date optime la arhitectura MoE-urilor în timp ce co-optimizează compilatoarele, programatorii și hardware-ul - acest corp extins de cunoștințe democratizează abilitățile limitate anterior la laboratoarele AI de elită. Arctic Cookbook accelerează curbele de învățare și dă putere companiilor, cercetătorilor și dezvoltatorilor la nivel global să-și creeze propriile LLM-uri, eficiente din punct de vedere al costurilor, personalizate pentru aproape orice caz de utilizare.

Noțiuni introductive cu Arctic

Pentru companiile dornice să folosească Arctic, Snowflake oferă mai multe căi pentru a începe rapid:

Inferență fără server: clienții Snowflake pot accesa gratuit modelul Arctic pe Snowflake Cortex, platforma AI complet gestionată a companiei. În plus, Arctic este disponibil în toate cataloagele de modele majore, cum ar fi AWS, Microsoft Azure, NVIDIA și multe altele.

Începeți de la zero: ponderile și implementările modelului open source permit dezvoltatorilor să integreze direct Arctic în aplicațiile și serviciile lor. Arctic repo oferă exemple de cod, tutoriale de implementare, rețete de reglare fină și multe altele.

Construiți modele personalizate: Datorită ghidurilor exhaustive ale Arctic Cookbook, dezvoltatorii își pot construi propriile modele personalizate MoE de la zero, optimizate pentru orice caz de utilizare specializat, folosind învățăturile din dezvoltarea Arctic.

O nouă eră a Open Enterprise AI Arctic este mai mult decât un alt model de limbaj puternic – anunță o nouă eră a capabilităților AI deschise, eficiente din punct de vedere al costurilor și specializate, create special pentru întreprindere.

De la revoluționarea analizei datelor și a productivității codificării până la automatizarea sarcinilor și aplicații mai inteligente, ADN-ul Arctic, care este în primul rând pentru întreprinderi, îl face o alegere imbatabilă față de LLM-urile generice. Și prin aprovizionarea deschisă nu doar modelul, ci și întregul proces de cercetare și dezvoltare din spatele acestuia, Snowflake promovează o cultură a colaborării care va ridica întregul ecosistem AI.

Pe măsură ce întreprinderile îmbrățișează din ce în ce mai mult AI generativă, Arctic oferă un model îndrăzneț pentru dezvoltarea modelelor obiectiv superioare pentru sarcinile de producție și mediile de întreprindere. Confluența sa de cercetare de ultimă oră, eficiență de neegalat și un etos deschis ferm stabilește un nou punct de referință în democratizarea potențialului transformator al AI.

Iată o secțiune cu exemple de cod despre cum să utilizați modelul Snowflake Arctic:

Practic cu Arctic

Acum că am acoperit ceea ce face ca Arctic să fie cu adevărat revoluționar, haideți să vedem cum dezvoltatorii și oamenii de știință de date pot începe să pună în funcțiune acest model puternic.
Ieșit din cutie, Arctic este disponibil pregătit în prealabil și gata de implementare prin hub-uri de modele majore, cum ar fi Hugging Face și platformele AI partenere. Dar puterea sa reală iese la iveală atunci când îl personalizați și ajustați fin pentru cazurile dvs. de utilizare specifice.

Licența Apache 2.0 de la Arctic oferă libertate deplină de a o integra în aplicațiile, serviciile sau fluxurile de lucru personalizate AI. Să parcurgem câteva exemple de cod folosind biblioteca transformatoare pentru a începe:
Inferență de bază cu Arctica

Pentru cazurile de utilizare pentru generarea rapidă de text, putem încărca Arctic și să rulăm inferențe de bază foarte ușor:

from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

Aceasta ar trebui să scoată ceva de genul:

„Capitala Franței este Paris. Parisul este cel mai mare oraș din Franța și centrul economic, politic și cultural al țării. Acesta găzduiește repere celebre precum Turnul Eiffel, muzeul Luvru și Catedrala Notre-Dame.”

După cum puteți vedea, Arctic înțelege perfect interogarea și oferă un răspuns detaliat, fundamentat, valorificând capabilitățile sale robuste de înțelegere a limbajului.

Reglaj fin pentru sarcini specializate

Deși este impresionant, Arctic strălucește cu adevărat atunci când este personalizat și ajustat pe datele dvs. proprietare pentru sarcini specializate. Snowflake a oferit rețete extinse care acoperă:

Crearea datelor de formare de înaltă calitate, adaptate pentru cazul dvs. de utilizare
Implementarea de programe de formare personalizate în mai multe etape
Folosind abordări eficiente de reglare fină LoRA, P-Tuning sau FactorizedFusion
Optimizări pentru discernământul SQL, codificare sau alte abilități cheie ale întreprinderii

Iată un exemplu despre cum să reglați fin Arctic pe propriile seturi de date de codare folosind rețetele LoRA și Snowflake:

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)

Acest cod ilustrează modul în care puteți încărca fără efort Arctic, inițializa o configurație LoRA adaptată pentru generarea de cod și apoi ajustați modelul pe seturile dvs. de date de codare proprietare, utilizând îndrumările Snowflake.

Personalizat și ajustat, Arctic devine o putere privată reglată pentru a oferi performanțe de neegalat în ceea ce privește fluxurile de lucru principale ale întreprinderii și nevoile părților interesate.

Ciclul rapid de inovare al Arctic

Unul dintre cele mai impresionante aspecte ale Arcticii este ritmul vertiginos în care echipa de cercetare AI a lui Snowflake a conceput, dezvoltat și lansat în lume acest model de ultimă oră. De la început până la lansarea cu sursă deschisă, întregul proiect Arctic a durat mai puțin de trei luni și a folosit doar aproximativ o opteme din bugetul de calcul tipic pentru formarea unor modele lingvistice mari similare.

Această capacitate de a repeta rapid, de a inova și de a produce cercetări de ultimă oră în IA este cu adevărat remarcabilă. Demonstrează capacitățile tehnice profunde ale Snowflake și poziționează compania pentru a depăși în mod continuu granițele în dezvoltarea unor capacități AI noi, optimizate pentru întreprindere.

Familia Arctic și înglobări

Arctic este doar începutul ambițiilor Snowflake în spațiul LLM pentru întreprinderi. Compania a deschis deja familia Snowflake Arctic Embed de modele de încorporare a textului lider în industrie, optimizate pentru performanța de recuperare pe mai multe profiluri de dimensiuni.

După cum este ilustrat mai jos, modelele Arctic Embed realizează o acuratețe de ultimă generație în ceea ce privește standardul de referință MTEB (recuperare text), depășind alte modele de încorporare de top, inclusiv ofertele închise de la marii giganți ai tehnologiei.

[Inserați imaginea care arată rezultatele de referință pentru extragerea MTEB pentru modelele Arctic Embed]

Aceste modele de încorporare completează Arctic LLM și permit întreprinderilor să construiască soluții puternice de generare cu răspunsuri la întrebări și recuperare, dintr-o stivă open source integrată.

Dar foaia de parcurs a lui Snowflake se extinde cu mult dincolo de Arctic și de înglobare. Cercetătorii AI ai companiei lucrează din greu la extinderea familiei Arctic cu noi modele adaptate pentru sarcini multimodale, vorbire, video și mai multe capacități de frontieră – toate construite folosind aceleași principii de specializare, eficiență și deschidere.

Parteneriat pentru un ecosistem AI deschis Snowflake înțelege că realizarea întregului potențial al IA deschisă, la nivel de întreprindere, necesită cultivarea unui ecosistem bogat de parteneriate în cadrul comunității AI. Lansarea Arctic a stimulat deja colaborările cu platforme și furnizori majori:

NVIDIA a colaborat strâns cu Snowflake pentru a optimiza Arctic pentru o implementare eficientă, folosind stiva de inferențe AI de ultimă oră de la NVIDIA, inclusiv TensorRT, Triton și multe altele. Acest lucru permite întreprinderilor să deservească Arctica la scară eficientă din punct de vedere al costurilor.

Hugging Face, principalul hub de modele open source, a primit bun venit Arctic în bibliotecile și depozitele sale de modele. Acest lucru permite integrarea perfectă a Arctic în fluxurile și aplicațiile AI existente bazate pe Hugging Face.

Platforme precum Replicate, SageMaker și altele s-au mutat rapid pentru a oferi demonstrații găzduite, API-uri și căi de integrare fluente pentru Arctic, accelerând adoptarea acesteia.

Open Source a condus dezvoltarea Arcticii, iar ecosistemele deschise rămân esențiale pentru evoluția acesteia. Snowflake se angajează să încurajeze o colaborare bogată cu cercetători, dezvoltatori, parteneri și întreprinderi la nivel global pentru a depăși limitele a ceea ce este posibil cu modele AI deschise și specializate.

Subiecte asemănătoare:Cercetare AI Arctic Intreprinderi LLM Amestec de experți Fulg de nea transformator

Urmeaza

Mini-Gemeni: Exploatarea potențialului modelelor de limbaj de viziune multimodal

Nu ratați

AIOS: Sistem de operare pentru agenți LLM

Aayush Mittal

Mi-am petrecut ultimii cinci ani scufundându-mă în lumea fascinantă a învățării automate și a învățării profunde. Pasiunea și expertiza mea m-au determinat să contribui la peste 50 de proiecte diverse de inginerie software, cu un accent deosebit pe AI/ML. Curiozitatea mea continuă m-a atras și către Procesarea limbajului natural, un domeniu pe care sunt dornic să îl explorez în continuare.