Intel·ligència Artificial

Snowflake Arctic: el LLM d'avantguarda per a l'IA empresarial

publicat

Fa setmanes 2

Abril 25, 2024

Snowflake Arctic: el LLM d'avantguarda per a l'IA empresarial

Les empreses d'avui estan explorant cada cop més maneres d'aprofitar grans models de llenguatge (LLM) per augmentar la productivitat i crear aplicacions intel·ligents. Tanmateix, moltes de les opcions de LLM disponibles són models genèrics no adaptats a necessitats especialitzades de l'empresa, com ara l'anàlisi de dades, la codificació i l'automatització de tasques. Entra Floquet de neu àrtic – un LLM d'última generació dissenyat i optimitzat a propòsit per als casos d'ús empresarial bàsics.

Desenvolupat per l'equip d'investigació d'IA de Snowflake, Arctic supera els límits del que és possible amb una formació eficient, rendibilitat i un nivell d'obertura sense igual. Aquest model revolucionari sobresurt en els punts de referència clau de l'empresa alhora que requereix molta menys potència de càlcul en comparació amb els LLM existents. Aprofundim en què fa que l'Àrtic sigui un canvi de joc per a l'IA empresarial.

Intel·ligència empresarial redefinida En el seu nucli, l'Arctic està centrat en el làser a oferir un rendiment excepcional en mètriques que realment importen per a les empreses: codificació, consultes SQL, seguiment d'instruccions complexes i producció de resultats basats en fets. Floquet de neu ha combinat aquestes capacitats crítiques en una novel·la "intel·ligència empresarial” mètrica.

Els resultats parlen per si mateixos. L'Àrtic compleix o supera models com LLAMA 7B i LLAMA 70B en els punts de referència d'intel·ligència empresarial mentre utilitza menys de la meitat del pressupost informàtic per a la formació. Notablement, tot i utilitzar 17 vegades menys recursos informàtics que LLAMA 70B, Arctic aconsegueix la paritat en proves especialitzades com la codificació (HumanEval+, MBPP+), la generació SQL (Spider) i el seguiment d'instruccions (IFEval).

Però la destresa de l'Àrtic va més enllà dels punts de referència empresarials. Manté un bon rendiment en la comprensió general del llenguatge, el raonament i l'aptitud matemàtica en comparació amb els models entrenats amb pressupostos de càlcul exponencialment més alts com DBRX. Aquesta capacitat holística fa d'Arctic una opció immillorable per fer front a les diverses necessitats d'IA d'una empresa.

La Innovació

Transformador híbrid Dense-MoE Llavors, com va crear l'equip de Snowflake un LLM tan increïblement capaç però eficient? La resposta es troba en l'arquitectura d'avantguarda del transformador híbrid Dense Mixture-of-Experts (MoE) de l'Àrtic.

Els models tradicionals de transformadors densos són cada cop més costosos d'entrenar a mesura que la seva mida creix, amb els requisits computacionals augmentant de manera lineal. El disseny de MoE ajuda a evitar-ho mitjançant la utilització de múltiples xarxes de feed-forward paral·leles (experts) i només activant un subconjunt per a cada testimoni d'entrada.

No obstant això, simplement utilitzar una arquitectura MoE no és suficient: l'Àrtic combina els punts forts dels components densos i MoE de manera enginyosa. Combina un codificador de transformador dens de 10 milions de paràmetres amb una capa de perceptron multicapa (MLP) de 128 MoE residual expert. Aquest model híbrid de MoE dens suma 480 milions de paràmetres, però només 17 milions estan actius en un moment donat utilitzant el primer gating.

Les implicacions són profundes: l'Àrtic aconsegueix una qualitat i una capacitat de model sense precedents tot i que es manté notablement eficient en la computació durant l'entrenament i la inferència. Per exemple, l'Àrtic té un 50% menys de paràmetres actius que models com DBRX durant la inferència.

Però l'arquitectura del model és només una part de la història. L'excel·lència de l'Àrtic és la culminació de diverses tècniques i coneixements pioneres desenvolupats per l'equip d'investigació Snowflake:

Currículum de dades de formació centrat en l'empresa Mitjançant una àmplia experimentació, l'equip va descobrir que les habilitats genèriques com el raonament de sentit comú s'han d'aprendre aviat, mentre que les especialitzacions més complexes com la codificació i l'SQL s'adquireixen millor més tard en el procés de formació. El currículum de dades de l'Àrtic segueix un enfocament de tres etapes que imita les progressions de l'aprenentatge humà.

Els primers teratokens se centren a construir una base general àmplia. Els propers 1.5 teratokens es concentren a desenvolupar habilitats empresarials mitjançant dades adaptades per a SQL, tasques de codificació i molt més. Els teratokens finals perfeccionen encara més les especialitzacions de l'Àrtic mitjançant conjunts de dades refinats.

Opcions arquitectòniques òptimes Tot i que els MoE prometen una millor qualitat per càlcul, escollir les configuracions adequades és crucial però no s'entén poc. A través d'una investigació detallada, Snowflake va aterrar en una arquitectura que emprava 128 experts amb els dos primers controls de cada capa després d'avaluar les compensacions qualitat-eficiència.

Augmentar el nombre d'experts proporciona més combinacions, millorant la capacitat del model. No obstant això, això també augmenta els costos de comunicació, de manera que Snowflake va aterrar a 128 experts "condensats" dissenyats amb cura i activats a través de la porta superior 2 com a equilibri òptim.

Co-disseny del sistema Però fins i tot una arquitectura de model òptima es pot veure minada pels colls d'ampolla del sistema. Així que l'equip de Snowflake també va innovar aquí: co-dissenyant l'arquitectura del model de la mà amb els sistemes d'entrenament i inferència subjacents.

Per a una formació eficient, els components densos i MoE es van estructurar per permetre una comunicació i un càlcul superposats, amagant despeses generals de comunicació substancials. Pel que fa a la inferència, l'equip va aprofitar les innovacions de NVIDIA per permetre un desplegament altament eficient malgrat l'escala de l'Àrtic.

Tècniques com la quantificació FP8 permeten ajustar el model complet en un sol node de GPU per a la inferència interactiva. Lots més grans incorporen les capacitats de paral·lelisme de l'Àrtic a través de diversos nodes alhora que mantenen una eficàcia informàtica impressionant gràcies als seus paràmetres actius compactes de 17B.

Amb una llicència Apache 2.0, els pesos i el codi d'Arctic estan disponibles sense limitació per a qualsevol ús personal, d'investigació o comercial. Però Snowflake ha anat molt més enllà, fent servir les seves receptes completes de dades, implementacions de models, consells i els coneixements de recerca profunds que alimenten l'Àrtic.

La "Llibre de cuina de l'Àrtic” és una base de coneixement integral que cobreix tots els aspectes de la construcció i optimització d'un model de MoE a gran escala com l'Àrtic. Destil·la els aprenentatges clau a través de l'obtenció de dades, el disseny de l'arquitectura de models, el co-disseny del sistema, els esquemes de formació/inferència optimitzats i molt més.

Des de la identificació de currículums de dades òptims fins a l'arquitectura de MoEs alhora que s'optimitzen conjuntament compiladors, programadors i maquinari, aquest ampli conjunt de coneixements democratitza les habilitats que abans es limitaven als laboratoris d'IA d'elit. L'Arctic Cookbook accelera les corbes d'aprenentatge i permet a empreses, investigadors i desenvolupadors de tot el món crear els seus propis LLM rendibles i personalitzats per a pràcticament qualsevol cas d'ús.

Iniciació a l'Àrtic

Per a les empreses que volen aprofitar l'Àrtic, Snowflake ofereix diversos camins per començar ràpidament:

Inferència sense servidor: els clients de Snowflake poden accedir gratuïtament al model Arctic a Snowflake Cortex, la plataforma d'IA totalment gestionada de l'empresa. Més enllà d'això, Arctic està disponible a tots els catàlegs de models principals com AWS, Microsoft Azure, NVIDIA i més.

Comenceu des de zero: els pesos i les implementacions dels models de codi obert permeten als desenvolupadors integrar directament l'Arctic a les seves aplicacions i serveis. L'Arctic repo ofereix mostres de codi, tutorials de desplegament, receptes d'ajustament i molt més.

Construeix models personalitzats: gràcies a les guies exhaustives de l'Arctic Cookbook, els desenvolupadors poden crear els seus propis models de MoE personalitzats des de zero optimitzats per a qualsevol cas d'ús especialitzat utilitzant els aprenentatges del desenvolupament de l'Àrtic.

A New Era of Open Enterprise AI Arctic és més que un altre model d'idioma potent: anuncia una nova era de capacitats d'IA obertes, rendibles i especialitzades creades específicament per a l'empresa.

Des de revolucionar l'anàlisi de dades i la productivitat de la codificació fins a l'automatització de tasques i aplicacions més intel·ligents, l'ADN empresarial d'Arctic el converteix en una opció immillorable respecte als LLM genèrics. I mitjançant l'aprovisionament obert no només el model, sinó tot el procés d'R+D que hi ha darrere, Snowflake fomenta una cultura de col·laboració que elevarà tot l'ecosistema d'IA.

A mesura que les empreses adopten cada cop més la IA generativa, Arctic ofereix un model atrevit per desenvolupar models objectivament superiors per a càrregues de treball de producció i entorns empresarials. La seva confluència d'investigació d'avantguarda, eficiència inigualable i un ethos obert ferm estableix un nou referent per democratitzar el potencial transformador de l'IA.

Aquí hi ha una secció amb exemples de codi sobre com utilitzar el model de floc de neu àrtic:

Pràctica amb l'Àrtic

Ara que hem cobert què fa que l'Àrtic sigui realment innovador, analitzem com els desenvolupadors i els científics de dades poden començar a posar en funcionament aquest model de potència.
Fora de la caixa, Arctic està disponible prèviament entrenat i llest per desplegar-se a través de centres de models principals com Hugging Face i plataformes d'IA associades. Però el seu poder real sorgeix quan el personalitzeu i l'ajusteu per als vostres casos d'ús específics.

La llicència Apache 2.0 d'Arctic ofereix total llibertat per integrar-la a les vostres aplicacions, serveis o fluxos de treball d'IA personalitzats. Passem per alguns exemples de codi utilitzant la biblioteca de transformadors per començar:
Inferència bàsica amb l'Àrtic

Per a casos d'ús de generació ràpida de text, podem carregar l'Àrtic i executar una inferència bàsica molt fàcilment:

from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

Això hauria de sortir alguna cosa com:

“La capital de França és París. París és la ciutat més gran de França i el centre econòmic, polític i cultural del país. És la llar de llocs d'interès famosos com la Torre Eiffel, el museu del Louvre i la catedral de Notre-Dame".

Com podeu veure, Arctic entén perfectament la consulta i proporciona una resposta detallada i fonamentada aprofitant les seves robustes capacitats de comprensió lingüística.

Ajustament per a tasques especialitzades

Tot i que és impressionant fora de la caixa, l'Àrtic brilla realment quan es personalitza i s'ajusta amb precisió a les vostres dades de propietat per a tasques especialitzades. Floquet de neu ha proporcionat receptes àmplies que cobreixen:

Curant dades de formació d'alta qualitat adaptades al vostre cas d'ús
Implementació de currículums de formació personalitzats en diverses etapes
Aprofitant els enfocaments d'afinació eficients de LoRA, P-Tuning o FactorizedFusion
Optimitzacions per discernir SQL, codificació o altres habilitats empresarials clau

Aquí teniu un exemple de com ajustar Arctic als vostres propis conjunts de dades de codificació mitjançant les receptes de LoRA i Snowflake:

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)

Aquest codi il·lustra com podeu carregar Arctic sense esforç, inicialitzar una configuració de LoRA adaptada per a la generació de codi i, a continuació, ajustar el model als vostres conjunts de dades de codificació propietaris aprofitant la guia de Snowflake.

Personalitzat i ajustat, Arctic es converteix en una potència privada ajustada per oferir un rendiment inigualable en els fluxos de treball bàsics de l'empresa i les necessitats de les parts interessades.

Cicle ràpid d'innovació de l'Àrtic

Un dels aspectes més impressionants de l'Àrtic és el ritme accelerat al qual l'equip d'investigació d'IA de Snowflake va concebre, desenvolupar i llançar aquest model d'avantguarda al món. Des de l'inici fins al llançament de codi obert, tot el projecte de l'Àrtic va trigar menys de tres mesos i només va aprofitar aproximadament una vuitena part del pressupost informàtic típic per a la formació de models lingüístics grans similars.

Aquesta capacitat d'iterar, innovar i produir ràpidament investigacions d'IA d'última generació és realment notable. Demostra les capacitats tècniques profundes de Snowflake i posiciona l'empresa per superar contínuament els límits del desenvolupament de noves capacitats d'IA optimitzades per a l'empresa.

La família de l'Àrtic i les incrustacions

L'Àrtic és només l'inici de les ambicions de Snowflake a l'espai empresarial LLM. L'empresa ja ha de codi obert la família Snowflake Arctic Embed de models d'inserció de text líders en la indústria optimitzats per al rendiment de recuperació en diferents perfils de mida.

Com s'il·lustra a continuació, els models Arctic Embed aconsegueixen una precisió de recuperació d'última generació en el respectat punt de referència MTEB (recuperació de text), superant altres models d'incrustació líders, incloses les ofertes tancades dels principals gegants tecnològics.

[Insereix una imatge que mostra els resultats de referència de recuperació de MTEB per als models Arctic Embed]

Aquests models d'incrustació complementen l'Arctic LLM i permeten a les empreses crear solucions de generació potents de resposta a preguntes i recuperació a partir d'una pila integrada de codi obert.

Però el full de ruta de Snowflake s'estén molt més enllà de l'Àrtic i les incrustacions. Els investigadors d'IA de la companyia estan treballant dur per expandir la família de l'Àrtic amb nous models adaptats per a tasques multimodals, veu, vídeo i més capacitats de frontera, tot construït utilitzant els mateixos principis d'especialització, eficiència i obertura.

Associar-se per a un ecosistema d'IA obert Snowflake entén que per adonar-se de tot el potencial de la IA oberta i de grau empresarial requereix conrear un ecosistema ric d'associacions a tota la comunitat d'IA. El llançament de l'Àrtic ja ha impulsat les col·laboracions amb les principals plataformes i proveïdors:

NVIDIA s'ha associat estretament amb Snowflake per optimitzar Arctic per a un desplegament eficient mitjançant la pila d'inferència d'IA d'avantguarda de NVIDIA, que inclou TensorRT, Triton i més. Això permet a les empreses servir l'Àrtic a escala de manera rendible.

Hugging Face, el principal centre de models de codi obert, ha donat la benvinguda a Arctic a les seves biblioteques i repositoris de models. Això permet una integració perfecta d'Arctic als fluxos de treball i aplicacions d'IA basats en Hugging Face existents.

Plataformes com Replicate, SageMaker i més s'han mogut ràpidament per oferir demostracions allotjades, API i vies d'integració fluides per a Arctic, accelerant la seva adopció.

El codi obert va dirigir el desenvolupament de l'Àrtic i els ecosistemes oberts segueixen sent fonamentals per a la seva evolució. Snowflake es compromet a fomentar una col·laboració rica amb investigadors, desenvolupadors, socis i empreses a nivell mundial per superar els límits del que és possible amb models d'IA oberts i especialitzats.

Temes relacionats:Investigació en IA L'Àrtic Empreses LLM Mescla d'experts Floc de neu transformador

Fins a la propera

Mini-Gemini: Explorant el potencial dels models de llenguatge de visió multimodalitat

No et perdis

AIOS: Sistema operatiu per a agents LLM

Aayush Mittal

He passat els últims cinc anys submergint-me en el fascinant món de l'aprenentatge automàtic i l'aprenentatge profund. La meva passió i experiència m'han portat a contribuir a més de 50 projectes diversos d'enginyeria de programari, amb un enfocament particular en IA/ML. La meva curiositat contínua també m'ha atret cap al processament del llenguatge natural, un camp que tinc ganes d'explorar més.