Tekoäly

Snowflake Arctic: huippuluokan LLM Enterprise AI:lle

Julkaistu

2 viikkoa sitten

Huhtikuu 25, 2024

Snowflake Arctic: huippuluokan LLM Enterprise AI:lle

Yritykset tutkivat nykyään yhä enemmän tapoja hyödyntää suuria kielimalleja (LLM) tuottavuuden lisäämiseksi ja älykkäiden sovellusten luomiseksi. Monet käytettävissä olevista LLM-vaihtoehdoista ovat kuitenkin yleisiä malleja, joita ei ole räätälöity yritysten erikoistarpeisiin, kuten data-analyysiin, koodaukseen ja tehtävien automatisointiin. Tulla sisään Arktinen lumihiutale – huippuluokan LLM, joka on tarkoituksenmukaisesti suunniteltu ja optimoitu yrityksen ydinkäyttötapauksiin.

Snowflaken tekoälytutkimustiimin kehittämä Arctic työntää rajoja, mikä on mahdollista tehokkaalla koulutuksella, kustannustehokkuudella ja ennennäkemättömällä avoimuudella. Tämä vallankumouksellinen malli loistaa keskeisissä yritysvertailuissa ja vaatii paljon vähemmän laskentatehoa verrattuna olemassa oleviin LLM:ihin. Sukellaanpa siihen, mikä tekee Arcticista yrityksen tekoälyn muuttajan.

Enterprise Intelligence Redefined Redefined Arctic keskittyy ytimenään tarjoamaan poikkeuksellista suorituskykyä mittareilla, joilla on yrityksille todella merkitystä – koodaus, SQL-kysely, monimutkaisten ohjeiden seuraaminen ja maadoitettujen faktoihin perustuvien tulosteiden tuottaminen. Snowflake on yhdistänyt nämä tärkeät ominaisuudet romaaniksi "yritysälykkyyttä" metrinen.

Tulokset puhuvat puolestaan. Arctic kohtaa tai ylittää mallit, kuten LLAMA 7B ja LLAMA 70B, yritystiedon vertailuarvoissa ja käyttää koulutukseen alle puolet laskentabudjetista. Huomattavaa, käytöstä huolimatta 17 kertaa vähemmän laskentaresursseja kuin LLAMA 70B, Arctic saavuttaa pariteetin erikoistesteissä, kuten koodauksessa (HumanEval+, MBPP+), SQL:n luomisessa (Spider) ja ohjeiden seuraamisessa (IFEval).

Mutta arktisen kyvykkyys ylittää vain menestyvien yritysten vertailuarvot. Se ylläpitää vahvaa suorituskykyä yleisessä kielen ymmärtämisessä, päättelyssä ja matemaattisissa kyvyissä verrattuna malleihin, jotka on koulutettu eksponentiaalisesti korkeammilla laskentabudjeteilla, kuten DBRX. Tämä kokonaisvaltainen ominaisuus tekee Arcticista lyömättömän vaihtoehdon yrityksen erilaisiin tekoälytarpeisiin vastaamiseen.

Innovaatio

Dense-MoE Hybrid Transformer Miten Snowflake-tiimi rakensi niin uskomattoman kykenevän mutta tehokkaan LLM:n? Vastaus löytyy Arcticin huippuluokan Dense Mixture-of-Experts (MoE) -hybridimuuntaja-arkkitehtuurista.

Perinteisten tiheiden muuntajamallien kouluttaminen tulee entistä kalliimmaksi koon kasvaessa, ja laskentavaatimukset kasvavat lineaarisesti. MoE-suunnittelu auttaa kiertämään tämän käyttämällä useita rinnakkaisia myötäkytkentäverkkoja (asiantuntijoita) ja aktivoimalla vain osajoukon jokaiselle tulotunnisteelle.

Pelkkä MoE-arkkitehtuurin käyttö ei kuitenkaan riitä – Arctic yhdistää sekä tiheiden että MoE-komponenttien vahvuudet nerokkaasti. Se yhdistää 10 miljardin parametrin tiheän muuntajakooderin 128 asiantuntijan jäännösmoe-monikerroksisen perceptronin (MLP) kerroksen kanssa. Tässä tiheässä MoE-hybridimallissa on yhteensä 480 miljardia parametria, mutta vain 17 miljardia on aktiivisia kulloinkin top2-portin avulla.

Vaikutukset ovat syvällisiä – Arctic saavuttaa ennennäkemättömän mallin laadun ja kapasiteetin samalla kun se pysyy erittäin laskentatehokkaana harjoittelun ja päätelmien aikana. Esimerkiksi Arcticilla on 50 % vähemmän aktiivisia parametreja kuin DBRX:n kaltaisissa malleissa päättelyn aikana.

Mutta malliarkkitehtuuri on vain yksi osa tarinaa. Arktisen huippuosaamisen huipentuma on useiden Snowflake-tutkimusryhmän kehittämien pioneeritekniikoiden ja oivallusten huipentuma:

Yrityskeskeinen koulutusdata-opetussuunnitelma Laajojen kokeilujen avulla tiimi havaitsi, että yleiset taidot, kuten tervejärkinen päättely, tulisi oppia varhaisessa vaiheessa, kun taas monimutkaisemmat erikoisalat, kuten koodaus ja SQL, on parasta hankkia myöhemmin koulutusprosessissa. Arcticin data-opetussuunnitelma noudattaa kolmivaiheista lähestymistapaa, joka matkii ihmisen oppimisen edistymistä.

Ensimmäiset teratokenit keskittyvät rakentamaan laajaa yleistä pohjaa. Seuraavat 1.5 teratokenia keskittyvät yritystaitojen kehittämiseen SQL:lle räätälöidyn tiedon, koodaustehtävien ja muiden avulla. Lopulliset teratokenit jalostavat edelleen Arcticin erikoistumista jalostettujen tietokokonaisuuksien avulla.

Optimaaliset arkkitehtoniset valinnat Vaikka MOE lupaa parempaa laatua laskentaa kohden, oikeiden kokoonpanojen valitseminen on ratkaisevan tärkeää, mutta sitä ei ymmärretä. Yksityiskohtaisten tutkimusten ansiosta Snowflake päätyi arkkitehtuuriin, jossa työskentelee 128 asiantuntijaa, jotka 2 parhaan joukossa porttivat jokaisen kerroksen arvioituaan laadun ja tehokkuuden kompromisseja.

Asiantuntijamäärän lisääminen tuo lisää yhdistelmiä, mikä lisää mallikapasiteettia. Tämä kuitenkin nostaa myös viestintäkustannuksia, joten Snowflake osui optimaalisena tasapainona 128 huolellisesti suunnitellulle "tiivistetylle" asiantuntijalle, jotka aktivoitiin top-2-portin kautta.

Järjestelmän yhteissuunnittelu Mutta jopa optimaalinen malliarkkitehtuuri voivat heikentää järjestelmän pullonkaulat. Joten Snowflake-tiimi innovoi myös täällä – suunnittelussa malliarkkitehtuurin käsi kädessä taustalla olevien koulutus- ja päättelyjärjestelmien kanssa.

Tehokkaan koulutuksen takaamiseksi tiheät ja MoE-komponentit rakennettiin mahdollistamaan päällekkäinen viestintä ja laskenta, mikä piilotti merkittävät viestintäkustannukset. Päätelmäpuolella tiimi hyödynsi NVIDIAn innovaatioita mahdollistaakseen erittäin tehokkaan käyttöönoton arktisen alueen laajuudesta huolimatta.

Tekniikat, kuten FP8-kvantisointi, mahdollistavat koko mallin sovittamisen yhteen GPU-solmuun interaktiivista päättelyä varten. Suuremmat erät hyödyntävät Arcticin rinnakkaisominaisuuksia useiden solmujen välillä samalla kun ne ovat vaikuttavan laskentatehokkaita kompaktien 17B aktiivisten parametrien ansiosta.

Apache 2.0 -lisenssillä Arcticin painot ja koodit ovat saatavilla ilman porttia henkilökohtaiseen, tutkimus- tai kaupalliseen käyttöön. Lumihiutale on kuitenkin mennyt paljon pidemmälle ja hankkinut avoimen lähdekoodin täydelliset datareseptit, mallitoteutukset, vinkit ja arktisen alueen syvälliset tutkimustietonsa.

"Arktinen keittokirja” on kattava tietokanta, joka kattaa kaikki osa-alueet Arcticin kaltaisen laajamittaisen MEM-mallin rakentamisessa ja optimoinnissa. Se tislaa tärkeimmät oppimiset tietojen hankinnasta, malliarkkitehtuurin suunnittelusta, järjestelmän yhteissuunnittelusta, optimoiduista koulutus-/päätelmäsuunnitelmista ja monesta muusta.

Optimaalisten data-opetussuunnitelmien määrittämisestä MOE-arkkitehtuuriin ja kääntäjien, ajoittajien ja laitteistojen yhteisoptimointiin – tämä laaja tietokokoelma demokratisoi taidot, jotka aiemmin rajoittuivat eliittisiin tekoälylaboratorioihin. Arctic Cookbook nopeuttaa oppimiskäyriä ja antaa yrityksille, tutkijoille ja kehittäjille maailmanlaajuisesti mahdollisuuden luoda omia kustannustehokkaita, räätälöityjä LLM:itä lähes kaikkiin käyttötarkoituksiin.

Arktisen käytön aloittaminen

Yrityksille, jotka haluavat hyödyntää arktista aluetta, Snowflake tarjoaa useita tapoja päästä alkuun nopeasti:

Palvelimeton päätelmä: Snowflake-asiakkaat voivat käyttää Arctic-mallia ilmaiseksi Snowflake Cortexissa, yrityksen täysin hallitulla tekoälyalustalla. Tämän lisäksi Arctic on saatavilla kaikissa tärkeimmissä malliluetteloissa, kuten AWS, Microsoft Azure, NVIDIA ja monet muut.

Aloita tyhjästä: Avoimen lähdekoodin mallien painotukset ja toteutukset antavat kehittäjille mahdollisuuden integroida Arctic suoraan sovelluksiinsa ja palveluihinsa. Arctic repo tarjoaa koodinäytteitä, käyttöönotto-opetusohjelmia, hienosäätöreseptejä ja paljon muuta.

Rakenna mukautettuja malleja: Arctic Cookbookin tyhjentävien oppaiden ansiosta kehittäjät voivat rakentaa alusta alkaen omia mukautettuja MoE-mallejaan, jotka on optimoitu mihin tahansa erikoiskäyttötapaukseen hyödyntäen Arcticin kehityksestä saatuja oppeja.

Avoimen yrityksen tekoälyn uusi aikakausi Arctic on enemmän kuin vain yksi tehokas kielimalli – se lupaa avointen, kustannustehokkaiden ja erikoistuneiden, yritykselle tarkoitettujen tekoälyominaisuuksien uuden aikakauden.

Tietojen analytiikan ja koodauksen tuottavuuden mullistavasta tehostamiseen tehtävien automatisointiin ja älykkäämpiin sovelluksiin – Arcticin yrityslähtöinen DNA tekee siitä lyömättömän valinnan yleisiin LLM:ihin verrattuna. Ja avoimella hankinnalla paitsi mallin, myös koko sen takana olevan T&K-prosessin, Snowflake edistää yhteistyökulttuuria, joka kohottaa koko tekoälyekosysteemiä.

Kun yritykset omaksuvat yhä enemmän generatiivista tekoälyä, Arctic tarjoaa rohkean suunnitelman mallien kehittämiseen, jotka ovat objektiivisesti parempia tuotantotyökuormiin ja yritysympäristöihin. Sen huippuluokan tutkimuksen, vertaansa vailla olevan tehokkuuden ja vankkumattoman avoimen eetoksen yhdistelmä asettaa uuden mittakaavan tekoälyn muutospotentiaalin demokratisoinnissa.

Tässä on osio, jossa on koodiesimerkkejä Snowflake Arctic -mallin käytöstä:

Käytännössä arktisen kanssa

Nyt kun olemme käsitelleet, mikä tekee arktisesta todella uraauurtavan, sukeltakaamme siihen, kuinka kehittäjät ja datatieteilijät voivat aloittaa tämän voimanlähteen käyttöönoton.
Pakkauksesta lähtien Arctic on saatavilla valmiiksi koulutettuna ja käyttövalmiina suurten mallikeskusten, kuten Hugging Facen ja kumppaneiden tekoälyalustojen, kautta. Mutta sen todellinen teho ilmenee, kun räätälöidä ja hienosäädä sitä tiettyihin käyttötapauksiin.

Arcticin Apache 2.0 -lisenssi tarjoaa täyden vapauden integroida se sovelluksiisi, palveluihin tai mukautettuihin tekoälytyönkulkuihisi. Käydään läpi joitakin koodiesimerkkejä muuntajakirjaston avulla, jotta pääset alkuun:
Peruspäätelmä arktisesta alueesta

Nopeaa tekstin luomista varten voimme ladata Arcticin ja suorittaa peruspäätelmän erittäin helposti:

from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

Tämän pitäisi tuottaa jotain tällaista:

"Ranskan pääkaupunki on Pariisi. Pariisi on Ranskan suurin kaupunki ja maan taloudellinen, poliittinen ja kulttuurinen keskus. Siellä on kuuluisia maamerkkejä, kuten Eiffel-torni, Louvre-museo ja Notre-Damen katedraali.

Kuten näet, Arctic ymmärtää saumattomasti kyselyn ja tarjoaa yksityiskohtaisen, maadoitetun vastauksen hyödyntäen sen vankkaa kielen ymmärtämistä.

Hienosäätö erikoistehtäviä varten

Vaikka Arctic on vaikuttava heti käyttövalmis, se loistaa todella, kun se on räätälöity ja hienosäädetty omien tietojesi perusteella erikoistehtäviä varten. Snowflake on tarjonnut laajoja reseptejä, jotka kattavat:

Kursoi korkealaatuisia harjoitustietoja, jotka on räätälöity käyttötarpeisiisi
Räätälöityjen monivaiheisten koulutusohjelmien toteuttaminen
Hyödynnä tehokkaita LoRA-, P-Tuning- tai FactorizedFusion-hienosäätömenetelmiä
Optimoinnit vaativiin SQL-, koodaus- tai muihin yrityksen keskeisiin taitoihin

Tässä on esimerkki kuinka hienosäätää Arctic omissa koodaustietojoukoissasi LoRA:n ja Snowflaken reseptien avulla:

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)

Tämä koodi havainnollistaa, kuinka voit vaivattomasti ladata Arcticin, alustaa koodin luomista varten räätälöidyn LoRA-kokoonpanon ja hienosäätää mallia omalla koodaustietojoukollasi hyödyntäen Snowflaken ohjausta.

Räätälöidystä ja hienosäädystä Arcticista tulee yksityinen voimanpesä, joka on viritetty tarjoamaan vertaansa vailla olevaa suorituskykyä yrityksesi ydintyönkuluissa ja sidosryhmien tarpeissa.

Arktisen nopea innovaatiosykli

Yksi arktisen alueen vaikuttavimmista puolista on se vauhti, jolla Snowflaken tekoälytutkimusryhmä suunnitteli, kehitti ja julkaisi tämän huippuluokan mallin maailmalle. Koko Arctic-projekti kesti alusta alkaen avoimen lähdekoodin julkaisuun alle kolme kuukautta ja hyödynsi vain noin kahdeksasosan vastaavien suurten kielimallien koulutukseen tyypillisestä laskentabudjetista.

Tämä kyky toistaa, innovoida ja tuotteistaa uusinta tekoälytutkimusta nopeasti on todella merkittävä. Se osoittaa Snowflaken syvät tekniset kyvyt ja asettaa yrityksen jatkamaan uusien, yritysoptimoitujen tekoälyominaisuuksien kehittämisen rajoja.

Arktinen perhe ja upotukset

Arctic on vasta alkua Snowflaken tavoitteille yritystoiminnan LLM-tilassa. Yritys on jo hankkinut avoimen lähdekoodin Snowflake Arctic Embed -perheen alan johtavia tekstin upotusmalleja, jotka on optimoitu hakusuorituskykyyn useissa eri kokoisissa profiileissa.

Kuten alla on kuvattu, Arctic Embed -mallit saavuttavat huippuluokan hakutarkkuuden arvostetussa MTEB (tekstinhaku) -vertailussa, ylittäen muut johtavat upotusmallit, mukaan lukien suurten teknologiajättien suljetut tarjoukset.

[Lisää kuva, jossa näkyy Arctic Embed -mallien MTEB-haun vertailutulokset]

Nämä sulautusmallit täydentävät Arctic LLM:ää ja antavat yrityksille mahdollisuuden rakentaa tehokkaita kysymysvastauksia ja hakuja täydentäviä sukupolviratkaisuja integroidusta avoimen lähdekoodin pinosta.

Mutta Snowflaken tiekartta ulottuu paljon muutakin kuin vain arktiset alueet ja upotukset. Yrityksen tekoälytutkijat työskentelevät ahkerasti laajentaakseen arktista perhettä uusilla malleilla, jotka on räätälöity multimodaalisiin tehtäviin, puhe-, video- ja enemmän raja-ominaisuuksiin – kaikki on rakennettu samoilla erikoistumisen, tehokkuuden ja avoimuuden periaatteilla.

Kumppanuus avoimen tekoälyekosysteemin hyväksi Snowflake ymmärtää, että avoimen, yritystason tekoälyn täyden potentiaalin hyödyntäminen edellyttää rikkaan kumppanuusekosysteemin kasvattamista koko tekoälyyhteisössä. Arctic-julkaisu on jo käynnistänyt yhteistyön suurten alustojen ja palveluntarjoajien kanssa:

NVIDIA on tehnyt läheistä yhteistyötä Snowflaken kanssa optimoidakseen Arcticin tehokkaaseen käyttöönottoon käyttämällä NVIDIAn huippuluokan AI-päätelmäpinoa, mukaan lukien TensorRT, Triton ja paljon muuta. Näin yritykset voivat palvella arktista aluetta mittakaavassa kustannustehokkaasti.

Hugging Face, johtava avoimen lähdekoodin mallikeskus, on toivottanut Arcticin tervetulleeksi kirjastoihinsa ja mallivarastoihinsa. Tämä mahdollistaa Arcticin saumattoman integroinnin olemassa oleviin Hugging Face -pohjaisiin tekoälytyönkulkuihin ja -sovelluksiin.

Alustat, kuten Replicate, SageMaker ja muut, ovat siirtyneet nopeasti tarjoamaan isännöityjä demoja, API:ita ja sujuvia integraatioreittejä Arcticille, mikä nopeuttaa sen käyttöönottoa.

Avoin lähdekoodi ohjasi arktisen alueen kehitystä, ja avoimet ekosysteemit ovat edelleen keskeisessä asemassa sen kehityksessä. Snowflake on sitoutunut edistämään monipuolista yhteistyötä tutkijoiden, kehittäjien, kumppaneiden ja yritysten kanssa maailmanlaajuisesti ylittääkseen rajoja, mikä on mahdollista avoimien, erikoistuneiden tekoälymallien avulla.

Seuraavaksi

Mini-Gemini: Multimodaalisten visiokielimallien potentiaalin louhinta

Älä missaa

AIOS: Käyttöjärjestelmä LLM-agenteille

Aayush Mittal

Olen viettänyt viimeiset viisi vuotta uppoutuen koneoppimisen ja syväoppimisen kiehtovaan maailmaan. Intohimoni ja asiantuntemukseni ovat saaneet minut osallistumaan yli 50:een erilaiseen ohjelmistosuunnitteluprojektiin keskittyen erityisesti tekoälyyn/ML:ään. Jatkuva uteliaisuuteni on myös vetänyt minut kohti luonnollisen kielen käsittelyä, alaa, jota olen innokas tutkimaan lisää.