Connect with us

Tekoäly

Lumikide Arctic: Viimeisinten Large Language -malli (LLM) Enterprise AI:lle

mm
Snowflake Arctic: The Cutting-Edge LLM for Enterprise AI

Yritykset etsivät nykyään yhä enemmän keinoja hyödyntää suuria kielenmalleja (LLM) tuottavuuden lisäämiseksi ja älykkäiden sovellusten luomiseksi. Monet saatavilla olevista LLM-vaihtoehdoista ovat kuitenkin geneerisiä malleja, jotka eivät ole suunniteltu erityisesti yritysten erityistarpeisiin, kuten data-analyysiin, koodaukseen ja tehtävien automaatioon. Tässä tulee kuvaan Lumikide Arctic – viimeisinten Large Language -malli (LLM), joka on suunniteltu ja optimoitu nimenomaan yritysten keskeisille käyttötapauksille.

Lumikiden AI-tutkimusryhmän kehittämä Arctic vie rajat siitä, mitä on mahdollista tehokkaan koulutuksen, kustannustehokkuuden ja ennennäkemättömän avoimuuden ansiosta. Tämä vallankumouksellinen malli erottuu avainyritysten mittareilla ja vaatii paljon vähemmän laskentatehoa verrattuna olemassa oleviin LLM-malleihin. Selvitämmekin, mitä tekee Arctista pelinmuuttajaksi yritysten AI:ssa.

Yrityksen älykkyys uudelleen määritelty Ytimessään Arctic on keskittynyt toimittamaan poikkeuksellista suorituskykyä mittareilla, jotka ovat yrityksille todella tärkeitä – koodaus, SQL-kyselyt, monimutkaiset ohjeiden seuraaminen ja perustuvat, faktapohjaiset tulokset. Lumikide on yhdistänyt nämä kriittiset kyvyt uuden “yrityksen älykkyyden” mittariin.

Tulokset puhuvat puolestaan. Arctic vastaa tai ylittää malleja kuten LLAMA 7B ja LLAMA 70B yrityksen älykkyyden mittareilla käyttäen vähemmän kuin puolet laskentabudjetista koulutukseen. Merkittävästi, vaikka se käyttää 17 kertaa vähemmän laskentaresursseja kuin LLAMA 70B, Arctic saavuttaa tasapuolisuuden erikoistuneissa testeissä kuten koodauksessa (HumanEval+, MBPP+), SQL-luomisessa (Spider) ja ohjeiden seuraamisessa (IFEval).

Mutta Arctician kyvyt ulottuvat pidemmälle kuin vain yritysten mittareiden suorittaminen. Se ylläpitää vahvaa suorituskykyä yleisen kielen ymmärtämisessä, päättelyssä ja matemaattisessa taidossa verrattuna malleihin, jotka on koulutettu eksponentiaalisesti suuremmalla laskentabudjetilla, kuten DBRX. Tämä holistinen kyky tekee Arctista voittamattoman valinnan kaikenlaisiin yritysten AI-tarpeisiin.

Innovaatio

Tiheä-MoE-hybriditransformer Miten Lumikiden tiimi rakensi näin älykkään ja tehokkaan LLM-mallin? Vastaus piilee Arctician viimeisimmän Dense Mixture-of-Experts (MoE) Hybrid Transformer -arkkitehtuurissa.

Perinteiset tiheät transformer-mallit tulevat yhä kalliimmaksi kouluttaa, kun niiden koko kasvaa, ja laskentavaatimukset kasvavat lineaarisesti. MoE-suunnittelu auttaa kiertämään tämän käyttämällä useita rinnakkaisia eteenpäin suuntautuneita neuroverkkoja (asiantuntijoita) ja aktivoimalla vain osan kustakin syötekokoelmasta.

Mutta yksinkertaisesti MoE-arkkitehtuurin käyttäminen ei riitä – Arctic yhdistää tiheiden ja MoE-komponenttien vahvuudet älykkäästi. Se yhdistää 10 miljardin parametrin tiheän transformer-encoderin 128 asiantuntijan jäännösmoE-monikerroksisen MLP-kerroksen kanssa. Tämä tiheä-MoE-hybridimalli on yhteensä 480 miljardia parametreja, mutta vain 17 miljardia niistä on aktiivisia kerran käytettynä top-2-portilla.

Vaikutukset ovat syvät – Arctic saavuttaa ennennäkemättömän mallin laadun ja kapasiteetin pysyen samalla huomattavan laskennan tehokkaana koulutuksen ja inference-ajan aikana. Esimerkiksi Arcticilla on 50 % vähemmän aktiivisia parametreja kuin malleilla kuten DBRX inference-ajassa.

Mutta mallin arkkitehtuuri on vain osa tarinaa. Arctician erinomaisuus on useiden uraauurtavien tekniikoiden ja oivallusten kokoelma, jotka Lumikiden tutkimusryhmä on kehittänyt:

  1. Yritysten koulutusdatakurssit Laajojen kokeilujen kautta tiimi havaitsi, että geneeriset taidot kuten arkisen järjen päättely tulisi oppia aikaisin, kun taas monimutkaisemmat erikoistumiset kuten koodaus ja SQL hankitaan myöhemmin koulutusprosessissa. Arctician datakurssi noudattaa kolmevaiheista lähestymistapaa, joka jäljittelee ihmisen oppimisprosessia.

Ensimmäiset teratokset keskittyvät laajan yleisen perustan rakentamiseen. Seuraavat 1,5 teratokset keskittyvät kehittämään yritysten taitoja dataan perustuen SQL:lle, koodaustehtäville ja muille. Viimeiset teratokset hiovat Arctician erikoistumisia hienostuneilla tietokannoilla.

  1. Optimaaliset arkkitehtuurivalinnat Vaikka MoE:lta luvataan parempaa laatua laskennan suhteen, oikeiden konfiguraatioiden valinta on ratkaiseva, mutta huonosti ymmärretty. Yksityiskohtaisen tutkimuksen kautta Lumikide päätyi arkkitehtuuriin, joka käyttää 128 asiantuntijaa ja top-2-porttia jokaisessa kerroksessa arvioimalla laatu- ja kustannustehokkuuden vaihtoehtoja.

Asiantuntijoiden määrän lisääminen tarjoaa enemmän yhdistelmiä, parantaen mallin kapasiteettia. Mutta se myös lisää viestintäkustannuksia, joten Lumikide päätyi 128 tarkkaan suunniteltuun “tiivistettyyn” asiantuntijaan, jotka aktivoituvat top-2-portin kautta, mikä on optimaalinen tasapaino.

  1. Järjestelmän yhteensuunnittelu Mutta jopa optimaalinen mallin arkkitehtuuri voidaan heikentää järjestelmän pullonkauloilla. Niinpä Lumikiden tiimi innovoi myös tässä – suunnitellen mallin arkkitehtuurin käsi kädessä alustavan koulutus- ja inference-järjestelmien kanssa.

Tehokkaan koulutuksen osalta tiheät ja MoE-komponentit rakennettiin sallimaan päällekkäistä viestintää ja laskentaa, piiloten merkittäviä viestintäkustannuksia. Inference-puolella tiimi hyödynsi NVIDIA:n innovaatioita mahdollistaakseen erittäin tehokkaan käytön Arctician mittakaavasta huolimatta.

Tekniikat kuten FP8-kvantifiointi sallivat koko mallin sijoittamisen yhdelle GPU-solmulle interaktiiviseen inferenceen. Suuremmat erät käyttävät Arctician rinnakkaisuuden ominaisuuksia useiden solmujen yli pysyen vaikuttavasti laskennan tehokkaana kiitoksessa sen tiiviille 17 miljardin aktiiviselle parametrille.

Apache 2.0 -lisenssin ansiosta Arctician painot ja koodi ovat käytettävissä esteettä vapaasti henkilökohtaiseen, tutkimus- tai kaupalliseen käyttöön. Mutta Lumikide on mennyt paljon pidemmälle, julkaisemalla koko datareseptinsä, mallin toteutukset, vinkit ja syvät tutkimustulokset, jotka voimassa Arcticia.

Arctician keittokirja” on kattava tietopohja, joka kattaa jokaisen suuren mittakaavan MoE-mallin, kuten Arctician, rakentamisen ja optimoinnin. Se tiivistää avainopit yhteensopivien datakurssien, mallin arkkitehtuurin suunnittelun, järjestelmän yhteensuunnittelun, optimoiden koulutus- ja inference-kaavojen ja paljon muun.

Optimaalisten datakurssien tunnistamisesta MoE:n arkkitehtuuriin ja yhteensuunnitteluun kääntäjille, aikataulujen ja laitteiston kanssa – tämä laaja tietopohja demokratisoi taitoja, jotka aiemmin olivat rajoitettu eliittien AI-laboratorioihin. Arctician keittokirja kiihdyttää oppimiskäyriä ja valtuuttaa yrityksiä, tutkijoita ja kehittäjiä maailmanlaajuisesti luomaan omat kustannustehokkaat, räätälöidyt LLM-mallinsa lähes mihin tahansa käyttöön.

Käynnistäminen Arcticia

Yrityksille, jotka ovat kiinnostuneita hyödyntämään Arcticia, Lumikide tarjoaa useita polkuja nopeaan käynnistämiseen:

Palveluton inference: Lumikiden asiakkaat voivat käyttää Arctician mallia ilmaiseksi Lumikiden Cortexissa, joka on täysin hallittu AI-alusta. Lisäksi Arctic on saatavilla kaikissa suurissa mallikirjastoissa, kuten AWS, Microsoft Azure, NVIDIA ja useissa muissa.

Aloita alusta: Avoin lähdekoodi ja toteutukset sallivat kehittäjien suoraan integroida Arctician sovelluksiinsa ja palveluihinsa. Arctician varasto tarjoaa koodiesimerkkejä, käyttöönotto-ohjeita, hienosäätöreseptejä ja paljon muuta.

Rakenna mukautettuja malleja: Kiitos Arctician keittokirjan perusteellisten ohjeiden, kehittäjät voivat rakentaa omat mukautetut MoE-mallinsa alusta alkaen minkä tahansa erikoistuneen käyttötapausten optimoimiseksi Arctician kehittämisen opetuksista.

Uusi aikakausi avoimelle yritysten AI:lle Arctic on enemmän kuin vain yksi voimakas kielen malli – se merkitsee uuden aikakauden avoimia, kustannustehokkaita ja erikoistuneita AI-kykyjä, jotka on suunniteltu nimenomaan yrityksille.

Data-analytiikan vallankumouksesta koodauksen tuottavuuteen ja tehtävien automaatioon voimakkaampiin sovelluksiin, Arctician yritysten ensisijainen DNA tekee siitä voittamattoman valinnan geneeristen LLM-mallien sijaan. Ja avaamalla ei vain mallin vaan koko R&D-prosessin taustalla, Lumikide edistää yhteistyön kulttuuria, joka kohottaa koko AI-ekosysteemiä.

Kun yritykset omaksuvat yhä enemmän generatiivisen AI:n, Arctic tarjoaa rohkean suunnitelman kehittää malleja, jotka ovat objektiivisesti parempia tuotantokuormituksille ja yritysympäristöille. Sen yhdistelmä viimeisintä tutkimusta, vaikuttavasta tehokkuudesta ja vankasta avoimuudesta asettaa uuden viiteen AI:n muunneltavissa potentiaalissa.

Olen viettänyt viimeiset viisi vuotta uppoutumassa kiinnostavaan koneoppimisen ja syväoppimisen maailmaan. Intohimoni ja asiantuntemukseni ovat johtaneet minun osallistumiseen yli 50:een monipuoliseen ohjelmistosuunnitteluhankkeeseen, joissa on erityisesti painottunut tekoäly/ML. Jatkuva uteliaisuuteni on myös ohjannut minua kohti luonnollisen kielen prosessointia, alaa jota haluan tutkia tarkemmin.