Liity verkostomme!

Tekoäly

Paljastetaan Meta Llama 3: Harppaus eteenpäin suurissa kielimalleissa

mm
Päivitetty on

Generatiivisen tekoälyn alalla Meta jatkaa edelleen johtavana sitoutumisellaan avoimen lähdekoodin saatavuuteen ja jakaa edistyneen Large Language Model Meta AI (Llama) -sarjansa maailmanlaajuisesti kehittäjille ja tutkijoille. Edistyksellisten aloitteidensa pohjalta Meta esitteli äskettäin tämän sarjan kolmannen iteraation, Laama 3. Tämä uusi painos parantaa huomattavasti Laama 2, joka tarjoaa lukuisia parannuksia ja asettaa vertailuarvoja, jotka haastavat alan kilpailijat, kuten Google, Mistral ja Anthropic. Tässä artikkelissa tarkastellaan Llama 3:n merkittäviä edistysaskeleita ja kuinka se verrataan edeltäjäänsä Llama 2:een.

Metan Llama-sarja: Eksklusiivisista avoimeen pääsyyn ja tehostettuun suorituskykyyn

Meta aloitti Llama-sarjansa vuonna 2022 lanseerauksen myötä Laama 1, malli, joka rajoittuu ei-kaupalliseen käyttöön ja on vain valituille tutkimuslaitoksille saatavilla johtuen valtavista laskentavaatimuksista ja omistusoikeudellisesta luonteesta, jotka olivat ominaisia ​​huippuluokan LLM:ille tuolloin. Vuonna 2023 Llama 2:n käyttöönoton myötä Meta AI siirtyi kohti suurempaa avoimuutta ja tarjosi mallia vapaasti sekä tutkimukseen että kaupallisiin tarkoituksiin. Tämä siirto suunniteltiin demokratisoimaan pääsy kehittyneisiin luoviin tekoälytekniikoihin, mikä mahdollistaa laajemman käyttäjäjoukon, mukaan lukien startup-yritykset ja pienemmät tutkimusryhmät, innovoida ja kehittää sovelluksia ilman suuriin malleihin tyypillisesti liittyviä jyrkkiä kustannuksia. Jatkaen tätä avoimuuden suuntausta, Meta on tuonut markkinoille Llama 3:n, joka keskittyy parantamaan pienempien mallien suorituskykyä eri teollisissa vertailuissa.

Esittelyssä Llama 3

Llama 3 on Metan avoimen lähdekoodin suurten kielimallien (LLM) toinen sukupolvi, joka sisältää sekä esikoulutetut että ohjeiden mukaan hienosäädetyt mallit 8B- ja 70B-parametreilla. Edeltäjänsä mukaisesti Llama 3 käyttää a vain dekooderi muuntajan arkkitehtuuri ja jatkaa autoregressiivisen harjoituksen harjoittamista, itseohjautuva koulutus ennustaa myöhempiä merkkejä tekstisarjoissa. Llama 3 on valmiiksi koulutettu tietojoukkoon, joka on seitsemän kertaa suurempi kuin Llama 2:ssa käytetty tietojoukko, joka sisältää yli 15 biljoonaa tokenia vastikään kuratoidusta julkisesti saatavilla olevan verkkodatan yhdistelmästä. Tämä laaja tietojoukko käsitellään kahdella klusterilla, jotka on varustettu 24,000 XNUMX GPU:lla. Näiden koulutustietojen korkean laadun ylläpitämiseksi erilaisia datakeskeinen tekoäly käytettiin tekniikoita, mukaan lukien heuristiset ja NSFW-suodattimet, semanttinen deduplikaatioja tekstin laatuluokitus. Dialogisovelluksiin räätälöityä Llama 3 Instruct -mallia on parannettu merkittävästi, ja se sisältää yli 10 miljoonaa ihmisen annotoitua datanäytettä ja hyödyntää kehittynyttä koulutusmenetelmien yhdistelmää, kuten esim. valvottu hienosäätö (SFT), hylkäysnäytteenotto, proksimaalisen politiikan optimointi (PPO)ja suora politiikan optimointi (DPO).

Llama 3 vs. Llama 2: Tärkeimmät parannukset

Llama 3 tuo useita parannuksia Llama 2:een verrattuna, mikä parantaa merkittävästi sen toimivuutta ja suorituskykyä:

  • Laajennettu sanasto: Llama 3 on lisännyt sanavarastoaan 128,256 2 merkkiin, kun Llama 32,000:n XNUMX XNUMX merkkiä on. Tämä parannus tukee tehokkaampaa tekstin koodausta sekä tuloille että ulostuloille ja vahvistaa sen monikielisiä ominaisuuksia.
  • Laajennettu kontekstin pituus: Llama 3 -mallien kontekstipituus on 8,000 4,090 merkkiä, mikä kaksinkertaistaa Llama 2:n tukemat XNUMX XNUMX merkkiä. Tämä lisäys mahdollistaa laajemman sisällönkäsittelyn, joka kattaa sekä käyttäjien kehotteet että mallivastaukset.
  • Päivitetyt koulutustiedot: Llama 3:n koulutustietojoukko on seitsemän kertaa suurempi kuin Llama 2:n, sisältäen neljä kertaa enemmän koodia. Se sisältää yli 5 % korkealaatuista ei-englanninkielistä dataa yli 30 kielellä, mikä on ratkaisevan tärkeää monikielisten sovellusten tuen kannalta. Nämä tiedot käyvät läpi tiukan laadunvalvonnan käyttämällä kehittyneitä tekniikoita, kuten heuristisia ja NSFW-suodattimia, semanttista kaksoiskopiointia ja tekstiluokittimia.
  • Tarkennetun ohjeen viritys ja arviointi: Llama 2:sta poikkeava Llama 3 käyttää edistyneitä ohjeiden viritystekniikoita, mukaan lukien valvottua hienosäätöä (SFT), hylkäysnäytteenottoa, proksimaalista politiikan optimointia (PPO) ja suoraa politiikan optimointia (DPO). Prosessin tehostamiseksi on otettu käyttöön uusi korkealaatuinen ihmisen arviointisarja, joka koostuu 1,800 XNUMX kehotuksesta, jotka kattavat erilaisia ​​käyttötapauksia, kuten neuvoja, aivoriihiä, luokittelua, koodausta ja paljon muuta, mikä varmistaa mallin ominaisuuksien kattavan arvioinnin ja hienosäädön.
  • Edistynyt tekoälyn turvallisuus: Llama 3, kuten Llama 2, sisältää tiukat turvatoimenpiteet, kuten ohjeiden hienosäädön ja kattavan red-teamingin riskien vähentämiseksi erityisesti kriittisillä alueilla, kuten kyberturvallisuus ja biologiset uhat. Näiden pyrkimysten tueksi Meta on myös esitellyt Llama Guard 2:n, joka on hienosäädetty Llama 8:n 3B-versioon. Tämä uusi malli parantaa Llama Guard -sarja luokittelemalla LLM-syötteet ja vastaukset mahdollisesti vaarallisen sisällön tunnistamiseksi, mikä tekee siitä ihanteellisen tuotantoympäristöihin.

Llama 3:n saatavuus

Llama 3 -mallit on nyt integroitu Hugging Face -ekosysteemi, mikä parantaa kehittäjien saavutettavuutta. Mallit ovat saatavilla myös mallipalvelualustojen kautta, kuten Perplexity Labs ja Ilotulitus.ai, ja pilvialustoilla, kuten AWS SageMaker, AzureMLja Vertex AI. Meta aikoo laajentaa Llama 3:n saatavuutta edelleen, mukaan lukien Google Cloudin, Kagglen, IBM WatsonX:n, NVIDIA NIM:n ja Snowflaken kaltaiset alustat. Lisäksi Llama 3:n laitteistotuki laajenee kattamaan AMD:n, AWS:n, Dellin, Intelin, NVIDIAn ja Qualcommin alustat.

Llama 3:n tulevat parannukset

Meta on paljastanut, että Llama 3:n nykyinen julkaisu on vain alkuvaihe heidän laajemmassa näkemyksessään Llama 3:n täysversiosta. He kehittävät edistynyttä mallia, jossa on yli 400 miljardia parametria ja joka tuo uusia ominaisuuksia, mukaan lukien multimodaalisuuden ja kapasiteetin käsitellä useita kieliä. Tässä parannetussa versiossa on myös huomattavasti laajennettu kontekstiikkuna ja parannetut yleiset suorituskykyominaisuudet.

Bottom Line

Metan Llama 3 merkitsee merkittävää kehitystä suurten kielimallien maisemassa, mikä vie sarjaa kohti parempaa avoimen lähdekoodin saavutettavuutta, mutta myös parantaa merkittävästi sen suorituskykyä. Seitsemän kertaa edeltäjäänsä suuremman harjoitustietojoukon ja ominaisuuksien, kuten laajennetun sanaston ja pidemmän kontekstin pituuden, Llama 3 asettaa uusia mittareita, jotka haastavat alan vahvimmatkin kilpailijat.

Tämä kolmas iteraatio ei vain jatka tekoälyteknologian demokratisoimista tuomalla korkean tason ominaisuudet saataville laajemman joukon kehittäjiä, vaan tuo myös merkittäviä parannuksia turvallisuuteen ja koulutuksen tarkkuuteen. Integroimalla nämä mallit Hugging Facen kaltaisiin alustoihin ja laajentamalla saatavuutta suurten pilvipalvelujen kautta Meta varmistaa, että Llama 3 on yhtä läsnä kuin se on tehokas.

Tulevaisuudessa Metan jatkuva kehitys lupaa vieläkin vankempia ominaisuuksia, mukaan lukien multimodaalisuuden ja laajennetun kielituen, mikä luo alustan Llama 3:lle, joka ei vain kilpaile muiden markkinoiden tärkeimpien tekoälymallien kanssa, vaan jopa ylittää sen. Llama 3 on osoitus Metan sitoutumisesta tekoälyvallankumouksen johtamiseen tarjoamalla työkaluja, jotka eivät ole vain helppokäyttöisempiä, vaan myös huomattavasti edistyneempiä ja turvallisempia maailmanlaajuiselle käyttäjäkunnalle.

Dr. Tehseen Zia on vakinainen apulaisprofessori COMSATS University Islamabadissa, ja hänellä on tekoälyn tohtori Wienin teknillisestä yliopistosta, Itävallasta. Hän on erikoistunut tekoälyyn, koneoppimiseen, tietotieteeseen ja tietokonenäköön, ja hän on tehnyt merkittävän panoksen julkaisuilla arvostetuissa tieteellisissä aikakauslehdissä. Dr. Tehseen on myös johtanut erilaisia ​​teollisia projekteja päätutkijana ja toiminut tekoälykonsulttina.