Tekoäly

Kaikki mitä sinun tarvitsee tietää Llama 3:sta | Tehokkain avoimen lähdekoodin malli tähän mennessä | Käyttökonseptit

Päivitetty on Huhtikuu 24, 2024

Meta Llama 3 avoimen lähdekoodin LLM OUTPERFORM GPT 4

Meta julkaisi äskettäin Laama 3, sen huippuluokan avoimen lähdekoodin suurkielimallin (LLM) seuraava sukupolvi. Edeltäjänsä asettaman perustan pohjalta Llama 3 pyrkii parantamaan ominaisuuksia, jotka tekivät Llama 2:sta merkittävän avoimen lähdekoodin kilpailijan ChatGPT:lle, kuten artikkelin kattavassa katsauksessa todetaan. Llama 2: Sukella syvään ChatGPT:n avoimen lähdekoodin haastajaan.

Tässä artikkelissa keskustelemme Llama 3:n taustalla olevista ydinkonsepteista, tutkimme sen innovatiivista arkkitehtuuria ja koulutusprosessia sekä annamme käytännön ohjeita tämän uraauurtavan mallin käyttöön, käyttöön ja käyttöönotosta vastuullisesti. Olitpa tutkija, kehittäjä tai tekoälyharrastaja, tämä postaus antaa sinulle tiedot ja resurssit, joita tarvitaan Llama 3:n tehon valjastamiseen projekteissasi ja sovelluksissasi.

Laaman evoluutio: Laama 2:sta Llama 3:een

Metan toimitusjohtaja Mark Zuckerberg, ilmoitti Llama 3:n debyytti, uusin Meta AI:n kehittämä tekoälymalli. Tämä huippuluokan malli, nyt avoimen lähdekoodin, on asetettu parantamaan Metan erilaisia tuotteita, mukaan lukien Messenger ja Instagram. Zuckerberg korosti, että Llama 3 asettaa Meta AI:n edistyneimmäksi vapaasti saatavilla oleva AI-avustaja.

Ennen kuin puhumme Llama 3:n erityispiirteistä, palataanpa lyhyesti sen edeltäjään, Llama 2:een. Vuonna 2022 esitelty Llama 2 oli merkittävä virstanpylväs avoimen lähdekoodin LLM-ympäristössä tarjoten tehokkaan ja tehokkaan mallin, jota voitiin käyttää kuluttajalaitteistolla. .

Vaikka Llama 2 oli huomattava saavutus, sillä oli kuitenkin rajoituksensa. Käyttäjät ilmoittivat virheellisiin kieltäytymisongelmista (malli, joka kieltäytyi vastaamasta hyvänlaatuisiin kehotteisiin), rajallisesta avuliaisuudesta ja parantamisen varaa sellaisilla aloilla kuin päättely ja koodin luominen.

Anna Llama 3: Metan vastaus näihin haasteisiin ja yhteisön palaute. Llama 3:n avulla Meta on pyrkinyt rakentamaan parhaita avoimen lähdekoodin malleja nykyisten parhaiden patentoitujen mallien rinnalla, samalla kun se on priorisoinut vastuullisia kehitys- ja käyttöönottokäytäntöjä.

Laama 3: Arkkitehtuuri ja koulutus

Yksi Llama 3:n tärkeimmistä innovaatioista on sen tokenizer, jossa on huomattavasti laajennettu sanasto. 128,256-tokenit (Lama 32,000:n 2 XNUMX:sta). Tämä laajempi sanasto mahdollistaa tehokkaamman tekstin koodauksen sekä syöttöä että tulosta varten, mikä saattaa johtaa vahvempaan monikielisyyteen ja yleisiin suorituskyvyn parannuksiin.

Llama 3 sisältää myös Ryhmitetty-kysely Huomio (GQA), tehokas esitystekniikka, joka parantaa skaalautuvuutta ja auttaa mallia käsittelemään pidempiä konteksteja tehokkaammin. The 8B Llama 3:n versio käyttää GQA:ta, kun taas molemmat 8B ja 70B mallit voivat käsitellä sekvenssejä jopa 8,192-tokenit.

Koulutustiedot ja skaalaus

Llama 3:ssa käytetyt harjoitustiedot ovat ratkaiseva tekijä sen suorituskyvyn parantamisessa. Meta kuratoi valtavan tietojoukon yli 15 biljoonaa tokeneja julkisesti saatavilla olevista verkkolähteistä, seitsemän kertaa suurempi kuin Llama 2:ssa käytetty tietojoukko. Tämä tietojoukko sisältää myös merkittävän osan (yli 5 %) korkealaatuista ei-englanninkielistä dataa, joka kattaa yli 30-kielellä.valmistellaan tulevia monikielisiä sovelluksia.

Tietojen laadun varmistamiseksi Meta käytti kehittyneitä suodatustekniikoita, kuten heuristisia suodattimia, NSFW-suodattimia, semanttisia duplikaatioita ja tekstiluokituksia, jotka on koulutettu Llama 2:lla ennustamaan tietojen laatua. Tiimi suoritti myös laajoja kokeita määrittääkseen optimaalisen tietolähteiden yhdistelmän esikoulutusta varten. Näin varmistettiin, että Llama 3 toimii hyvin monenlaisissa käyttötapauksissa, mukaan lukien trivia-, STEM-, koodaus- ja historiatieto.

Esiharjoittelun lisääminen oli toinen kriittinen näkökohta Llama 3:n kehityksessä. Meta kehitti skaalauslakeja, joiden avulla se pystyi ennustamaan sen suurimpien mallien suorituskyvyn avaintehtävissä, kuten koodin luomisessa, ennen kuin varsinaisesti koulutettiin niitä. Tämä vaikutti tietoyhdistelmää ja laskennan allokointia koskeviin päätöksiin, mikä johti viime kädessä tehokkaampaan ja tehokkaampaan koulutukseen.

Llama 3:n suurimmat mallit koulutettiin kahdessa räätälöidyssä 24,000 2 GPU-klusterissa, joissa hyödynnettiin tiedon rinnakkais-, mallin rinnakkais- ja putkilinjan rinnakkaistekniikoiden yhdistelmää. Metan edistyksellinen harjoituspino, automatisoitu virheiden havaitseminen, käsittely ja ylläpito, maksimoi GPU:n käytettävyyden ja lisää koulutustehokkuutta noin kolme kertaa Llama XNUMX:een verrattuna.

Opetus Hienosäätö ja suorituskyky

Vapauttaakseen Llama 3:n täyden potentiaalin chat- ja dialogisovelluksissa Meta innovoi lähestymistapaansa opetuksen hienosäätöön. Sen menetelmä yhdistää valvottua hienosäätöä (SFT), hylkäysnäytteenotto, proksimaalisen politiikan optimointi (PPO) ja suora mieltymysten optimointi (DPO).

SFT:ssä käytettyjen kehotteiden laadulla ja PPO:ssa ja DPO:ssa käytettyjen etusijajärjestysten laadulla oli ratkaiseva rooli kohdistettujen mallien toiminnassa. Metan tiimi kuratoi nämä tiedot huolellisesti ja suoritti useita laadunvarmistuskierroksia ihmisen annotaattorien antamille huomautuksille.

PPO:n ja DPO:n kautta suoritettu koulutus paransi myös Llama 3:n suorituskykyä päättely- ja koodaustehtävissä. Meta havaitsi, että vaikka malli yrittää vastata suoraan päättelykysymykseen, se voi silti tuottaa oikean päättelyjäljen. Suositusarvostelujen harjoittelu antoi mallille mahdollisuuden oppia valitsemaan oikea vastaus näistä jäljistä.

Tulokset puhuvat puolestaan: Llama 3 ylittää monet saatavilla olevat avoimen lähdekoodin chat-mallit yleisillä alan vertailuarvoilla ja luo uuden huippuluokan suorituskyvyn LLM:ille 8B- ja 70B-parametriasteikoilla.

Vastuullinen kehitys ja turvallisuusnäkökohdat

Pyrkiessään huippuluokan suorituskykyyn Meta asetti etusijalle myös Llama 3:n vastuulliset kehittämis- ja käyttöönottokäytännöt. Yhtiö omaksui järjestelmätason lähestymistavan ja visioi Llama 3 -mallit osaksi laajempaa ekosysteemiä, joka asettaa kehittäjät kuljettajan paikalle, jolloin he voivat suunnitella ja räätälöidä malleja niiden erityisiä käyttötapauksia ja turvallisuusvaatimuksia varten.

Meta suoritti laajoja red-teaming-harjoituksia, suoritti kontradiktorisia arviointeja ja otti käyttöön turvallisuuden lieventämistekniikoita jäännösriskien vähentämiseksi ohjeistettuihin malleihinsa. Yhtiö kuitenkin myöntää, että jäännösriskit todennäköisesti säilyvät, ja suosittelee, että kehittäjät arvioivat nämä riskit erityisten käyttötapaustensa yhteydessä.

Tukeakseen vastuullista käyttöönottoa Meta on päivittänyt Responsible Use Guide -oppaan, joka tarjoaa kehittäjille kattavan resurssin malli- ja järjestelmätason parhaiden turvallisuuskäytäntöjen käyttöönottamiseksi sovelluksiinsa. Opas kattaa aiheita, kuten sisällön moderoinnin, riskinarvioinnin ja turvatyökalujen, kuten Llama Guard 2:n ja Code Shieldin, käytön.

Llama Guard 2, joka perustuu MLCommons-taksonomiaan, on suunniteltu luokittelemaan LLM-syötteet (kehotteet) ja vastaukset ja havaitsemaan sisältöä, jota voidaan pitää vaarallisena tai haitallisena. CyberSecEval 2 laajentaa edeltäjäänsä lisäämällä toimenpiteitä, jotka estävät mallin kooditulkin väärinkäytön, loukkaavia kyberturvallisuusominaisuuksia ja alttiutta pikaisille injektiohyökkäyksille.

Code Shield, uusi johdanto Llama 3:n kanssa, lisää LLM:iden tuottaman epävarman koodin päättelyaikasuodatuksen, mikä vähentää turvattomien koodiehdotusten, kooditulkkien väärinkäytön ja suojatun komentojen suorittamisen riskejä.

Llaman käyttö ja käyttö 3

Meta AI:n Llama 3:n julkaisun jälkeen useita avoimen lähdekoodin työkaluja on tuotu saataville paikalliseen käyttöön eri käyttöjärjestelmissä, kuten Macissa, Windowsissa ja Linuxissa. Tässä osiossa käsitellään kolmea merkittävää työkalua: Ollama, Open WebUI ja LM Studio, joista jokainen tarjoaa ainutlaatuisia ominaisuuksia Llama 3:n ominaisuuksien hyödyntämiseen henkilökohtaisissa laitteissa.

Ollama: Saatavilla Macille, Linuxille ja Windowsille, Ollama yksinkertaistaa Llama 3:n ja muiden suurten kielimallien käyttöä henkilökohtaisissa tietokoneissa, myös niissä, joissa on vähemmän vankka laitteisto. Se sisältää paketinhallinnan, joka helpottaa mallien hallintaa, ja tukee komentoja eri alustoilla mallien lataamiseen ja käyttämiseen.

Avaa WebUI Dockerilla: Tämä työkalu tarjoaa käyttäjäystävällisen, Satamatyöläinen-pohjainen käyttöliittymä, joka on yhteensopiva Macin, Linuxin ja Windowsin kanssa. Se integroituu saumattomasti Ollama-rekisterin mallien kanssa, jolloin käyttäjät voivat ottaa käyttöön Llama 3:n kaltaisia malleja ja olla vuorovaikutuksessa niiden kanssa paikallisessa verkkoliittymässä.

LM Studio: kohdistaminen käyttäjille Macissa, Linuxissa ja Windowsissa, LM Studio tukee useita malleja ja on rakennettu llama.cpp-projektiin. Se tarjoaa chat-käyttöliittymän ja mahdollistaa suoran vuorovaikutuksen eri mallien kanssa, mukaan lukien Llama 3 8B Instruct -malli.

Nämä työkalut varmistavat, että käyttäjät voivat käyttää Llama 3:a tehokkaasti henkilökohtaisissa laitteissaan erilaisiin teknisiin taitoihin ja vaatimuksiin. Jokainen alusta tarjoaa vaiheittaiset prosessit asennukseen ja mallien vuorovaikutukseen, mikä tekee edistyneestä tekoälystä helpommin kehittäjien ja harrastajien saatavilla.

Llama 3:n käyttöönotto Scalessa

Sen lisäksi, että Meta tarjoaa suoran pääsyn mallipainoihin, se on tehnyt yhteistyötä useiden pilvipalveluntarjoajien, mallisovellusliittymäpalveluiden ja laitteistoalustojen kanssa mahdollistaakseen Llama 3:n saumattoman käyttöönoton mittakaavassa.

Yksi Llama 3:n tärkeimmistä eduista on sen parantunut merkkitehokkuus uuden tokenisaattorin ansiosta. Vertailuarvot osoittavat, että Llama 3 vaatii jopa 15 % vähemmän tokeneita verrattuna Llama 2:een, mikä johtaa nopeampaan ja kustannustehokkaampaan päättelyyn.

Grouped Query Attention (GQA) -integrointi Llama 8:n 3B-versioon auttaa säilyttämään päättelytehokkuuden Llama 7:n 2B-version tasolla huolimatta parametrien määrän kasvusta.

Käyttöönottoprosessin yksinkertaistamiseksi Meta on toimittanut Llama Recipes -tietovaraston, joka sisältää avoimen lähdekoodin ja esimerkkejä hienosäädöstä, käyttöönotosta, mallin arvioinnista ja muusta. Tämä arkisto on arvokas resurssi kehittäjille, jotka haluavat hyödyntää Llama 3:n ominaisuuksia sovelluksissaan.

Niille, jotka ovat kiinnostuneita tutkimaan Llama 3:n suorituskykyä, Meta on integroinut uusimmat mallinsa Meta AI:hen, johtavaan Llama 3 -tekniikalla rakennettuun tekoälyavustajaan. Käyttäjät voivat olla vuorovaikutuksessa Meta AI:n kanssa erilaisten Meta-sovellusten, kuten Facebookin, Instagramin, WhatsAppin, Messengerin ja verkon kautta, saadakseen asioita aikaan, oppiakseen, luodakseen ja ollakseen yhteydessä heille tärkeisiin asioihin.

Mitä seuraavaksi Llama 3:lle?

Vaikka 8B- ja 70B-mallit merkitsevät Llama 3 -julkaisun alkua, Metalla on kunnianhimoisia suunnitelmia tämän uraauurtavan LLM:n tulevaisuutta varten.

Tulevina kuukausina voimme odottaa näkevämme uusia ominaisuuksia, mukaan lukien multimodaalisuus (kyky käsitellä ja luoda erilaisia datamodaaleja, kuten kuvia ja videoita), monikielisyys (tukee useita kieliä) ja paljon pidemmät kontekstiikkunat tehokkuuden parantamiseksi laajaa kontekstia vaativia tehtäviä.

Lisäksi Meta suunnittelee julkaisevansa suurempia mallikokoja, mukaan lukien malleja, joissa on yli 400 miljardia parametria ja jotka ovat parhaillaan koulutuksessa ja näyttävät lupaavia kehitystrendejä suorituskyvyn ja ominaisuuksien suhteen.

Edistääkseen alaa Meta julkaisee myös yksityiskohtaisen tutkimuspaperin Llama 3:sta ja jakaa löydöksensä ja näkemyksensä laajemman tekoälyyhteisön kanssa.

Esikatsauksena tulevasta Meta on jakanut joitain varhaisia otoksia suurimman LLM-mallinsa suorituskyvystä eri mittareilla. Vaikka nämä tulokset perustuvat varhaiseen tarkistuspisteeseen ja voivat muuttua, ne tarjoavat jännittävän katsauksen Llama 3:n tulevaisuuteen.

Yhteenveto

Llama 3 edustaa merkittävää virstanpylvästä avoimen lähdekoodin suurten kielimallien kehityksessä, sillä se ylittää suorituskyvyn, kykyjen ja vastuullisen kehittämisen rajoja. Innovatiivisella arkkitehtuurillaan, massiivisella koulutustietojoukollaan ja huippuluokan hienosäätötekniikoillaan Llama 3 asettaa uudet huippuluokan vertailuarvot LLM:ille 8B- ja 70B-parametriasteikoilla.

Llama 3 on kuitenkin enemmän kuin vain tehokas kielimalli; se on osoitus Metan sitoutumisesta avoimen ja vastuullisen tekoälyekosysteemin edistämiseen. Tarjoamalla kattavia resursseja, turvatyökaluja ja parhaita käytäntöjä Meta antaa kehittäjille mahdollisuuden hyödyntää Llama 3:n koko potentiaali ja varmistaa vastuullisen käyttöönoton, joka on räätälöity heidän käyttötapauksiinsa ja yleisöihinsä.

Llama 3:n matkan jatkuessa uusien ominaisuuksien, mallikokojen ja tutkimustulosten myötä tekoälyyhteisö odottaa innolla innovatiivisia sovelluksia ja läpimurtoja, joita tämä uraauurtava LLM epäilemättä syntyy.

Olitpa tutkija, joka ylittää luonnollisen kielen prosessoinnin rajoja, kehittäjä, joka rakentaa seuraavan sukupolven älykkäitä sovelluksia tai AI-harrastaja, joka on utelias uusimmista edistysaskeleista, Llama 3 lupaa olla tehokas työkalu arsenaalissasi, joka avaa uusia ovia ja mahdollisuuksien maailman avaaminen.

Liittyvät aiheet:liekki laama 2 Laama 3 OTK LLM:t meta

Seuraavaksi

Microsoft julkistaa Phi-3:n: Tehokkaat avoimet tekoälymallit, jotka tarjoavat huippusuorituskykyä pienissä kooissa

Älä missaa

FrugalGPT: Paradigman muutos suurten kielimallien kustannusoptimoinnissa

Aayush Mittal

Olen viettänyt viimeiset viisi vuotta uppoutuen koneoppimisen ja syväoppimisen kiehtovaan maailmaan. Intohimoni ja asiantuntemukseni ovat saaneet minut osallistumaan yli 50:een erilaiseen ohjelmistosuunnitteluprojektiin keskittyen erityisesti tekoälyyn/ML:ään. Jatkuva uteliaisuuteni on myös vetänyt minut kohti luonnollisen kielen käsittelyä, alaa, jota olen innokas tutkimaan lisää.