Umetna inteligenca

Vse, kar morate vedeti o Llama 3 | Najzmogljivejši odprtokodni model doslej | Koncepti za uporabo

Posodobljeno on April 24, 2024

Odprtokodni LLM Meta Llama 3 PREKOSIL GPT 4

Pred kratkim je izdala Meta Lama 3, naslednjo generacijo njegovega najsodobnejšega odprtokodnega velikega jezikovnega modela (LLM). Na podlagi temeljev, ki jih je postavil njegov predhodnik, si Llama 3 prizadeva izboljšati zmogljivosti, ki so Llamo 2 postavile kot pomembnega odprtokodnega konkurenta ChatGPT, kot je opisano v obsežnem pregledu v članku Llama 2: Poglobite se v odprtokodni Challenger za ChatGPT.

V tem članku bomo razpravljali o temeljnih konceptih Llame 3, raziskali njegovo inovativno arhitekturo in proces usposabljanja ter zagotovili praktične napotke o tem, kako odgovorno dostopati do tega revolucionarnega modela, ga uporabljati in uvajati. Ne glede na to, ali ste raziskovalec, razvijalec ali navdušenec AI, vas bo ta objava opremila z znanjem in viri, potrebnimi za izkoriščanje moči Llame 3 za vaše projekte in aplikacije.

Evolucija lame: od lame 2 do lame 3

Izvršni direktor Mete, Mark Zuckerberg, razglasitve prvenec Llame 3, najnovejšega modela AI, ki ga je razvila Meta AI. Ta najsodobnejši model, ki je zdaj odprtokoden, naj bi izboljšal različne izdelke Mete, vključno z Messengerjem in Instagramom. Zuckerberg je poudaril, da Llama 3 postavlja Meta AI kot najnaprednejšo prosto dostopen AI pomočnik.

Preden se pogovorimo o posebnostih Llame 3, si na kratko oglejmo njeno predhodnico, Llamo 2. Llama 2022, predstavljena leta 2, je bila pomemben mejnik v odprtokodni LLM pokrajini, saj je ponujala zmogljiv in učinkovit model, ki bi ga bilo mogoče izvajati na potrošniški strojni opremi. .

Čeprav je bil Llama 2 opazen dosežek, je imel svoje omejitve. Uporabniki so poročali o težavah z lažnimi zavrnitvami (model, ki zavrača odgovarjanje na benigne pozive), omejeno uporabnostjo in prostorom za izboljšave na področjih, kot sta razmišljanje in ustvarjanje kode.

Vnesite Llama 3: Metin odgovor na te izzive in povratne informacije skupnosti. Z Llamo 3 se je Meta odločila zgraditi najboljše odprtokodne modele, primerljive z vrhunskimi lastniškimi modeli, ki so danes na voljo, hkrati pa je dala prednost odgovornemu razvoju in praksam uvajanja.

Llama 3: Arhitektura in usposabljanje

Ena ključnih novosti v Llami 3 je njen tokenizer, ki ima znatno razširjen besednjak 128,256 žetone (z 32,000 v Llami 2). Ta večji besednjak omogoča učinkovitejše kodiranje besedila, tako za vnos kot za izhod, kar lahko vodi do večje večjezičnosti in splošnih izboljšav delovanja.

Llama 3 vključuje tudi Pozor na skupinsko poizvedbo (GQA), učinkovita tehnika predstavitve, ki izboljša razširljivost in pomaga modelu učinkoviteje obravnavati daljše kontekste. The 8B različica Llama 3 uporablja GQA, medtem ko oba 8B in 70B modeli lahko obdelujejo zaporedja do 8,192 žetone.

Podatki o usposabljanju in skaliranje

Podatki o usposabljanju, uporabljeni za Llamo 3, so ključni dejavnik za izboljšano delovanje. Meta je pripravila ogromen nabor podatkov več kot 15 bilijona žetonov iz javno dostopnih spletnih virov, kar je sedemkrat večje od nabora podatkov, uporabljenega za Llama 2. Ta nabor podatkov vključuje tudi znaten delež (več kot 5 %) visokokakovostnih neangleških podatkov, ki zajemajo več kot Jeziki 30, v pripravah na prihodnje večjezične aplikacije.

Da bi zagotovila kakovost podatkov, je Meta uporabila napredne tehnike filtriranja, vključno s hevrističnimi filtri, filtri NSFW, semantično deduplikacijo in klasifikatorji besedila, usposobljenimi na Llama 2 za napovedovanje kakovosti podatkov. Ekipa je izvedla tudi obsežne poskuse, da bi določila optimalno mešanico podatkovnih virov za predusposabljanje, s čimer je zagotovila, da Llama 3 dobro deluje v številnih primerih uporabe, vključno z zanimivostmi, STEM, kodiranjem in zgodovinskim znanjem.

Povečanje predusposabljanja je bil še en kritičen vidik razvoja Llame 3. Meta je razvila zakone skaliranja, ki so jim omogočili napovedovanje delovanja največjih modelov pri ključnih nalogah, kot je ustvarjanje kode, preden so jih dejansko usposobili. To je vplivalo na odločitve o mešanju podatkov in dodeljevanju računalništva, kar je na koncu pripeljalo do učinkovitejšega in uspešnejšega usposabljanja.

Največji modeli Llame 3 so bili usposobljeni na dveh po meri izdelanih gručah s 24,000 GPU, ki so izkoriščali kombinacijo vzporedne podatkovne paralelizacije, vzporedne paralelizacije modelov in tehnik paralelizacije cevovoda. Metin napredni sklad za usposabljanje avtomatizira odkrivanje napak, ravnanje in vzdrževanje, kar poveča čas delovanja GPE in poveča učinkovitost usposabljanja za približno trikrat v primerjavi z Llama 2.

Natančna nastavitev navodil in zmogljivost

Da bi sprostila polni potencial Llame 3 za aplikacije za klepet in dialog, je Meta inovirala svoj pristop k natančnemu prilagajanju navodil. Njegova metoda združuje nadzorovano fino uravnavanje (SFT), vzorčenje zavrnitev, proksimalna optimizacija politike (PPO) in optimizacija neposrednih preferenc (DPO).

Kakovost pozivov, uporabljenih v SFT, in razvrstitev preferenc, uporabljenih v PPO in DPO, so imeli ključno vlogo pri uspešnosti usklajenih modelov. Metina ekipa je skrbno kurirala te podatke in izvedla več krogov zagotavljanja kakovosti opomb, ki so jih zagotovili človeški opombevalci.

Usposabljanje o prednostnih razvrstitvah prek PPO in DPO je tudi znatno izboljšalo uspešnost Llame 3 pri nalogah sklepanja in kodiranja. Meta je ugotovila, da tudi ko se model trudi neposredno odgovoriti na vprašanje o sklepanju, lahko še vedno ustvari pravilno sled sklepanja. Usposabljanje o prednostnih razvrstitvah je modelu omogočilo, da se je naučil izbrati pravilen odgovor iz teh sledi.

Rezultati govorijo sami zase: Llama 3 prekaša številne razpoložljive odprtokodne modele klepeta na običajnih industrijskih merilih uspešnosti, s čimer vzpostavi novo najsodobnejšo zmogljivost za LLM na lestvicah parametrov 8B in 70B.

Odgovoren razvoj in varnostni vidiki

Medtem ko si prizadeva za vrhunsko zmogljivost, je Meta dala prednost tudi odgovornemu razvoju in praksam uvajanja za Llamo 3. Podjetje je sprejelo pristop na sistemski ravni, pri čemer si je modele Llama 3 zamislilo kot del širšega ekosistema, ki postavlja razvijalce na voznikov sedež in jim omogoča oblikovanje in prilagodite modele za njihove posebne primere uporabe in varnostne zahteve.

Meta je izvedla obsežne vaje red-teaminga, izvedla kontradiktorne ocene in uvedla tehnike za zmanjšanje varnosti, da bi zmanjšala preostala tveganja v svojih modelih, prilagojenih navodilom. Vendar pa podjetje priznava, da bodo preostala tveganja verjetno ostala, in priporoča razvijalcem, da ta tveganja ocenijo v kontekstu svojih posebnih primerov uporabe.

Da bi podprla odgovorno uvajanje, je Meta posodobila svoj Vodnik za odgovorno uporabo, ki razvijalcem zagotavlja obsežen vir za implementacijo najboljših praks glede varnosti na ravni modela in sistema za svoje aplikacije. Vodnik pokriva teme, kot so moderiranje vsebine, ocena tveganja in uporaba varnostnih orodij, kot sta Llama Guard 2 in Code Shield.

Llama Guard 2, zgrajen na taksonomiji MLCommons, je zasnovan tako, da razvršča LLM vnose (pozive) in odzive ter zazna vsebino, ki se lahko šteje za nevarno ali škodljivo. CyberSecEval 2 razširja svojega predhodnika z dodajanjem ukrepov za preprečevanje zlorabe tolmača kode modela, žaljivih zmožnosti kibernetske varnosti in dovzetnosti za napade s takojšnjim vbrizgavanjem.

Code Shield, nova uvedba z Llama 3, dodaja časovno filtriranje nevarne kode, ki jo ustvarijo LLM-ji, zmanjševanje tveganj, povezanih s predlogi nevarne kode, zlorabo tolmača kode in varno izvajanje ukazov.

Dostop in uporaba Llame 3

Po predstavitvi Meta AI's Llama 3 je bilo na voljo več odprtokodnih orodij za lokalno uvajanje v različnih operacijskih sistemih, vključno z Mac, Windows in Linux. Ta razdelek podrobno opisuje tri pomembna orodja: Ollama, Open WebUI in LM Studio, od katerih vsako ponuja edinstvene funkcije za izkoriščanje zmogljivosti Llame 3 na osebnih napravah.

Ollama: Na voljo za Mac, Linux in Windows, Ollama poenostavlja delovanje Llame 3 in drugih velikih jezikovnih modelov na osebnih računalnikih, tudi tistih z manj robustno strojno opremo. Vključuje upravitelja paketov za enostavno upravljanje modelov in podpira ukaze na različnih platformah za prenos in izvajanje modelov.

Odprite WebUI z Dockerjem: To orodje zagotavlja uporabniku prijazno, Lučki delavec-osnovan vmesnik, združljiv z Mac, Linux in Windows. Brezhibno se integrira z modeli iz registra Ollama, kar uporabnikom omogoča uvajanje in interakcijo z modeli, kot je Llama 3, znotraj lokalnega spletnega vmesnika.

LM Studio: ciljanje na uporabnike v sistemih Mac, Linux in Windows, LM Studio podpira vrsto modelov in je zgrajen na projektu llama.cpp. Zagotavlja vmesnik za klepet in omogoča neposredno interakcijo z različnimi modeli, vključno z modelom Llama 3 8B Instruct.

Ta orodja zagotavljajo, da lahko uporabniki učinkovito uporabljajo Llama 3 na svojih osebnih napravah, pri čemer se prilagajajo različnim tehničnim spretnostim in zahtevam. Vsaka platforma ponuja postopke po korakih za nastavitev in interakcijo modela, zaradi česar je napredna umetna inteligenca bolj dostopna razvijalcem in navdušencem.

Uvajanje Llame 3 v velikem obsegu

Poleg zagotavljanja neposrednega dostopa do uteži modela je Meta sodelovala z različnimi ponudniki oblakov, storitvami API-jev modelov in platformami strojne opreme, da bi omogočila brezhibno uvajanje Llame 3 v velikem obsegu.

Ena od ključnih prednosti Llame 3 je izboljšana učinkovitost žetonov, zahvaljujoč novemu tokenizatorju. Merila uspešnosti kažejo, da Llama 3 potrebuje do 15 % manj žetonov v primerjavi z Llamo 2, kar ima za posledico hitrejše in stroškovno učinkovitejše sklepanje.

Integracija Grouped Query Attention (GQA) v različici 8B Llame 3 prispeva k ohranjanju učinkovitosti sklepanja na ravni različice 7B Llame 2, kljub povečanju števila parametrov.

Za poenostavitev postopka uvajanja je Meta zagotovila repozitorij Llama Recipes, ki vsebuje odprtokodno kodo in primere za natančno uravnavanje, uvajanje, vrednotenje modela in drugo. Ta repozitorij služi kot dragocen vir za razvijalce, ki želijo izkoristiti zmogljivosti Llama 3 v svojih aplikacijah.

Za tiste, ki želijo raziskati zmogljivost Llame 3, je Meta svoje najnovejše modele integrirala v Meta AI, vodilnega pomočnika AI, zgrajenega s tehnologijo Llama 3. Uporabniki lahko komunicirajo z Meta AI prek različnih Meta aplikacij, kot so Facebook, Instagram, WhatsApp, Messenger in splet, da opravijo stvari, se učijo, ustvarjajo in se povezujejo s stvarmi, ki so jim pomembne.

Kaj je naslednje za Llama 3?

Medtem ko modela 8B in 70B označujeta začetek izdaje Llame 3, ima Meta ambiciozne načrte za prihodnost tega revolucionarnega LLM.

V prihodnjih mesecih lahko pričakujemo uvedbo novih zmogljivosti, vključno z večmodalnostjo (zmožnostjo obdelave in ustvarjanja različnih načinov podatkov, kot so slike in videoposnetki), večjezičnostjo (podpora več jezikov) in veliko daljšimi kontekstnimi okni za izboljšano delovanje na naloge, ki zahtevajo obsežen kontekst.

Poleg tega Meta načrtuje izdajo večjih velikosti modelov, vključno z modeli z več kot 400 milijardami parametrov, ki so trenutno v fazi usposabljanja in kažejo obetavne trende v smislu zmogljivosti in zmogljivosti.

Za nadaljnji napredek na tem področju bo Meta objavila tudi podroben raziskovalni članek o Llami 3, v katerem bo svoje ugotovitve in vpoglede delila s širšo skupnostjo AI.

Kot kratek predogled tega, kar prihaja, je Meta delila nekaj zgodnjih posnetkov uspešnosti svojega največjega modela LLM na različnih merilih uspešnosti. Čeprav ti rezultati temeljijo na zgodnji kontrolni točki in se lahko spremenijo, ponujajo razburljiv vpogled v prihodnji potencial Llame 3.

zaključek

Llama 3 predstavlja pomemben mejnik v razvoju odprtokodnih velikih jezikovnih modelov, ki premika meje zmogljivosti, zmogljivosti in odgovornih razvojnih praks. S svojo inovativno arhitekturo, obsežnim naborom podatkov o usposabljanju in vrhunskimi tehnikami natančnega prilagajanja Llama 3 vzpostavlja nova najsodobnejša merila uspešnosti za LLM na lestvicah parametrov 8B in 70B.

Vendar je Llama 3 več kot le močan jezikovni model; to je dokaz Metine predanosti spodbujanju odprtega in odgovornega ekosistema umetne inteligence. Z zagotavljanjem obsežnih virov, varnostnih orodij in najboljših praks Meta omogoča razvijalcem, da izkoristijo celoten potencial Llame 3, hkrati pa zagotavlja odgovorno uvajanje, prilagojeno njihovim posebnim primerom uporabe in občinstvu.

Medtem ko se potovanje Llame 3 nadaljuje, z novimi zmogljivostmi, velikostmi modelov in ugotovitvami raziskav na obzorju, skupnost AI nestrpno pričakuje inovativne aplikacije in preboje, ki bodo nedvomno prišli iz tega prelomnega LLM.

Ne glede na to, ali ste raziskovalec, ki premika meje obdelave naravnega jezika, razvijalec, ki gradi naslednjo generacijo inteligentnih aplikacij, ali navdušenec AI, ki vas zanima najnovejši napredek, Llama 3 obljublja, da bo močno orodje v vašem arzenalu, ki odpira nova vrata in odklepanje sveta možnosti.

Sorodne teme:Llama lama 2 Lama 3 LLM LLM meta

Up Next

Microsoft razkriva Phi-3: zmogljive odprte modele AI, ki zagotavljajo vrhunsko zmogljivost pri majhnih velikostih

Ne zamudite

FrugalGPT: sprememba paradigme pri optimizaciji stroškov za velike jezikovne modele

Aayush Mittal

Zadnjih pet let sem se potopil v fascinanten svet strojnega in globokega učenja. Moja strast in strokovno znanje sta me pripeljala do tega, da sem prispeval k več kot 50 raznolikim projektom programskega inženiringa, s posebnim poudarkom na AI/ML. Moja nenehna radovednost me je pripeljala tudi do obdelave naravnega jezika, področja, ki ga želim nadalje raziskati.