Connect with us

Tot ce trebuie să știți despre Llama 3 | Cel mai puternic model open-source până în prezent | Concepte la utilizare

Inteligență artificială

Tot ce trebuie să știți despre Llama 3 | Cel mai puternic model open-source până în prezent | Concepte la utilizare

mm
Meta Llama 3 open source LLM OUTPERFORM GPT 4

Meta a lansat recent Llama 3, următoarea generație a modelului său de limbaj mare open-source de ultimă generație (LLM). Construind pe fundațiile stabilite de predecesorul său, Llama 3 își propune să îmbunătățească capacitățile care au poziționat Llama 2 ca un concurent open-source semnificativ pentru ChatGPT, așa cum este descris în recenzia cuprinzătoare din articolul Llama 2: O analiză profundă a concurentului open-source pentru ChatGPT.

În acest articol vom discuta conceptele de bază din spatele Llama 3, vom explora arhitectura sa inovatoare și procesul de antrenare și vom oferi îndrumări practice despre cum să accesați, să utilizați și să implementați acest model revoluționar într-un mod responsabil. Indiferent dacă sunteți cercetător, dezvoltator sau entuziast AI, acest post vă va dota cu cunoștințele și resursele necesare pentru a valorifica puterea Llama 3 pentru proiectele și aplicațiile dvs.

Evoluția Llama: De la Llama 2 la Llama 3

CEO-ul Meta, Mark Zuckerberg, a anunțat debutul Llama 3, cel mai recent model AI dezvoltat de Meta AI. Acest model de ultimă generație, acum open-source, este destinat să îmbunătățească diversele produse ale Meta, inclusiv Messenger și Instagram. Zuckerberg a subliniat că Llama 3 poziționează Meta AI ca asistentul AI cel mai avansat disponibil gratuit.

Înainte de a discuta despre specificul Llama 3, să revenim pe scurt la predecesorul său, Llama 2. Introdus în 2022, Llama 2 a fost o piatră de hotar importantă în peisajul LLM open-source, oferind un model puternic și eficient care putea fi rulat pe hardware de consum.

Cu toate acestea, deși Llama 2 a fost o realizare notabilă, a avut și limitări. Utilizatorii au raportat probleme cu refuzuri false (modelul refuzând să răspundă la prompturi inofensive), utilitate limitată și spațiu de îmbunătățire în domenii precum raționamentul și generarea de cod.

Intră Llama 3: răspunsul Meta la aceste provocări și la feedback-ul comunității. Cu Llama 3, Meta a încercat să construiască cele mai bune modele open-source, la nivelul celor mai bune modele proprietare disponibile astăzi, dar și să prioritizeze practicile de dezvoltare și implementare responsabile.

Llama 3: Arhitectură și Antrenare

Una dintre inovațiile cheie în Llama 3 este tokenizer-ul său, care prezintă un vocabular extins semnificativ de 128.256 de tokeni (față de 32.000 în Llama 2). Acest vocabular mai mare permite o codificare mai eficientă a textului, atât pentru intrare, cât și pentru ieșire, ceea ce poate duce la o mai bună multilingvism și îmbunătățiri ale performanței generale.

Llama 3 incorporează, de asemenea, Atenția Grupată la Interogare (GQA), o tehnică de reprezentare eficientă care îmbunătățește scalabilitatea și ajută modelul să gestioneze contexte mai lungi mai eficient. Versiunea 8B a Llama 3 utilizează GQA, în timp ce atât modelele 8B, cât și 70B pot procesa secvențe de până la 8.192 de tokeni.

Date de Antrenare și Scalare

Datele de antrenare utilizate pentru Llama 3 sunt un factor crucial în performanța sa îmbunătățită. Meta a curat o bază de date masivă de peste 15 trilioane de tokeni din surse online publice, de șapte ori mai mare decât baza de date utilizată pentru Llama 2. Această bază de date include, de asemenea, o parte semnificativă (peste 5%) de date de înaltă calitate non-engleză, care acoperă peste 30 de limbi, în pregătirea pentru aplicații multilingve viitoare.

Pentru a asigura calitatea datelor, Meta a utilizat tehnici avansate de filtrare, inclusiv filtre euristice, filtre NSFW, deduplicare semantică și clasificatori de text instruiți pe Llama 2 pentru a prezice calitatea datelor. Echipa a efectuat, de asemenea, experimente extinse pentru a determina amestecul optim de surse de date pentru preantrenare, asigurându-se că Llama 3 funcționează bine într-o gamă largă de cazuri de utilizare, inclusiv trivii, STEM, codare și cunoștințe istorice.

Scalarea preantrenării a fost un alt aspect critic în dezvoltarea Llama 3. Meta a dezvoltat legi de scalare care au permis să prevadă performanța celor mai mari modele pe sarcini cheie, cum ar fi generarea de cod, înainte de a le antrena efectiv. Acest lucru a informat deciziile privind amestecul de date și alocarea de calcul, conducând în final la o antrenare mai eficientă și mai eficace.

Modelele Llama 3 de dimensiuni mai mari au fost antrenate pe două clusteruri de 24.000 de GPU personalizate, utilizând o combinație de paralelizare a datelor, paralelizare a modelului și tehnici de paralelizare a conductei. Stiva avansată de antrenare a Meta a automatizat detectarea erorilor, gestionarea și întreținerea, maximizând timpul de funcționare al GPU-ului și creșterea eficienței antrenării cu aproximativ trei ori comparativ cu Llama 2.

Reglare Fină a Instrucțiunilor și Performanță

Pentru a debloca pe deplin potențialul Llama 3 pentru aplicații de chat și dialog, Meta a inovat abordarea sa privind reglarea fină a instrucțiunilor. Metoda sa combină reglarea fină supravegheată (SFT), eșantionarea de respingere, optimizarea proximală a politicii (PPO) și optimizarea preferinței directe (DPO).

Calitatea prompturilor utilizate în SFT și a clasamentelor de preferință utilizate în PPO și DPO a jucat un rol crucial în performanța modelului aliniat. Echipa Meta a curat cu atenție aceste date și a efectuat multiple runde de asigurare a calității a notărilor furnizate de annotatori umani.

Antrenarea pe clasamente de preferință prin PPO și DPO a îmbunătățit semnificativ performanța Llama 3 la sarcinile de raționament și codare. Meta a constatat că, chiar și atunci când un model se luptă să răspundă direct la o întrebare de raționament, poate totuși produce urma de raționament corectă. Antrenarea pe clasamente de preferință a permis modelului să învețe cum să selecteze răspunsul corect din aceste urme.

Rezultate Arena

Rezultatele vorbesc de la sine: Llama 3 depășește multe modele de chat open-source disponibile pe benchmark-urile industriale comune, stabilind o nouă performanță de ultimă generație pentru LLM la scara parametrilor de 8B și 70B.

Dezvoltare Responsabilă și Considerații de Siguranță

În timp ce urmărește performanța de ultimă generație, Meta a prioritizat, de asemenea, practicile de dezvoltare și implementare responsabile pentru Llama 3. Compania a adoptat o abordare la nivel de sistem, imaginând modelele Llama 3 ca parte a unui ecosistem mai larg care pune dezvoltatorii în fruntea proiectului, permițându-le să proiecteze și să personalizeze modelele pentru cazurile lor de utilizare specifice și cerințele de siguranță.

Meta a efectuat exerciții extensive de red teaming, a realizat evaluări adverse și a implementat tehnici de atenuare a siguranței pentru a reduce riscurile reziduale în modelele sale de instruire. Cu toate acestea, compania recunoaște că riscurile reziduale vor rămâne probabil și recomandă dezvoltatorilor să evalueze aceste riscuri în contextul cazurilor lor de utilizare specifice.

Pentru a sprijini implementarea responsabilă, Meta a actualizat Ghidul de utilizare responsabilă, oferind o resursă cuprinzătoare pentru dezvoltatori, pentru a implementa cele mai bune practici de siguranță la nivel de model și de sistem pentru aplicațiile lor. Ghidul acoperă subiecte precum moderarea conținutului, evaluarea riscurilor și utilizarea unor instrumente de siguranță precum Llama Guard 2 și Code Shield.

Llama Guard 2, construit pe taxonomia MLCommons, este proiectat pentru a clasifica intrările (prompturile) și răspunsurile LLM, detectând conținut care poate fi considerat nesigur sau dăunător. CyberSecEval 2 extinde predecesorul său prin adăugarea de măsuri pentru a preveni abuzul de interpretor de cod al modelului, capacități de securitate cibernetică ofensive și susceptibilitate la atacuri de injecție de prompt.

Code Shield, o nouă introducere cu Llama 3, adaugă filtrarea la timpul inferenței a codului nesigur produs de LLM, mitigând riscurile asociate cu sugestiile de cod nesigur, abuzul de interpretor de cod și execuția comenzilor securizate.

Accesarea și Utilizarea Llama 3

În urma lansării Llama 3 de către Meta AI, au fost puse la dispoziție mai multe instrumente open-source pentru implementare locală pe diverse sisteme de operare, inclusiv Mac, Windows și Linux. Această secțiune detaliază trei instrumente notabile: Ollama, Open WebUI și LM Studio, fiecare oferind funcții unice pentru valorificarea capacităților Llama 3 pe dispozitive personale.

Ollama: Disponibil pentru Mac, Linux și Windows, Ollama simplifică operarea Llama 3 și a altor modele de limbaj mare pe calculatoare personale, chiar și pe cele cu hardware mai puțin robust. Include un manager de pachete pentru gestionarea facilă a modelului și suportă comenzi pe platforme pentru descărcarea și rularea modelului.

Open WebUI cu Docker: Acest instrument oferă o interfață prietenoasă, bazată pe Docker, compatibilă cu Mac, Linux și Windows. Se integrează fără efort cu modelele din registrul Ollama, permițând utilizatorilor să implementeze și să interacționeze cu modele precum Llama 3 într-o interfață web locală.

LM Studio: Destinat utilizatorilor de pe Mac, Linux și Windows, LM Studio suportă o gamă de modele și este construit pe proiectul llama.cpp. Ofertă o interfață de chat și facilitează interacțiunea directă cu diverse modele, inclusiv modelul Llama 3 8B Instruct.

Aceste instrumente asigură că utilizatorii pot utiliza eficient Llama 3 pe dispozitivele lor personale, adaptându-se la o gamă largă de abilități tehnice și cerințe. Fiecare platformă oferă procese pas cu pas pentru configurare și interacțiune cu modelul, făcând ca inteligența artificială avansată să fie mai accesibilă pentru dezvoltatori și entuziaști.

Implementarea Llama 3 la Scară

În plus față de furnizarea directă a greutăților modelului, Meta a colaborat cu diverse furnizori de servicii cloud, servicii API de modele și platforme de hardware pentru a permite implementarea fără efort a Llama 3 la scară.

Unul dintre avantajele cheie ale Llama 3 este eficiența sa îmbunătățită de token, datorită noului tokenizer. Benchmark-urile arată că Llama 3 necesită până la 15% mai puțini tokeni în comparație cu Llama 2, ceea ce duce la inferențe mai rapide și mai rentabile.

Integrarea Attenției Grupate la Interogare (GQA) în versiunea 8B a Llama 3 contribuie la menținerea eficienței inferenței la nivelul versiunii 7B a Llama 2, în ciuda creșterii numărului de parametri.

Pentru a simplifica procesul de implementare, Meta a furnizat depozitul de rețete Llama, care conține cod open-source și exemple pentru reglare fină, implementare, evaluare a modelului și multe altele. Acest depozit servește ca o resursă valoroasă pentru dezvoltatorii care doresc să valorifice capacitățile Llama 3 în aplicațiile lor.

Pentru cei interesați de explorarea performanței Llama 3, Meta a integrat cele mai recente modele în Meta AI, un asistent AI de ultimă generație construit cu tehnologia Llama 3. Utilizatorii pot interacționa cu Meta AI prin diverse aplicații Meta, cum ar fi Facebook, Instagram, WhatsApp, Messenger și web, pentru a face lucruri, a învăța, a crea și a se conecta cu lucrurile care le sunt importante.

Ce Urmează pentru Llama 3?

În timp ce modelele de 8B și 70B marchează începutul lansării Llama 3, Meta are planuri ambițioase pentru viitorul acestui LLM revoluționar.

În lunile următoare, putem aștepta să vedem noi capacități introduse, inclusiv multimodalitate (capacitatea de a procesa și genera diferite modalități de date, cum ar fi imagini și videoclipuri), multilingvism (suport pentru multiple limbi) și ferestre de context mult mai lungi pentru o performanță îmbunătățită la sarcinile care necesită un context extins.

În plus, Meta planifică să lanseze dimensiuni de modele mai mari, inclusiv modele cu peste 400 de miliarde de parametri, care sunt în prezent în antrenare și arată tendințe promițătoare în ceea ce privește performanța și capacitățile.

Pentru a promova în continuare progresul în domeniu, Meta va publica, de asemenea, o lucrare de cercetare detaliată despre Llama 3, împărtășind descoperirile și insight-urile sale cu comunitatea AI mai largă.

Ca o previzualizare a ceea ce urmează, Meta a împărtășit câteva imagini timpurii ale performanței modelului său LLM cel mai mare pe diverse benchmark-uri. Deși aceste rezultate se bazează pe un punct de control timpuriu și sunt supuse schimbărilor, ele oferă o privire excitantă în potențialul viitor al Llama 3.

Concluzie

Llama 3 reprezintă o piatră de hotar semnificativă în evoluția modelului de limbaj mare open-source, împingând limitele performanței, capacităților și practicilor de dezvoltare responsabile. Cu arhitectura sa inovatoare, baza sa de date masivă de antrenare și tehnici de reglare fină de ultimă generație, Llama 3 stabilește noi benchmark-uri de ultimă generație pentru LLM la scara parametrilor de 8B și 70B.

Cu toate acestea, Llama 3 este mai mult decât doar un model de limbaj puternic; este o mărturie a angajamentului Meta de a promova un ecosistem AI deschis și responsabil. Prin furnizarea de resurse cuprinzătoare, instrumente de siguranță și cele mai bune practici, Meta împuternicește dezvoltatorii să valorifice pe deplin potențialul Llama 3, asigurând în același timp o implementare responsabilă, adaptată cazurilor lor de utilizare specifice și publicului țintă.

Pe măsură ce călătoria Llama 3 continuă, cu noi capacități, dimensiuni de modele și descoperiri de cercetare pe orizont, comunitatea AI așteaptă cu interes aplicațiile inovatoare și progresele care vor apărea, fără îndoială, din acest LLM revoluționar.

Indiferent dacă sunteți un cercetător care împinge limitele procesării limbajului natural, un dezvoltator care construiește următoarea generație de aplicații inteligente sau un entuziast AI curios despre ultimele progrese, Llama 3 promite să fie un instrument puternic în arsenalul dvs., deschizând noi uși și deblocând un univers de posibilități.

Am petrecut ultimii cinci ani scufundându-mă în lumea fascinantă a Învățării Automate și a Învățării Profunde. Pasiunea și expertiza mea m-au condus să contribui la peste 50 de proiecte diverse de inginerie software, cu un accent deosebit pe AI/ML. Curiozitatea mea continuă m-a atras și spre Procesarea Limbajului Natural, un domeniu pe care sunt dornic să-l explorez mai departe.