Kunsmatige Intelligensie

Alles wat jy moet weet oor Llama 3 | Die kragtigste oopbronmodel nog | Konsepte vir gebruik

Opgedateer on April 24, 2024

Meta het onlangs vrygestel Lama 3, die volgende generasie van sy moderne oopbron-groottaalmodel (LLM). Voortbou op die fondamente wat deur sy voorganger gestel is, poog Llama 3 om die vermoëns te verbeter wat Llama 2 geposisioneer het as 'n beduidende oopbron-mededinger vir ChatGPT, soos uiteengesit in die omvattende oorsig in die artikel Lama 2: 'n Diep duik in die oopbron-uitdager om te chatGPT.

In hierdie artikel sal ons die kernkonsepte agter Llama 3 bespreek, die innoverende argitektuur en opleidingsproses daarvan verken, en praktiese leiding verskaf oor hoe om hierdie baanbrekende model verantwoordelik te verkry, te gebruik en te ontplooi. Of jy nou 'n navorser, ontwikkelaar of KI-entoesias is, hierdie pos sal jou toerus met die kennis en hulpbronne wat nodig is om die krag van Llama 3 vir jou projekte en toepassings te benut.

Die evolusie van lama: van lama 2 tot lama 3

Meta se uitvoerende hoof, Mark Zuckerberg, aangekondig die debuut van Llama 3, die nuutste KI-model wat deur Meta AI ontwikkel is. Hierdie moderne model, nou oopbron, gaan Meta se verskillende produkte, insluitend Messenger en Instagram, verbeter. Zuckerberg het beklemtoon dat Llama 3 Meta AI as die mees gevorderde posisioneer vrylik beskikbare KI-assistent.

Voordat ons oor die besonderhede van Llama 3 praat, kom ons kyk kortliks na sy voorganger, Llama 2. Llama 2022, wat in 2 bekendgestel is, was 'n belangrike mylpaal in die oopbron LLM-landskap, wat 'n kragtige en doeltreffende model bied wat op verbruikershardeware gebruik kan word .

Alhoewel Llama 2 'n noemenswaardige prestasie was, het dit sy beperkings gehad. Gebruikers het probleme met vals weiering aangemeld (die model wat weier om goedaardige opdragte te beantwoord), beperkte hulpvaardigheid en ruimte vir verbetering op gebiede soos redenering en kodegenerering.

Voer Llama 3 in: Meta se reaksie op hierdie uitdagings en die gemeenskap se terugvoer. Met Llama 3 het Meta daarop gemik om die beste oopbronmodelle te bou op gelyke voet met die top eie modelle wat vandag beskikbaar is, terwyl dit ook verantwoordelike ontwikkeling en implementeringspraktyke prioritiseer.

Lama 3: Argitektuur en Opleiding

Een van die belangrikste innovasies in Llama 3 is sy tokenizer, wat 'n aansienlik uitgebreide woordeskat van 128,256-tekens (op vanaf 32,000 2 in Lama XNUMX). Hierdie groter woordeskat maak voorsiening vir meer doeltreffende enkodering van teks, beide vir invoer en uitvoer, wat moontlik lei tot sterker veeltaligheid en algehele prestasieverbeterings.

Lama 3 inkorporeer ook Gegroepeerde-navraag aandag (GQA), 'n doeltreffende voorstellingstegniek wat skaalbaarheid verbeter en die model help om langer kontekste meer effektief te hanteer. Die 8B weergawe van Llama 3 gebruik GQA, terwyl beide die 8B en 70B modelle kan rye verwerk tot 8,192-tekens.

Opleidingsdata en skaal

Die opleidingsdata wat vir Llama 3 gebruik word, is 'n deurslaggewende faktor in sy verbeterde prestasie. Meta het 'n massiewe datastel van meer as saamgestel 15 triljoen tekens van publiek beskikbare aanlynbronne, sewe keer groter as die datastel wat vir Llama 2 gebruik word. Hierdie datastel sluit ook 'n beduidende gedeelte (meer as 5%) van hoëgehalte nie-Engelse data in, wat meer as 30 tale, ter voorbereiding vir toekomstige meertalige toepassings.

Om datakwaliteit te verseker, het Meta gevorderde filtertegnieke gebruik, insluitend heuristiese filters, NSFW-filters, semantiese deduplisering en teksklassifiseerders wat op Llama 2 opgelei is om datakwaliteit te voorspel. Die span het ook uitgebreide eksperimente uitgevoer om die optimale mengsel van databronne vir vooropleiding te bepaal, om te verseker dat Llama 3 goed presteer oor 'n wye reeks gebruiksgevalle, insluitend trivia, STEM, kodering en historiese kennis.

Om vooropleiding op te skaal was nog 'n kritieke aspek van Llama 3 se ontwikkeling. Meta het skaalwette ontwikkel wat hulle in staat gestel het om die prestasie van sy grootste modelle op sleuteltake, soos kodegenerering, te voorspel voordat hulle werklik opgelei word. Dit het die besluite oor datamengsel en berekeningstoewysing ingelig, wat uiteindelik tot meer doeltreffende en effektiewe opleiding gelei het.

Llama 3 se grootste modelle is opgelei op twee pasgemaakte 24,000 2 GPU-klusters, wat gebruik maak van 'n kombinasie van dataparallellisering, modelparallellisering en pyplynparallelliseringstegnieke. Meta se gevorderde opleidingstapel outomatiese foutopsporing, hantering en instandhouding, wat GPU-uptyd maksimeer en opleidingsdoeltreffendheid met ongeveer drie keer verhoog in vergelyking met Llama XNUMX.

Instruksie Fynafstelling en prestasie

Om Llama 3 se volle potensiaal vir klets- en dialoogtoepassings te ontsluit, het Meta sy benadering tot die fyninstelling van instruksies vernuwe. Sy metode kombineer fynafstelling onder toesig (SFT), verwerpingsteekproefneming, proksimale beleidsoptimering (PPO), en direkte voorkeuroptimering (DPO).

Die kwaliteit van die aansporings wat in SFT gebruik word en die voorkeurrangorde wat in PPO en DPO gebruik word, het 'n deurslaggewende rol gespeel in die prestasie van die belynde modelle. Meta se span het hierdie data noukeurig saamgestel en verskeie rondtes gehalteversekering uitgevoer op aantekeninge wat deur menslike annoteerders verskaf is.

Opleiding oor voorkeurrangorde via PPO en DPO het ook Llama 3 se prestasie op redenasie- en koderingstake aansienlik verbeter. Meta het gevind dat selfs wanneer 'n model sukkel om 'n redeneringsvraag direk te beantwoord, dit steeds die korrekte redeneringsspoor kan produseer. Opleiding oor voorkeurrangorde het die model in staat gestel om te leer hoe om die korrekte antwoord uit hierdie spore te kies.

Die resultate spreek vanself: Llama 3 presteer beter as baie beskikbare oopbron-kletsmodelle op algemene industrie-maatstawwe, wat nuwe, moderne prestasie vir LLM's op die 8B- en 70B-parameterskale vestig.

Verantwoordelike ontwikkeling en veiligheidsoorwegings

Terwyl sy voorpuntwerkverrigting nagestreef het, het Meta ook verantwoordelike ontwikkeling en ontplooiingspraktyke vir Llama 3 geprioritiseer. Die maatskappy het 'n stelselvlakbenadering aangeneem en Llama 3-modelle in die vooruitsig gestel as deel van 'n breër ekosisteem wat ontwikkelaars in die bestuurdersitplek plaas, wat hulle in staat stel om te ontwerp en pas die modelle aan vir hul spesifieke gebruiksgevalle en veiligheidsvereistes.

Meta het uitgebreide rooi-span-oefeninge uitgevoer, teenstrydige evaluasies uitgevoer en veiligheidsversagtingstegnieke geïmplementeer om oorblywende risiko's in sy instruksie-gestemde modelle te verlaag. Die maatskappy erken egter dat oorblywende risiko's waarskynlik sal bly en beveel aan dat ontwikkelaars hierdie risiko's in die konteks van hul spesifieke gebruiksgevalle beoordeel.

Om verantwoordelike ontplooiing te ondersteun, het Meta sy Verantwoordelike Gebruiksgids opgedateer, wat 'n omvattende hulpbron bied vir ontwikkelaars om model- en stelselvlak-veiligheid beste praktyke vir hul toepassings te implementeer. Die gids dek onderwerpe soos inhoudmoderering, risikobepaling en die gebruik van veiligheidsinstrumente soos Llama Guard 2 en Code Shield.

Llama Guard 2, gebou op die MLCommons-taksonomie, is ontwerp om LLM-insette (opdragte) en reaksies te klassifiseer, om inhoud op te spoor wat as onveilig of skadelik beskou kan word. CyberSecEval 2 brei uit op sy voorganger deur maatreëls by te voeg om misbruik van die model se kode-tolk, aanstootlike kubersekuriteitsvermoëns en vatbaarheid vir vinnige inspuitingsaanvalle te voorkom.

Code Shield, 'n nuwe inleiding met Llama 3, voeg inferensie-tyd-filtrering by van onveilige kode wat deur LLM's vervaardig word, wat risiko's wat verband hou met onveilige kodevoorstelle, kode-tolkmisbruik en veilige uitvoering van opdragte verminder.

Toegang tot en gebruik van Lama 3

Na die bekendstelling van Meta AI se Llama 3, is verskeie oopbronnutsmiddels beskikbaar gestel vir plaaslike implementering op verskeie bedryfstelsels, insluitend Mac, Windows en Linux. Hierdie afdeling beskryf drie noemenswaardige instrumente: Ollama, Open WebUI en LM Studio, wat elkeen unieke kenmerke bied om Llama 3 se vermoëns op persoonlike toestelle te benut.

Ollama: Beskikbaar vir Mac, Linux en Windows, Ollama vereenvoudig die werking van Llama 3 en ander groot taalmodelle op persoonlike rekenaars, selfs dié met minder robuuste hardeware. Dit bevat 'n pakketbestuurder vir maklike modelbestuur en ondersteun opdragte oor platforms om modelle af te laai en te laat loop.

Maak WebUI oop met Docker: Hierdie instrument bied 'n gebruikersvriendelike, Docker-gebaseerde koppelvlak versoenbaar met Mac, Linux en Windows. Dit integreer naatloos met modelle van die Ollama-register, wat gebruikers in staat stel om modelle soos Llama 3 binne 'n plaaslike webkoppelvlak te ontplooi en daarmee te kommunikeer.

LM Studio: Gebruikers teiken op Mac, Linux en Windows, LM Studio ondersteun 'n reeks modelle en is gebou op die llama.cpp-projek. Dit bied 'n kletskoppelvlak en fasiliteer direkte interaksie met verskeie modelle, insluitend die Llama 3 8B Instruct-model.

Hierdie instrumente verseker dat gebruikers Llama 3 doeltreffend op hul persoonlike toestelle kan gebruik, wat 'n reeks tegniese vaardighede en vereistes akkommodeer. Elke platform bied stap-vir-stap prosesse vir opstelling en modelinteraksie, wat gevorderde AI meer toeganklik maak vir ontwikkelaars en entoesiaste.

Ontplooi Llama 3 op skaal

Benewens die verskaffing van direkte toegang tot die modelgewigte, het Meta saamgewerk met verskeie wolkverskaffers, model-API-dienste en hardewareplatforms om naatlose ontplooiing van Llama 3 op skaal moontlik te maak.

Een van die belangrikste voordele van Llama 3 is sy verbeterde token-doeltreffendheid, danksy die nuwe tokenizer. Maatstawwe toon dat Llama 3 vereis tot 15% minder tokens in vergelyking met Lama 2, wat lei tot vinniger en meer koste-effektiewe afleiding.

Die integrasie van Grouped Query Attention (GQA) in die 8B-weergawe van Llama 3 dra by tot die handhawing van afleidingsdoeltreffendheid op gelyke voet met die 7B-weergawe van Llama 2, ten spyte van die toename in parametertelling.

Om die ontplooiingsproses te vereenvoudig, het Meta die Llama Recipes-bewaarplek verskaf, wat oopbronkode en voorbeelde bevat vir fyninstelling, ontplooiing, model-evaluering, en meer. Hierdie bewaarplek dien as 'n waardevolle hulpbron vir ontwikkelaars wat Llama 3 se vermoëns in hul toepassings wil benut.

Vir diegene wat belangstel om Llama 3 se werkverrigting te verken, het Meta sy nuutste modelle geïntegreer in Meta AI, 'n toonaangewende KI-assistent wat met Llama 3-tegnologie gebou is. Gebruikers kan met Meta AI interaksie hê deur middel van verskeie Meta-toepassings, soos Facebook, Instagram, WhatsApp, Messenger en die web, om dinge gedoen te kry, te leer, te skep en te verbind met die dinge wat vir hulle saak maak.

Wat is volgende vir Llama 3?

Terwyl die 8B- en 70B-modelle die begin van die Llama 3-vrystelling aandui, het Meta ambisieuse planne vir die toekoms van hierdie baanbrekende LLM.

In die komende maande kan ons verwag om nuwe vermoëns ingestel te sien, insluitend multimodaliteit (die vermoë om verskillende datamodaliteite te verwerk en te genereer, soos beelde en video's), veeltaligheid (ondersteuning van veelvuldige tale), en baie langer konteksvensters vir verbeterde werkverrigting op take wat uitgebreide konteks vereis.

Daarbenewens beplan Meta om groter modelgroottes vry te stel, insluitend modelle met meer as 400 miljard parameters, wat tans in opleiding is en belowende neigings toon in terme van werkverrigting en vermoëns.

Om die veld verder te bevorder, sal Meta ook 'n gedetailleerde navorsingsartikel oor Llama 3 publiseer en sy bevindinge en insigte met die breër KI-gemeenskap deel.

As 'n voorsmakie van wat voorlê, het Meta 'n paar vroeë kiekies van sy grootste LLM-model se prestasie op verskeie maatstawwe gedeel. Alhoewel hierdie resultate op 'n vroeë kontrolepunt gebaseer is en onderhewig is aan verandering, bied dit 'n opwindende blik op die toekomstige potensiaal van Llama 3.

Gevolgtrekking

Llama 3 verteenwoordig 'n belangrike mylpaal in die evolusie van oopbron-groot taalmodelle, wat die grense van prestasie, vermoëns en verantwoordelike ontwikkelingspraktyke verskuif. Met sy innoverende argitektuur, massiewe opleidingsdatastel en die nuutste verfyn-tegnieke, stel Llama 3 nuwe moderne maatstawwe vir LLM's op die 8B- en 70B-parameterskale.

Llama 3 is egter meer as net 'n kragtige taalmodel; dit is 'n bewys van Meta se verbintenis tot die bevordering van 'n oop en verantwoordelike KI-ekosisteem. Deur omvattende hulpbronne, veiligheidsinstrumente en beste praktyke te verskaf, bemagtig Meta ontwikkelaars om die volle potensiaal van Llama 3 te benut, terwyl dit verseker dat verantwoordelike ontplooiing aangepas is vir hul spesifieke gebruiksgevalle en gehore.

Terwyl die Llama 3-reis voortduur, met nuwe vermoëns, modelgroottes en navorsingsbevindinge op die horison, wag die KI-gemeenskap gretig op die innoverende toepassings en deurbrake wat ongetwyfeld uit hierdie baanbrekende LLM sal voortspruit.

Of jy nou 'n navorser is wat die grense van natuurlike taalverwerking verskuif, 'n ontwikkelaar is wat die volgende generasie intelligente toepassings bou, of 'n KI-entoesias wat nuuskierig is oor die jongste vordering, Llama 3 beloof om 'n kragtige instrument in jou arsenaal te wees, wat nuwe deure oopmaak en 'n wêreld van moontlikhede te ontsluit.

Verwante onderwerpe:vlam lama 2 Lama 3 LLM LLM's meta

Microsoft onthul Phi-3: Kragtige oop KI-modelle wat topprestasie by klein groottes lewer

Moenie mis nie

FrugalGPT: 'n Paradigmaskuif in kosteoptimalisering vir groot taalmodelle

Aayush Mittal

Ek het die afgelope vyf jaar my verdiep in die fassinerende wêreld van Masjienleer en Deep Learning. My passie en kundigheid het daartoe gelei dat ek bygedra het tot meer as 50 diverse sagteware-ingenieursprojekte, met 'n spesifieke fokus op KI/ML. My voortdurende nuuskierigheid het my ook na natuurlike taalverwerking gelok, 'n veld wat ek gretig is om verder te verken.