Kunsmatige Intelligensie
Alles wat jy moet weet oor Llama 3 | Die kragtigste oopbronmodel nog | Konsepte vir gebruik
Meta het onlangs vrygestel Lama 3, die volgende generasie van sy moderne oopbron-groottaalmodel (LLM). Voortbou op die fondamente wat deur sy voorganger gestel is, poog Llama 3 om die vermoëns te verbeter wat Llama 2 geposisioneer het as 'n beduidende oopbron-mededinger vir ChatGPT, soos uiteengesit in die omvattende oorsig in die artikel Lama 2: 'n Diep duik in die oopbron-uitdager om te chatGPT.
In hierdie artikel sal ons die kernkonsepte agter Llama 3 bespreek, die innoverende argitektuur en opleidingsproses daarvan verken, en praktiese leiding verskaf oor hoe om hierdie baanbrekende model verantwoordelik te verkry, te gebruik en te ontplooi. Of jy nou 'n navorser, ontwikkelaar of KI-entoesias is, hierdie pos sal jou toerus met die kennis en hulpbronne wat nodig is om die krag van Llama 3 vir jou projekte en toepassings te benut.
Die evolusie van lama: van lama 2 tot lama 3
Meta se uitvoerende hoof, Mark Zuckerberg, aangekondig die debuut van Llama 3, die nuutste KI-model wat deur Meta AI ontwikkel is. Hierdie moderne model, nou oopbron, gaan Meta se verskillende produkte, insluitend Messenger en Instagram, verbeter. Zuckerberg het beklemtoon dat Llama 3 Meta AI as die mees gevorderde posisioneer vrylik beskikbare KI-assistent.
Voordat ons oor die besonderhede van Llama 3 praat, kom ons kyk kortliks na sy voorganger, Llama 2. Llama 2022, wat in 2 bekendgestel is, was 'n belangrike mylpaal in die oopbron LLM-landskap, wat 'n kragtige en doeltreffende model bied wat op verbruikershardeware gebruik kan word .
Alhoewel Llama 2 'n noemenswaardige prestasie was, het dit sy beperkings gehad. Gebruikers het probleme met vals weiering aangemeld (die model wat weier om goedaardige opdragte te beantwoord), beperkte hulpvaardigheid en ruimte vir verbetering op gebiede soos redenering en kodegenerering.
Voer Llama 3 in: Meta se reaksie op hierdie uitdagings en die gemeenskap se terugvoer. Met Llama 3 het Meta daarop gemik om die beste oopbronmodelle te bou op gelyke voet met die top eie modelle wat vandag beskikbaar is, terwyl dit ook verantwoordelike ontwikkeling en implementeringspraktyke prioritiseer.
Lama 3: Argitektuur en Opleiding
Een van die belangrikste innovasies in Llama 3 is sy tokenizer, wat 'n aansienlik uitgebreide woordeskat van 128,256-tekens (op vanaf 32,000 2 in Lama XNUMX). Hierdie groter woordeskat maak voorsiening vir meer doeltreffende enkodering van teks, beide vir invoer en uitvoer, wat moontlik lei tot sterker veeltaligheid en algehele prestasieverbeterings.
Lama 3 inkorporeer ook Gegroepeerde-navraag aandag (GQA), 'n doeltreffende voorstellingstegniek wat skaalbaarheid verbeter en die model help om langer kontekste meer effektief te hanteer. Die 8B weergawe van Llama 3 gebruik GQA, terwyl beide die 8B en 70B modelle kan rye verwerk tot 8,192-tekens.
Opleidingsdata en skaal
Die opleidingsdata wat vir Llama 3 gebruik word, is 'n deurslaggewende faktor in sy verbeterde prestasie. Meta het 'n massiewe datastel van meer as saamgestel 15 triljoen tekens van publiek beskikbare aanlynbronne, sewe keer groter as die datastel wat vir Llama 2 gebruik word. Hierdie datastel sluit ook 'n beduidende gedeelte (meer as 5%) van hoëgehalte nie-Engelse data in, wat meer as 30 tale, ter voorbereiding vir toekomstige meertalige toepassings.
Om datakwaliteit te verseker, het Meta gevorderde filtertegnieke gebruik, insluitend heuristiese filters, NSFW-filters, semantiese deduplisering en teksklassifiseerders wat op Llama 2 opgelei is om datakwaliteit te voorspel. Die span het ook uitgebreide eksperimente uitgevoer om die optimale mengsel van databronne vir vooropleiding te bepaal, om te verseker dat Llama 3 goed presteer oor 'n wye reeks gebruiksgevalle, insluitend trivia, STEM, kodering en historiese kennis.
Om vooropleiding op te skaal was nog 'n kritieke aspek van Llama 3 se ontwikkeling. Meta het skaalwette ontwikkel wat hulle in staat gestel het om die prestasie van sy grootste modelle op sleuteltake, soos kodegenerering, te voorspel voordat hulle werklik opgelei word. Dit het die besluite oor datamengsel en berekeningstoewysing ingelig, wat uiteindelik tot meer doeltreffende en effektiewe opleiding gelei het.
Llama 3 se grootste modelle is opgelei op twee pasgemaakte 24,000 2 GPU-klusters, wat gebruik maak van 'n kombinasie van dataparallellisering, modelparallellisering en pyplynparallelliseringstegnieke. Meta se gevorderde opleidingstapel outomatiese foutopsporing, hantering en instandhouding, wat GPU-uptyd maksimeer en opleidingsdoeltreffendheid met ongeveer drie keer verhoog in vergelyking met Llama XNUMX.
Instruksie Fynafstelling en prestasie
Om Llama 3 se volle potensiaal vir klets- en dialoogtoepassings te ontsluit, het Meta sy benadering tot die fyninstelling van instruksies vernuwe. Sy metode kombineer fynafstelling onder toesig (SFT), verwerpingsteekproefneming, proksimale beleidsoptimering (PPO), en direkte voorkeuroptimering (DPO).
Die kwaliteit van die aansporings wat in SFT gebruik word en die voorkeurrangorde wat in PPO en DPO gebruik word, het 'n deurslaggewende rol gespeel in die prestasie van die belynde modelle. Meta se span het hierdie data noukeurig saamgestel en verskeie rondtes gehalteversekering uitgevoer op aantekeninge wat deur menslike annoteerders verskaf is.
Opleiding oor voorkeurrangorde via PPO en DPO het ook Llama 3 se prestasie op redenasie- en koderingstake aansienlik verbeter. Meta het gevind dat selfs wanneer 'n model sukkel om 'n redeneringsvraag direk te beantwoord, dit steeds die korrekte redeneringsspoor kan produseer. Opleiding oor voorkeurrangorde het die model in staat gestel om te leer hoe om die korrekte antwoord uit hierdie spore te kies.
Die resultate spreek vanself: Llama 3 presteer beter as baie beskikbare oopbron-kletsmodelle op algemene industrie-maatstawwe, wat nuwe, moderne prestasie vir LLM's op die 8B- en 70B-parameterskale vestig.
Verantwoordelike ontwikkeling en veiligheidsoorwegings
Terwyl sy voorpuntwerkverrigting nagestreef het, het Meta ook verantwoordelike ontwikkeling en ontplooiingspraktyke vir Llama 3 geprioritiseer. Die maatskappy het 'n stelselvlakbenadering aangeneem en Llama 3-modelle in die vooruitsig gestel as deel van 'n breër ekosisteem wat ontwikkelaars in die bestuurdersitplek plaas, wat hulle in staat stel om te ontwerp en pas die modelle aan vir hul spesifieke gebruiksgevalle en veiligheidsvereistes.
Meta het uitgebreide rooi-span-oefeninge uitgevoer, teenstrydige evaluasies uitgevoer en veiligheidsversagtingstegnieke geïmplementeer om oorblywende risiko's in sy instruksie-gestemde modelle te verlaag. Die maatskappy erken egter dat oorblywende risiko's waarskynlik sal bly en beveel aan dat ontwikkelaars hierdie risiko's in die konteks van hul spesifieke gebruiksgevalle beoordeel.
Om verantwoordelike ontplooiing te ondersteun, het Meta sy Verantwoordelike Gebruiksgids opgedateer, wat 'n omvattende hulpbron bied vir ontwikkelaars om model- en stelselvlak-veiligheid beste praktyke vir hul toepassings te implementeer. Die gids dek onderwerpe soos inhoudmoderering, risikobepaling en die gebruik van veiligheidsinstrumente soos Llama Guard 2 en Code Shield.
Llama Guard 2, gebou op die MLCommons-taksonomie, is ontwerp om LLM-insette (opdragte) en reaksies te klassifiseer, om inhoud op te spoor wat as onveilig of skadelik beskou kan word. CyberSecEval 2 brei uit op sy voorganger deur maatreëls by te voeg om misbruik van die model se kode-tolk, aanstootlike kubersekuriteitsvermoëns en vatbaarheid vir vinnige inspuitingsaanvalle te voorkom.
Code Shield, 'n nuwe inleiding met Llama 3, voeg inferensie-tyd-filtrering by van onveilige kode wat deur LLM's vervaardig word, wat risiko's wat verband hou met onveilige kodevoorstelle, kode-tolkmisbruik en veilige uitvoering van opdragte verminder.
Toegang tot en gebruik van Lama 3
Na die bekendstelling van Meta AI se Llama 3, is verskeie oopbronnutsmiddels beskikbaar gestel vir plaaslike implementering op verskeie bedryfstelsels, insluitend Mac, Windows en Linux. Hierdie afdeling beskryf drie noemenswaardige instrumente: Ollama, Open WebUI en LM Studio, wat elkeen unieke kenmerke bied om Llama 3 se vermoëns op persoonlike toestelle te benut.
Ollama: Beskikbaar vir Mac, Linux en Windows, Ollama vereenvoudig die werking van Llama 3 en ander groot taalmodelle op persoonlike rekenaars, selfs dié met minder robuuste hardeware. Dit bevat 'n pakketbestuurder vir maklike modelbestuur en ondersteun opdragte oor platforms om modelle af te laai en te laat loop.
Maak WebUI oop met Docker: Hierdie instrument bied 'n gebruikersvriendelike, Docker-gebaseerde koppelvlak versoenbaar met Mac, Linux en Windows. Dit integreer naatloos met modelle van die Ollama-register, wat gebruikers in staat stel om modelle soos Llama 3 binne 'n plaaslike webkoppelvlak te ontplooi en daarmee te kommunikeer.
LM Studio: Gebruikers teiken op Mac, Linux en Windows, LM Studio ondersteun 'n reeks modelle en is gebou op die llama.cpp-projek. Dit bied 'n kletskoppelvlak en fasiliteer direkte interaksie met verskeie modelle, insluitend die Llama 3 8B Instruct-model.
Hierdie instrumente verseker dat gebruikers Llama 3 doeltreffend op hul persoonlike toestelle kan gebruik, wat 'n reeks tegniese vaardighede en vereistes akkommodeer. Elke platform bied stap-vir-stap prosesse vir opstelling en modelinteraksie, wat gevorderde AI meer toeganklik maak vir ontwikkelaars en entoesiaste.