Connect with us

Kaikki mitä tarvitset tietää Llama 3:sta | Voimakkain avoimen lähdekoodin malli tähän asti | Käsitteistä käyttöön

Tekoäly

Kaikki mitä tarvitset tietää Llama 3:sta | Voimakkain avoimen lähdekoodin malli tähän asti | Käsitteistä käyttöön

mm
Meta Llama 3 open source LLM OUTPERFORM GPT 4

Meta on juuri julkaissut Llama 3:n, seuraavan sukupolven valmiista avoimen lähdekoodin suurista kielen mallista (LLM). Rakentamalla edellisen perustalle, Llama 3 pyrkii parantamaan kykyjä, jotka asettivat Llama 2: n merkittäväksi avoimen lähdekoodin kilpailijaksi ChatGPT:lle, kuten kattavassa arvostelussa artikkelissa Llama 2: Syvä analyysi avoimen lähdekoodin haastajasta ChatGPT:lle.

Tässä artikkelissa käymme läpi Llama 3:n peruskäsitteitä, tutkimme sen innovatiivista arkkitehtuuria ja koulutusprosessia, ja tarjoamme käytännön ohjeita siitä, miten pääset käyttämään ja käyttöön tämän uraauurtavan mallin vastuullisesti. Olitpa sitten tutkija, kehittäjä tai AI-entusiasti, tämä postaus varustaa sinut tietämyksellä ja resursseilla, joita tarvitset hyödyntämään Llama 3:n voimaa projekteissasi ja sovelluksissasi.

Llamman evoluutio: Llama 2:sta Llama 3:een

Metan toimitusjohtaja Mark Zuckerberg ilmoitti Llama 3:n julkaisusta, Meta AI:n kehittämästä uusimmasta AI-mallista. Tämä valmiin tilan malli, joka on nyt avoimen lähdekoodin, on tarkoitus parantaa Metan eri tuotteita, mukaan lukien Messenger ja Instagram. Zuckerberg korosti, että Llama 3 asettaa Meta AI:n eniten edistyneeksi vapaasti saatavilla olevaksi AI-apuriksi.

Ennen kuin puhumme Llama 3:n yksityiskohtia, käymme lyhyesti sen edeltäjän, Llama 2:n, läpi. Llama 2 esiteltiin vuonna 2022, ja se oli merkittävä merkkipaalu avoimen lähdekoodin LLM-maailmassa, tarjoten voimakkaan ja tehokkaan mallin, jota voitiin suorittaa kuluttajien laitteilla.

Llama 2:lla oli kuitenkin rajoituksia. Käyttäjät ilmoittivat ongelmista, kuten virheellisistä kieltäymisistä (malli kieltäytyi vastaamasta harmittomille kehotuksille), rajoitetusta hyödyllisyydestä ja parantamistarpeesta alueilla, kuten päättelyssä ja koodin luonnissa.

Tässä tulee Llama 3: Meta vastaa näihin haasteisiin ja yhteisön palautteeseen. Llama 3:ssa Meta on pyrkinyt rakentamaan parhaat avoimen lähdekoodin mallit, jotka ovat vertailukelpoisia parhaiden omistettujen mallien kanssa, ja samalla priorisoi vastuullisen kehityksen ja käyttöönoton käytännöt.

Llama 3: Arkkitehtuuri ja koulutus

Yksi Llama 3:n avaininnovaatioista on sen tokenisaattori, joka sisältää merkittävästi laajennetun sanastonsa, joka käsittää 128 256 tokenia (32 000 Llama 2:ssa). Tämä laajempi sanasto mahdollistaa tehokkaamman tekstin koodauksen sekä syötteen että tulosteen osalta, mikä voi johtaa vahvempiin monikielisiin ja yleisiin suorituskykyparannuksiin.

Llama 3 sisältää myös Grouped-Query Attention (GQA):n, tehokkaan edustamistekniikan, joka parantaa skaalautuvuutta ja auttaa mallia käsittelemään pidempiä konteksteja tehokkaammin. Llama 3:n 8B-versio käyttää GQA:ta, ja sekä 8B – että 70B -mallit voivat käsitellä jonoja, jotka ovat jopa 8 192 tokenia pitkiä.

Koulutusdata ja skaalautuvuus

Llama 3:n koulutusdata on tärkeä tekijä sen parantuneessa suorituskyvyssä. Meta keräsi massiivisen tietojoukon, joka käsittää yli 15 biljoonaa tokenia julkaistuista internet-lähteistä, seitsemän kertaa suuremman kuin Llama 2:lle käytetty tietojoukko. Tämä tietojoukko sisältää myös merkittävän osan (yli 5 %) laadukkaita ei-englanninkielisiä tietoja, jotka kattavat yli 30 kieltä, tulevien monikielisen soveltamisen valmisteluksi.

Tietojen laadun varmistamiseksi Meta käytti edistyneitä suodatusmenetelmiä, mukaan lukien heuristiikkasuodattimet, NSFW-suodattimet, semanttinen deduplikaatio ja tekstiluokittelijat, jotka on koulutettu Llama 2:lla tietojen laadun ennustamiseksi. Tiimi suoritti myös laajoja kokeita määrittämään optimaalisen tietolähteen seoksen esikoulutukselle, varmistaen, että Llama 3 toimii hyvin laajalla valikoimalla tehtävistä, mukaan lukien trivia, STEM, koodaus ja historiallinen tietämys.

Esikoulutuksen skaalauttaminen oli toinen kriittinen Llama 3:n kehityksen osa. Meta kehitti skaalautumislakeja, jotka mahdollistivat heidän ennustaa suurimpien mallien suorituskyvyn tärkeillä tehtävillä, kuten koodin luonnissa, ennen niiden kouluttamista. Tämä tiedonhallinta ohjasi päätöksiä tietolähteen seoksesta ja laskentaresurssien jakamisesta, mikä johti lopulta tehokkaampaan ja tehokkaampaan koulutukseen.

Llama 3:n suurimmat mallit koulutettiin kahdella räätälöidyllä 24 000 GPU-klusterilla, hyödyntäen tietojen rinnakkaisuutta, mallirinnakkaisuutta ja putkirinnakkaisuutta. Metan edistynyt koulutuspinos automaattisesti virheiden havaitsemisen, käsittelyn ja ylläpidon, maksimoimalla GPU-ajankäytön ja kasvattamalla koulutuksen tehokkuutta noin kolme kertaa verrattuna Llama 2:een.

Ohjeiden hienosäätö ja suorituskyky

Llama 3:n täydellisen potentiaalin lukitsemiseksi chat- ja dialogisovelluksissa Meta innovoi lähestymistapansa ohjeiden hienosäätöön. Menetelmä yhdistää valvottu hienosäätö (SFT), poissulkemisen näytteiden, proximaalisen politiikan optimoinnin (PPO) ja suoran preferenssin optimoinnin (DPO).

SFT:ssä ja PPO:ssa sekä DPO:ssa käytettyjen kehotteiden ja preferenssirankauksien laatu oli ratkaiseva tekijä mallien suorituskyvyssä. Metan tiimi huolehti tarkkaan tästä datasta ja suoritti useita laatuvarmistuspyyntöjä inhimillisten annotoijien antamista merkinnöistä.

Koulutus preferenssirankauksilla PPO:lla ja DPO:lla paransi myös merkittävästi Llama 3:n suorituskykyä päättely- ja koodaus-tehtävissä. Meta totesi, että vaikka malli kamppailee suoraan vastaamiseen päättelykysymyksiin, se voi silti tuottaa oikean päättelyjäljen. Koulutus preferenssirankauksilla mahdollisti mallin oppimisen valitsemaan oikean vastauksen näistä jäljistä.

Arena results

Tulokset puhuvat itsestään: Llama 3 ylittää useat saatavilla olevat avoimen lähdekoodin chat-mallit yleisillä teollisuusmittareilla, asettamalla uuden valmiin tilan suorituskyvyn LLM:lle 8B- ja 70B-parametriskaaloissa.

Vastuullinen kehitys ja turvallisuuden huomioon otto

Pyrkiessään saavuttamaan uraauurtavaa suorituskykyä Meta priorisoi myös vastuullisen kehityksen ja käyttöönoton käytännöt Llama 3:lle. Yritys omaksui järjestelmätasoiset lähestymistavat, nähdessään Llama 3 -malleja laajemman ekosysteemin osana, joka antaa kehittäjille mahdollisuuden suunnitella ja mukauttaa malleja tiettyihin käyttötapauksiin ja turvallisuusvaatimuksiin.

Meta suoritti laajoja red team -harjoituksia, suoritti vastakkainarvioita ja toteutti turvallisuuden vähentämismenetelmiä vähentämään jäännösriskiä sen ohjeistuksiin perustuvissa malleissa. Yritys kuitenkin tunnustaa, että jäännösriskit todennäköisesti säilyvät, ja suosittelee, että kehittäjien arvioivat nämä riskit tietyissä käyttötapauksissa.

Vastuullisen käyttöönoton tukemiseksi Meta on päivittänyt Vastuullisen käytön oppaan, tarjoamalla kattavan resurssin kehittäjille mallin ja järjestelmän turvallisuuden parhaiden käytäntöjen toteuttamiseksi sovelluksissaan. Oppaassa käsitellään aiheita, kuten sisällön moderointi, riskinarviointi ja turvallisuustyökalujen, kuten Llama Guard 2 ja Code Shield, käyttö.

Llama Guard 2, joka perustuu MLCommons-taksonomiaan, on suunniteltu luokittamaan LLM-syötteitä (kehotteita) ja vastauksia, havaitsemalla sisältöä, joka voidaan pitää epäturvallisena tai haitallisena. CyberSecEval 2 laajentaa edeltäjänsä lisäämällä toimenpiteitä estämään mallin koodin tulkkauksen väärinkäyttöä, hyökkäyssuunnitelman kykyjä ja herkkyyttä kehotteiden injektiohyökkäyksiä vastaan.

Code Shield, uusi esittely Llama 3:ssa, lisää laskennan aikaisen suodattamisen epäturvallista koodia, jota LLM:t tuottavat, lieventäen riskejä, jotka liittyvät epäturvalleen koodiehdotusten, koodin tulkkaamisen väärinkäytön ja turvallisen komentotulkkaamisen kanssa.

Llama 3:n käyttäminen

Metan Llama 3:n julkaisun jälkeen useita avoimen lähdekoodin työkaluja on julkaistu paikallista käyttöönottoa varten eri käyttöjärjestelmissä, mukaan lukien Mac, Windows ja Linux. Tässä osiossa kerrotaan kolmesta merkittävistä työkaluista: Ollama, Open WebUI ja LM Studio, joista kussakin on ainutlaatuisia ominaisuuksia Llama 3:n kykyjen hyödyntämiseksi henkilökohtaisilla laitteilla.

Ollama: Ollama on saatavilla Macille, Linuxille ja Windowsille, Ollama yksinkertaa Llama 3:n ja muiden suurten kielen mallien toimintaa henkilökohtaisilla tietokoneilla, jopa vähemmän tehokkailla laitteilla. Se sisältää pakettienhallinnan helposta mallinhallinnasta ja tukee komentoja eri alustoilla mallien lataamiseen ja suorittamiseen.

Open WebUI Dockerin kanssa: Tämä työkalu tarjoaa käyttäjäystävällisen, Docker-pohjaisen käyttöliittymän, joka on yhteensopiva Macin, Linuxin ja Windowsin kanssa. Se integroituu saumattomasti Ollaman rekisterin malleihin, mahdollistaen mallien, kuten Llama 3, käyttöönoton ja vuorovaikutuksen paikallisessa verkkoliittymässä.

LM Studio: LM Studio on suunnattu käyttäjille Macilla, Linuxilla ja Windowsilla, LM Studio tukee laajaa valikoimaa malleja ja perustuu llama.cpp-projektiin. Se tarjoaa chat-rajapinnan ja mahdollistaa suoran vuorovaikutuksen useiden mallien, mukaan lukien Llama 3 8B Instruct -mallin, kanssa.

Nämä työkalut varmistavat, että käyttäjät voivat käyttää Llama 3:aa tehokkaasti henkilökohtaisilla laitteilla, sopeutuen eri taitotasoihin ja vaatimuksiin. Kussakin alustassa on vaiheittaiset prosessit asetuksille ja mallien vuorovaikutukselle, mikä tekee edistyneestä AI:sta enemmän saatavilla kehittäjille ja entusiasteille.

Llama 3:n käyttöönotto suuressa mittakaavassa

Lisäksi mallipainojen suoraan saatavuuden tarjoamiseen Meta on yhteistyössä useiden pilvi-palveluntarjoajien, malli-API-palvelujen ja laitteistojen kanssa mahdollistaakseen Llama 3:n helpon käyttöönoton suuressa mittakaavassa.

Yksi Llama 3:n avainetuja on sen parannettu tokenitehokkuus uuden tokenisaattorin ansiosta. Mittaukset osoittavat, että Llama 3 tarvitsee jopa 15 % vähemmän tokenia verrattuna Llama 2:een, mikä johtaa nopeampaan ja kustannustehokkaampaan päätöksentekoon.

Llama 3:n 8B-versiossa käytettävän Grouped Query Attention (GQA):n integrointi edistää myös päätöksenteon tehokkuutta, joka on vertailukelpoinen 7B-version Llama 2:n kanssa, huolimatta parametrilukumäärän kasvusta.

Helpottamaan käyttöönottoa Meta on tarjonnut Llama Recipes -rekisterin, joka sisältää avoimen lähdekoodin koodia ja esimerkkejä hienosäätöä, käyttöönottoa, mallin arviointia ja muuta. Tämä rekisteri toimii arvokkaana resurssina kehittäjille, jotka haluavat hyödyntää Llama 3:n kykyjä sovelluksissaan.

Niille, jotka ovat kiinnostuneita Llama 3:n suorituskyvyn tutkimisesta, Meta on integroinut viimeisimmät mallinsa Meta AI:hin, johtavaan AI-apuriin, joka on rakennettu Llama 3 -tekniikalla. Käyttäjät voivat vuorovaikuttaa Meta AI:n kanssa eri Metan sovellusten kautta, kuten Facebook, Instagram, WhatsApp, Messenger ja web, saadakseen asioita tehtyä, oppiakseen, luodakseen ja yhteydenottokelpoisiksi asioihin, jotka heille merkitsevät.

Mitä seuraavaksi Llama 3:lle?

Vaikka 8B- ja 70B-mallit merkitsevät Llama 3-julkaisun alkua, Meta on kunnianhimoisia suunnitelmia tulevaisuuden osalta tästä uraauurtavasta LLM:stä.

Kuukausien kuluttua voidaan odottaa uusia kykyjä, mukaan lukien monimodaliteetti (kyky prosessoida ja luoda eri tietomuotoja, kuten kuvia ja videoita), monikielisyys (useiden kielten tuki) ja paljon pidemmät kontekstiuikkunat parantamaan suorituskykyä tehtävissä, jotka vaativat laajaa kontekstia.

Lisäksi Meta aikoo julkaista suurempia mallikokoja, mukaan lukien yli 400 miljardin parametrin mallit, jotka ovat parhaillaan koulutuksessa ja näyttävät lupaavia suorituskyky- ja kykytrendeja.

Edistääkseen alan kehitystä Meta julkaisee myös yksityiskohtaisen tutkimuspaperin Llama 3:sta, jakaa löytönsä ja havaintonsa laajemmalle AI-yhteisölle.

Esimakuna tulevasta voidaan mainita, että Meta on jakanut joitakin varhaisia otoksia suurimman LLM-mallinsa suorituskyvystä eri mittareilla. Vaikka nämä tulokset perustuvat varhaiseen checkpointiin ja ovat muutettavissa, ne antavat jännittävän esimakun Llama 3:n tulevasta potentiaalista.

Johtopäätös

Llama 3 edustaa merkittävää merkkipaaluja avoimen lähdekoodin suurten kielen mallien evoluutiossa, työntäen suorituskyvyn, kykyjen ja vastuullisen kehityksen käytäntöjen rajoja. Sen innovatiivisen arkkitehtuurin, massiivisen koulutusaineiston ja uraauurtavan hienosäätötekniikoiden ansiosta Llama 3 asettaa uudet valmiin tilan suorituskyky-benchmarkit LLM:lle 8B- ja 70B-parametriskaaloissa.

Llama 3 on kuitenkin enemmän kuin vain voimakas kielen malli; se on todiste Metan sitoutumisesta avoimen ja vastuullisen AI-ekosysteemin edistämiseen. Tarjoamalla kattavat resurssit, turvallisuustyökalut ja parhaiden käytäntöjen opas, Meta valmistaa kehittäjiä hyödyntämään Llama 3:n täydellistä potentiaalia soveltamalla sitä tiettyihin käyttötapauksiin ja yleisöihin.

Llama 3:n matka jatkuu, uusien kykyjen, mallikokojen ja tutkimustuloksien ollessa horisontissa, AI-yhteisö odottaa innostuneena innovatiivisia sovelluksia ja läpimurtoja, jotka ilmestyvät tästä uraauurtavasta LLM:stä.

Olet sitten tutkija, joka työntää luonnonkielen käsittelyn rajoja, kehittäjä, joka rakentaa seuraavan sukupolven älykkäitä sovelluksia, tai AI-entusiasti, joka on utelias viimeisimmistä edistysaskelista, Llama 3 lupailee olevan voimakas työkalu arsenaalissasi, avaen uusia ovia ja lukiten uuden maailman mahdollisuuksia.

Olen viettänyt viimeiset viisi vuotta uppoutumassa kiinnostavaan koneoppimisen ja syväoppimisen maailmaan. Intohimoni ja asiantuntemukseni ovat johtaneet minun osallistumiseen yli 50:een monipuoliseen ohjelmistosuunnitteluhankkeeseen, joissa on erityisesti painottunut tekoäly/ML. Jatkuva uteliaisuuteni on myös ohjannut minua kohti luonnollisen kielen prosessointia, alaa jota haluan tutkia tarkemmin.