Tekoäly
Kaikki mitä tarvitset tietää Llama 3:sta | Voimakkain avoimen lähdekoodin malli tähän asti | Käsitteistä käyttöön
Meta on juuri julkaissut Llama 3:n, seuraavan sukupolven valmiista avoimen lähdekoodin suurista kielen mallista (LLM). Rakentamalla edellisen perustalle, Llama 3 pyrkii parantamaan kykyjä, jotka asettivat Llama 2: n merkittäväksi avoimen lähdekoodin kilpailijaksi ChatGPT:lle, kuten kattavassa arvostelussa artikkelissa Llama 2: Syvä analyysi avoimen lähdekoodin haastajasta ChatGPT:lle.
Tässä artikkelissa käymme läpi Llama 3:n peruskäsitteitä, tutkimme sen innovatiivista arkkitehtuuria ja koulutusprosessia, ja tarjoamme käytännön ohjeita siitä, miten pääset käyttämään ja käyttöön tämän uraauurtavan mallin vastuullisesti. Olitpa sitten tutkija, kehittäjä tai AI-entusiasti, tämä postaus varustaa sinut tietämyksellä ja resursseilla, joita tarvitset hyödyntämään Llama 3:n voimaa projekteissasi ja sovelluksissasi.
Llamman evoluutio: Llama 2:sta Llama 3:een
Metan toimitusjohtaja Mark Zuckerberg ilmoitti Llama 3:n julkaisusta, Meta AI:n kehittämästä uusimmasta AI-mallista. Tämä valmiin tilan malli, joka on nyt avoimen lähdekoodin, on tarkoitus parantaa Metan eri tuotteita, mukaan lukien Messenger ja Instagram. Zuckerberg korosti, että Llama 3 asettaa Meta AI:n eniten edistyneeksi vapaasti saatavilla olevaksi AI-apuriksi.
Ennen kuin puhumme Llama 3:n yksityiskohtia, käymme lyhyesti sen edeltäjän, Llama 2:n, läpi. Llama 2 esiteltiin vuonna 2022, ja se oli merkittävä merkkipaalu avoimen lähdekoodin LLM-maailmassa, tarjoten voimakkaan ja tehokkaan mallin, jota voitiin suorittaa kuluttajien laitteilla.
Llama 2:lla oli kuitenkin rajoituksia. Käyttäjät ilmoittivat ongelmista, kuten virheellisistä kieltäymisistä (malli kieltäytyi vastaamasta harmittomille kehotuksille), rajoitetusta hyödyllisyydestä ja parantamistarpeesta alueilla, kuten päättelyssä ja koodin luonnissa.
Tässä tulee Llama 3: Meta vastaa näihin haasteisiin ja yhteisön palautteeseen. Llama 3:ssa Meta on pyrkinyt rakentamaan parhaat avoimen lähdekoodin mallit, jotka ovat vertailukelpoisia parhaiden omistettujen mallien kanssa, ja samalla priorisoi vastuullisen kehityksen ja käyttöönoton käytännöt.
Llama 3: Arkkitehtuuri ja koulutus
Yksi Llama 3:n avaininnovaatioista on sen tokenisaattori, joka sisältää merkittävästi laajennetun sanastonsa, joka käsittää 128 256 tokenia (32 000 Llama 2:ssa). Tämä laajempi sanasto mahdollistaa tehokkaamman tekstin koodauksen sekä syötteen että tulosteen osalta, mikä voi johtaa vahvempiin monikielisiin ja yleisiin suorituskykyparannuksiin.
Llama 3 sisältää myös Grouped-Query Attention (GQA):n, tehokkaan edustamistekniikan, joka parantaa skaalautuvuutta ja auttaa mallia käsittelemään pidempiä konteksteja tehokkaammin. Llama 3:n 8B-versio käyttää GQA:ta, ja sekä 8B – että 70B -mallit voivat käsitellä jonoja, jotka ovat jopa 8 192 tokenia pitkiä.
Koulutusdata ja skaalautuvuus
Llama 3:n koulutusdata on tärkeä tekijä sen parantuneessa suorituskyvyssä. Meta keräsi massiivisen tietojoukon, joka käsittää yli 15 biljoonaa tokenia julkaistuista internet-lähteistä, seitsemän kertaa suuremman kuin Llama 2:lle käytetty tietojoukko. Tämä tietojoukko sisältää myös merkittävän osan (yli 5 %) laadukkaita ei-englanninkielisiä tietoja, jotka kattavat yli 30 kieltä, tulevien monikielisen soveltamisen valmisteluksi.
Tietojen laadun varmistamiseksi Meta käytti edistyneitä suodatusmenetelmiä, mukaan lukien heuristiikkasuodattimet, NSFW-suodattimet, semanttinen deduplikaatio ja tekstiluokittelijat, jotka on koulutettu Llama 2:lla tietojen laadun ennustamiseksi. Tiimi suoritti myös laajoja kokeita määrittämään optimaalisen tietolähteen seoksen esikoulutukselle, varmistaen, että Llama 3 toimii hyvin laajalla valikoimalla tehtävistä, mukaan lukien trivia, STEM, koodaus ja historiallinen tietämys.
Esikoulutuksen skaalauttaminen oli toinen kriittinen Llama 3:n kehityksen osa. Meta kehitti skaalautumislakeja, jotka mahdollistivat heidän ennustaa suurimpien mallien suorituskyvyn tärkeillä tehtävillä, kuten koodin luonnissa, ennen niiden kouluttamista. Tämä tiedonhallinta ohjasi päätöksiä tietolähteen seoksesta ja laskentaresurssien jakamisesta, mikä johti lopulta tehokkaampaan ja tehokkaampaan koulutukseen.
Llama 3:n suurimmat mallit koulutettiin kahdella räätälöidyllä 24 000 GPU-klusterilla, hyödyntäen tietojen rinnakkaisuutta, mallirinnakkaisuutta ja putkirinnakkaisuutta. Metan edistynyt koulutuspinos automaattisesti virheiden havaitsemisen, käsittelyn ja ylläpidon, maksimoimalla GPU-ajankäytön ja kasvattamalla koulutuksen tehokkuutta noin kolme kertaa verrattuna Llama 2:een.
Ohjeiden hienosäätö ja suorituskyky
Llama 3:n täydellisen potentiaalin lukitsemiseksi chat- ja dialogisovelluksissa Meta innovoi lähestymistapansa ohjeiden hienosäätöön. Menetelmä yhdistää valvottu hienosäätö (SFT), poissulkemisen näytteiden, proximaalisen politiikan optimoinnin (PPO) ja suoran preferenssin optimoinnin (DPO).
SFT:ssä ja PPO:ssa sekä DPO:ssa käytettyjen kehotteiden ja preferenssirankauksien laatu oli ratkaiseva tekijä mallien suorituskyvyssä. Metan tiimi huolehti tarkkaan tästä datasta ja suoritti useita laatuvarmistuspyyntöjä inhimillisten annotoijien antamista merkinnöistä.
Koulutus preferenssirankauksilla PPO:lla ja DPO:lla paransi myös merkittävästi Llama 3:n suorituskykyä päättely- ja koodaus-tehtävissä. Meta totesi, että vaikka malli kamppailee suoraan vastaamiseen päättelykysymyksiin, se voi silti tuottaa oikean päättelyjäljen. Koulutus preferenssirankauksilla mahdollisti mallin oppimisen valitsemaan oikean vastauksen näistä jäljistä.
Tulokset puhuvat itsestään: Llama 3 ylittää useat saatavilla olevat avoimen lähdekoodin chat-mallit yleisillä teollisuusmittareilla, asettamalla uuden valmiin tilan suorituskyvyn LLM:lle 8B- ja 70B-parametriskaaloissa.
Vastuullinen kehitys ja turvallisuuden huomioon otto
Pyrkiessään saavuttamaan uraauurtavaa suorituskykyä Meta priorisoi myös vastuullisen kehityksen ja käyttöönoton käytännöt Llama 3:lle. Yritys omaksui järjestelmätasoiset lähestymistavat, nähdessään Llama 3 -malleja laajemman ekosysteemin osana, joka antaa kehittäjille mahdollisuuden suunnitella ja mukauttaa malleja tiettyihin käyttötapauksiin ja turvallisuusvaatimuksiin.
Meta suoritti laajoja red team -harjoituksia, suoritti vastakkainarvioita ja toteutti turvallisuuden vähentämismenetelmiä vähentämään jäännösriskiä sen ohjeistuksiin perustuvissa malleissa. Yritys kuitenkin tunnustaa, että jäännösriskit todennäköisesti säilyvät, ja suosittelee, että kehittäjien arvioivat nämä riskit tietyissä käyttötapauksissa.
Vastuullisen käyttöönoton tukemiseksi Meta on päivittänyt Vastuullisen käytön oppaan, tarjoamalla kattavan resurssin kehittäjille mallin ja järjestelmän turvallisuuden parhaiden käytäntöjen toteuttamiseksi sovelluksissaan. Oppaassa käsitellään aiheita, kuten sisällön moderointi, riskinarviointi ja turvallisuustyökalujen, kuten Llama Guard 2 ja Code Shield, käyttö.
Llama Guard 2, joka perustuu MLCommons-taksonomiaan, on suunniteltu luokittamaan LLM-syötteitä (kehotteita) ja vastauksia, havaitsemalla sisältöä, joka voidaan pitää epäturvallisena tai haitallisena. CyberSecEval 2 laajentaa edeltäjänsä lisäämällä toimenpiteitä estämään mallin koodin tulkkauksen väärinkäyttöä, hyökkäyssuunnitelman kykyjä ja herkkyyttä kehotteiden injektiohyökkäyksiä vastaan.
Code Shield, uusi esittely Llama 3:ssa, lisää laskennan aikaisen suodattamisen epäturvallista koodia, jota LLM:t tuottavat, lieventäen riskejä, jotka liittyvät epäturvalleen koodiehdotusten, koodin tulkkaamisen väärinkäytön ja turvallisen komentotulkkaamisen kanssa.
Llama 3:n käyttäminen
Metan Llama 3:n julkaisun jälkeen useita avoimen lähdekoodin työkaluja on julkaistu paikallista käyttöönottoa varten eri käyttöjärjestelmissä, mukaan lukien Mac, Windows ja Linux. Tässä osiossa kerrotaan kolmesta merkittävistä työkaluista: Ollama, Open WebUI ja LM Studio, joista kussakin on ainutlaatuisia ominaisuuksia Llama 3:n kykyjen hyödyntämiseksi henkilökohtaisilla laitteilla.
Ollama: Ollama on saatavilla Macille, Linuxille ja Windowsille, Ollama yksinkertaa Llama 3:n ja muiden suurten kielen mallien toimintaa henkilökohtaisilla tietokoneilla, jopa vähemmän tehokkailla laitteilla. Se sisältää pakettienhallinnan helposta mallinhallinnasta ja tukee komentoja eri alustoilla mallien lataamiseen ja suorittamiseen.
Open WebUI Dockerin kanssa: Tämä työkalu tarjoaa käyttäjäystävällisen, Docker-pohjaisen käyttöliittymän, joka on yhteensopiva Macin, Linuxin ja Windowsin kanssa. Se integroituu saumattomasti Ollaman rekisterin malleihin, mahdollistaen mallien, kuten Llama 3, käyttöönoton ja vuorovaikutuksen paikallisessa verkkoliittymässä.
LM Studio: LM Studio on suunnattu käyttäjille Macilla, Linuxilla ja Windowsilla, LM Studio tukee laajaa valikoimaa malleja ja perustuu llama.cpp-projektiin. Se tarjoaa chat-rajapinnan ja mahdollistaa suoran vuorovaikutuksen useiden mallien, mukaan lukien Llama 3 8B Instruct -mallin, kanssa.
Nämä työkalut varmistavat, että käyttäjät voivat käyttää Llama 3:aa tehokkaasti henkilökohtaisilla laitteilla, sopeutuen eri taitotasoihin ja vaatimuksiin. Kussakin alustassa on vaiheittaiset prosessit asetuksille ja mallien vuorovaikutukselle, mikä tekee edistyneestä AI:sta enemmän saatavilla kehittäjille ja entusiasteille.















