Kunstig intelligens
Alt du trenger å vite om Llama 3 | Den mest avanserte åpne kildekodemodellen hittil | Konsepter til bruk
Meta har nylig lansert Llama 3, den neste generasjonen av sin statiske åpne kildekodemodell (LLM). Bygget på grunnlag av det som ble etablert av sin forgjenger, har Llama 3 som mål å forbedre evnene som gjorde Llama 2 til en betydelig åpen kildekodemodell-konkurrent til ChatGPT, som er omtalt i den omfattende anmeldelsen i artikkelen Llama 2: En dybdeundersøkelse av den åpne kildekodemodell-konkurrenten til ChatGPT.
I denne artikkelen vil vi diskutere de grunnleggende konseptene bak Llama 3, utforske dens innovative arkitektur og treningsprosess, og gi praktisk veiledning på hvordan å få tilgang til, bruke og distribuere denne banebrytende modellen på en ansvarlig måte. Uansett om du er en forsker, utvikler eller AI-entusiast, vil denne artikkelen utstyre deg med kunnskapen og ressursene som trengs for å utnytte kraften til Llama 3 for dine prosjekter og applikasjoner.
Utviklingen av Llama: Fra Llama 2 til Llama 3
Meta’s CEO, Mark Zuckerberg, annonserte debutten av Llama 3, den siste AI-modellen utviklet av Meta AI. Denne statiske modellen, nå åpen kildekodemodell, er satt til å forbedre Metas ulike produkter, inkludert Messenger og Instagram. Zuckerberg understreket at Llama 3 stiller Meta AI som den mest avanserte fritt tilgjengelige AI-assistent.
Før vi snakker om detaljene til Llama 3, la oss kort gå tilbake til dens forgjenger, Llama 2. Innført i 2022, var Llama 2 et betydelig milepæl i åpen kildekodemodell-landskapet, og tilbød en kraftig og effektiv modell som kunne kjøres på forbrukerens hårdt utstyr.
Men mens Llama 2 var en merkeverdig prestasjon, hadde den sine begrensninger. Brukere rapporterte problemer med feilaktige avslag (modellen nektet å svare på harmløse forespørsler), begrensede nyttige og rom for forbedring i områder som resonnering og kodegenerering.
Enter Llama 3: Meta’s respons på disse utfordringene og samfunnets tilbakemeldinger. Med Llama 3 har Meta satt som mål å bygge de beste åpne modellene på linje med de beste proprietære modellene som er tilgjengelige i dag, samtidig som de prioriterer ansvarlig utvikling og distribusjon.
Llama 3: Arkitektur og trening
En av de viktigste innovasjonene i Llama 3 er dens tokenisator, som har en betydelig utvidet ordforråd på 128 256 token (opp fra 32 000 i Llama 2). Dette større ordforrådet tillater mer effektiv encoding av tekst, både for inndata og utdata, potensielt ledende til sterkere multilingvisme og generelle prestasjonforbedringer.
Llama 3 inkorporerer også Gruppe-forespørsels-oppmerksomhet (GQA), en effektiv representasjonsteknikk som forbedrer skalerbarheten og hjelper modellen å håndtere lengre kontekster mer effektivt. 8B-versjonen av Llama 3 bruker GQA, mens både 8B– og 70B-modellene kan prosessere sekvenser opp til 8 192 token.
Treningsdata og skalerbarhet
Treningsdataene som brukes for Llama 3 er en avgjørende faktor i dens forbedrede prestasjon. Meta har kuratert en massiv datamengde på over 15 billioner token fra offentlig tilgjengelige nettbaserte kilder, syv ganger større enn datamengden som ble brukt for Llama 2. Denne datamengden inkluderer også en betydelig andel (over 5%) av høykvalitets ikke-engelsk data, som dekker over 30 språk, i forberedelse til fremtidige flerspråklige applikasjoner.
For å sikre datakvalitet, har Meta brukt avanserte filterteknikker, inkludert heuristiske filter, NSFW-filter, semantisk duplikasjon og tekstklassifisatorer trent på Llama 2 for å forutsi datakvalitet. Teamet har også utført omfattende eksperimenter for å bestemme den optimale blandingen av datakilder for pre-trening, sikrer at Llama 3 prestere godt på en rekke brukstilfeller, inkludert trivia, STEM, kodegenerering og historisk kunnskap.
Skalerbarhet av pre-trening var en annen kritisk aspekt av Llama 3-utviklingen. Meta har utviklet skaleringslover som gjorde det mulig å forutsi prestasjonen til deres største modeller på nøkkeloppgaver, som kodegenerering, før de faktisk ble trent. Dette informerte avgjørelsene om data-blanding og beregningstilordning, og ledet til mer effektiv og effektfull trening.
Llama 3s største modeller ble trent på to tilpassede 24 000 GPU-kluster, som utnyttet en kombinasjon av data-parallellisering, modell-parallellisering og pipeline-parallelliseringsteknikker. Metas avanserte treningsstakke automatiserte feiloppsporing, håndtering og vedlikehold, maksimerte GPU-opptid og økte trenings-effektiviteten med omtrent tre ganger sammenlignet med Llama 2.
Instruksjons-finetuning og prestasjon
For å låse opp Llama 3s fulle potensiale for samtale- og dialog-applikasjoner, har Meta innovert sin tilnærming til instruksjons-finetuning. Metoden kombinerer overvåket finetuning (SFT), avvisningssampling, proximal policy-optimisering (PPO) og direkte preferanse-optimisering (DPO).
Kvaliteten på forespørslene som brukes i SFT og preferanse-rangeringene som brukes i PPO og DPO, spilte en avgjørende rolle i prestasjonen til de justerte modellene. Metas team har nøye kuratert denne dataen og utført flere runder av kvalitetssikring på annotasjoner levert av menneskelige annotatorer.
Trenings på preferanse-rangeringer via PPO og DPO forbedret også betydelig Llama 3s prestasjon på resonnerings- og kodegenereringsoppgaver. Meta fant at selv når en modell har vanskeligheter med å svare på en resonnerings-spørsmål direkte, kan den likevel produsere den korrekte resoneringsspor. Trenings på preferanse-rangeringer gjorde det mulig for modellen å lære hvordan å velge det korrekte svaret fra disse spor.
Resultatene taler for seg selv: Llama 3 overgår mange tilgjengelige åpne kildekodemodeller på vanlige bransjestandarder, og etablere nye statiske prestasjonsstandarder for LLM-er på 8B- og 70B-parameter-skalaene.
Ansvarlig utvikling og sikkerhetsaspekt
Mens de forfølger banebrytende prestasjon, har Meta også prioritet ansvarlig utvikling og distribusjon av Llama 3. Selskapet har adoptert en system-nivå-tilnærming, og ser på Llama 3-modellene som en del av et bredere økosystem som setter utviklere i førersetet, og lar dem designe og tilpasse modellene for sine spesifikke brukstilfeller og sikkerhetskrav.
Meta har utført omfattende red-teaming-øvelser, utført motstandsevalueringer og implementert sikkerhets-mitigeringsteknikker for å redusere resterende risikoer i sine instruksjons-justerte modeller. Likevel anerkjenner selskapet at resterende risikoer sannsynligvis vil forbli, og anbefaler at utviklere vurderer disse risikoene i sammenheng med sine spesifikke brukstilfeller.
For å støtte ansvarlig distribusjon, har Meta oppdatert sin Ansvarlig Bruk-veileder, som gir en omfattende ressurs for utviklere til å implementere modell- og system-nivå-sikkerhets beste praksis for sine applikasjoner. Veilederen dekker emner som innholdsmoderasjon, risikovurdering og bruk av sikkerhetsteknikker som Llama Guard 2 og Code Shield.
Llama Guard 2, bygget på MLCommons-taksonomien, er designet for å klassifisere LLM-inndata (forespørsler) og svar, og å detektere innhold som kan anses som usikkert eller skadelig. CyberSecEval 2 utvider på sin forgjenger ved å legge til tiltak for å forhindre misbruk av modellens kode-tolk, offensivt cybersecurity-kapasitet og følsomhet for forespørsels-injeksjonsangrep.
Code Shield, en ny introduksjon med Llama 3, legger til inferens-tid-filtering av usikker kode produsert av LLM-er, og reduserer risikoer forbundet med usikker kode-forslag, kode-tolk-misbruk og sikker kommandoutførelse.
Tilgang og bruk av Llama 3
Etter lanseringen av Meta AI’s Llama 3, har flere åpne kildekodeteknikker blitt gjort tilgjengelige for lokal distribusjon på ulike operativsystemer, inkludert Mac, Windows og Linux. Denne delen detaljerer tre bemerkelsesverdige teknikker: Ollama, Open WebUI og LM Studio, hver med unike funksjoner for å utnytte Llama 3s kapasiteter på personlige enheter.
Ollama: Tilgjengelig for Mac, Linux og Windows, Ollama forenkler driften av Llama 3 og andre store språkmodeller på personlige datamaskiner, selv på de med mindre robust hårdt utstyr. Den inkluderer en pakkebehandler for enkel modellhåndtering og støtter kommandoer på tvers av plattformer for nedlasting og kjøring av modeller.
Open WebUI med Docker: Denne teknikken gir en brukervennlig, Docker-basert grensesnitt kompatibelt med Mac, Linux og Windows. Den integrerer sammen med modeller fra Ollama-registret, og lar brukerne distribuere og samhandle med modeller som Llama 3 innenfor et lokalt web-grensesnitt.
LM Studio: Retter seg mot brukere på Mac, Linux og Windows, LM Studio støtter en rekke modeller og er bygget på llama.cpp-prosjektet. Den tilbyr et samtale-grensesnitt og muliggjør direkte interaksjon med ulike modeller, inkludert Llama 3 8B Instruct-modellen.
Disse teknikker sikrer at brukerne kan effektivt utnytte Llama 3 på sine personlige enheter, og tilpasse seg en rekke tekniske ferdigheter og krav. Hver plattform tilbyr steg-for-steg-prosesser for oppsett og modell-interaksjon, og gjør avansert AI mer tilgjengelig for utviklere og entusiaster.















