Kunstig intelligens

Alt du trenger å vite om Llama 3 | Den kraftigste åpen kildekode-modellen ennå | Konsepter for bruk

oppdatert on April 24, 2024

Meta Llama 3 åpen kildekode LLM OUTPERFORM GPT 4

Meta har nylig sluppet Lama 3, neste generasjon av dens toppmoderne åpen kildekode store språkmodell (LLM). Llama 3 bygger på grunnlaget satt av forgjengeren, og har som mål å forbedre egenskapene som posisjonerte Llama 2 som en betydelig åpen kildekode-konkurrent til ChatGPT, som skissert i den omfattende gjennomgangen i artikkelen Llama 2: Et dypdykk i Open-Source Challenger til ChatGPT.

I denne artikkelen vil vi diskutere kjernekonseptene bak Llama 3, utforske dens innovative arkitektur og opplæringsprosess, og gi praktisk veiledning om hvordan du får tilgang til, bruker og distribuerer denne banebrytende modellen på en ansvarlig måte. Enten du er en forsker, utvikler eller AI-entusiast, vil dette innlegget utstyre deg med kunnskapen og ressursene som trengs for å utnytte kraften til Llama 3 for dine prosjekter og applikasjoner.

The Evolution of Llama: Fra Llama 2 til Llama 3

Metas administrerende direktør, Mark Zuckerberg, annonsert debuten til Llama 3, den siste AI-modellen utviklet av Meta AI. Denne toppmoderne modellen, nå åpen kildekode, skal forbedre Metas ulike produkter, inkludert Messenger og Instagram. Zuckerberg fremhevet at Llama 3 posisjonerer Meta AI som den mest avanserte fritt tilgjengelig AI-assistent.

Før vi snakker om detaljene til Llama 3, la oss kort gå tilbake til forgjengeren, Llama 2. Llama 2022 ble introdusert i 2 og var en betydelig milepæl i LLM-landskapet med åpen kildekode, og tilbyr en kraftig og effektiv modell som kan kjøres på forbrukermaskinvare .

Selv om Llama 2 var en bemerkelsesverdig prestasjon, hadde den sine begrensninger. Brukere rapporterte problemer med falske avslag (modellen som nektet å svare på godartede spørsmål), begrenset hjelpsomhet og rom for forbedring på områder som resonnement og kodegenerering.

Gå inn i Llama 3: Metas svar på disse utfordringene og fellesskapets tilbakemeldinger. Med Llama 3 har Meta satt som mål å bygge de beste åpen kildekode-modellene på nivå med de beste proprietære modellene som er tilgjengelige i dag, samtidig som de prioriterer ansvarlig utvikling og distribusjonspraksis.

Lama 3: Arkitektur og opplæring

En av de viktigste nyvinningene i Llama 3 er tokenizeren, som har et betydelig utvidet vokabular av 128,256-symboler (opp fra 32,000 2 i Llama XNUMX). Dette større ordforrådet muliggjør mer effektiv koding av tekst, både for input og output, noe som potensielt kan føre til sterkere flerspråklighet og generelle ytelsesforbedringer.

Llama 3 inneholder også Oppmerksomhet for gruppert søk (GQA), en effektiv representasjonsteknikk som forbedrer skalerbarheten og hjelper modellen med å håndtere lengre kontekster mer effektivt. De 8B versjon av Llama 3 bruker GQA, mens både 8B og 70B modeller kan behandle sekvenser opp til 8,192-symboler.

Treningsdata og skalering

Treningsdataene som brukes for Llama 3 er en avgjørende faktor for dens forbedrede ytelse. Meta kuraterte et massivt datasett med over 15 billioner tokens fra offentlig tilgjengelige nettkilder, syv ganger større enn datasettet som ble brukt for Llama 2. Dette datasettet inkluderer også en betydelig del (over 5 %) av høykvalitets ikke-engelske data, som dekker mer enn 30 språk, som forberedelse til fremtidige flerspråklige applikasjoner.

For å sikre datakvalitet brukte Meta avanserte filtreringsteknikker, inkludert heuristiske filtre, NSFW-filtre, semantisk deduplisering og tekstklassifiseringer trent på Llama 2 for å forutsi datakvalitet. Teamet gjennomførte også omfattende eksperimenter for å bestemme den optimale blandingen av datakilder for forhåndstrening, og sikret at Llama 3 yter godt på tvers av et bredt spekter av brukstilfeller, inkludert trivia, STEM, koding og historisk kunnskap.

Oppskalering av førtrening var et annet kritisk aspekt ved Llama 3s utvikling. Meta utviklet skaleringslover som gjorde dem i stand til å forutsi ytelsen til sine største modeller på nøkkeloppgaver, for eksempel kodegenerering, før de faktisk trente dem. Dette informerte beslutningene om datamiks og beregningsallokering, og førte til slutt til mer effektiv og effektiv opplæring.

Llama 3s største modeller ble trent på to spesialbygde 24,000 2 GPU-klynger, og utnyttet en kombinasjon av dataparallellisering, modellparallellisering og pipeline-parallelliseringsteknikker. Metas avanserte treningsstabel automatiserte feildeteksjon, håndtering og vedlikehold, maksimerer GPU-oppetiden og øker treningseffektiviteten med omtrent tre ganger sammenlignet med Llama XNUMX.

Instruksjon Finjustering og ytelse

For å frigjøre Llama 3s fulle potensial for chat- og dialogapplikasjoner, innoverte Meta sin tilnærming til finjustering av instruksjoner. Dens metode kombinerer overvåket finjustering (SFT), avvisningsprøvetaking, proksimal policyoptimalisering (PPO), og direkte preferanseoptimalisering (DPO).

Kvaliteten på meldingene som ble brukt i SFT og preferanserangeringene som ble brukt i PPO og DPO spilte en avgjørende rolle i ytelsen til de justerte modellene. Metas team kuraterte disse dataene nøye og utførte flere runder med kvalitetssikring av merknader levert av menneskelige annotatorer.

Trening på preferanserangeringer via PPO og DPO forbedret også Llama 3s ytelse på resonnement og kodingsoppgaver betydelig. Meta fant at selv når en modell sliter med å svare direkte på et resonnementspørsmål, kan den fortsatt produsere riktig resonnementspor. Opplæring i preferanserangeringer gjorde det mulig for modellen å lære å velge riktig svar fra disse sporene.

Resultatene taler for seg selv: Llama 3 utkonkurrerer mange tilgjengelige chat-modeller med åpen kildekode på vanlige industristandarder, og etablerer ny toppmoderne ytelse for LLM-er på parameterskalaene 8B og 70B.

Ansvarlig utvikling og sikkerhetshensyn

Mens Meta strebet etter banebrytende ytelse, prioriterte Meta også ansvarlig utvikling og implementeringspraksis for Llama 3. Selskapet tok i bruk en tilnærming på systemnivå, og så for seg Llama 3-modeller som en del av et bredere økosystem som setter utviklere i førersetet, slik at de kan designe og tilpasse modellene for deres spesifikke brukstilfeller og sikkerhetskrav.

Meta gjennomførte omfattende red-team-øvelser, utførte kontradiktoriske evalueringer og implementerte sikkerhetsreduksjonsteknikker for å redusere gjenværende risiko i sine instruksjonstilpassede modeller. Imidlertid erkjenner selskapet at gjenværende risikoer sannsynligvis vil forbli, og anbefaler utviklere å vurdere disse risikoene i sammenheng med deres spesifikke brukstilfeller.

For å støtte ansvarlig distribusjon har Meta oppdatert sin ansvarlig bruksveiledning, og gir en omfattende ressurs for utviklere for å implementere beste praksiser for sikkerhet på modell- og systemnivå for applikasjonene deres. Veiledningen dekker emner som innholdsmoderering, risikovurdering og bruk av sikkerhetsverktøy som Llama Guard 2 og Code Shield.

Llama Guard 2, bygget på MLCommons-taksonomien, er designet for å klassifisere LLM-inndata (forespørsler) og svar, og oppdage innhold som kan anses som utrygt eller skadelig. CyberSecEval 2 utvider sin forgjenger ved å legge til tiltak for å forhindre misbruk av modellens kodetolk, støtende cybersikkerhetsevner og mottakelighet for injeksjonsangrep.

Code Shield, en ny introduksjon med Llama 3, legger til inferens-tidsfiltrering av usikker kode produsert av LLM-er, og reduserer risikoen forbundet med usikker kodeforslag, kodetolkermisbruk og sikker kommandoutførelse.

Få tilgang til og bruk av Llama 3

Etter lanseringen av Meta AIs Llama 3, har flere åpen kildekode-verktøy blitt gjort tilgjengelig for lokal distribusjon på forskjellige operativsystemer, inkludert Mac, Windows og Linux. Denne delen beskriver tre bemerkelsesverdige verktøy: Ollama, Open WebUI og LM Studio, som hver tilbyr unike funksjoner for å utnytte Llama 3s evner på personlige enheter.

Ollama: Tilgjengelig for Mac, Linux og Windows, Ollama forenkler driften av Llama 3 og andre store språkmodeller på personlige datamaskiner, selv de med mindre robust maskinvare. Den inkluderer en pakkebehandling for enkel modelladministrasjon og støtter kommandoer på tvers av plattformer for nedlasting og kjøring av modeller.

Åpne WebUI med Docker: Dette verktøyet gir en brukervennlig, Docker-basert grensesnitt kompatibelt med Mac, Linux og Windows. Den integreres sømløst med modeller fra Ollama-registeret, slik at brukere kan distribuere og samhandle med modeller som Llama 3 i et lokalt nettgrensesnitt.

LM Studio: Målretter mot brukere på Mac, Linux og Windows, LM Studio støtter en rekke modeller og er bygget på llama.cpp-prosjektet. Det gir et chat-grensesnitt og forenkler direkte interaksjon med ulike modeller, inkludert Llama 3 8B Instruct-modellen.

Disse verktøyene sikrer at brukere effektivt kan bruke Llama 3 på sine personlige enheter, og imøtekomme en rekke tekniske ferdigheter og krav. Hver plattform tilbyr trinnvise prosesser for oppsett og modellinteraksjon, noe som gjør avansert AI mer tilgjengelig for utviklere og entusiaster.

Utplassering av Llama 3 i stor skala

I tillegg til å gi direkte tilgang til modellvektene, har Meta samarbeidet med ulike skyleverandører, modell-API-tjenester og maskinvareplattformer for å muliggjøre sømløs distribusjon av Llama 3 i stor skala.

En av de viktigste fordelene med Llama 3 er dens forbedrede token-effektivitet, takket være den nye tokenizeren. Benchmarks viser at Llama 3 krever opptil 15 % færre tokens sammenlignet med Llama 2, noe som resulterer i raskere og mer kostnadseffektiv slutning.

Integreringen av Grouped Query Attention (GQA) i 8B-versjonen av Llama 3 bidrar til å opprettholde slutningseffektivitet på nivå med 7B-versjonen av Llama 2, til tross for økningen i parameterantallet.

For å forenkle distribusjonsprosessen har Meta levert Llama Recipes-depotet, som inneholder åpen kildekode og eksempler for finjustering, distribusjon, modellevaluering og mer. Dette depotet fungerer som en verdifull ressurs for utviklere som ønsker å utnytte Llama 3s evner i applikasjonene sine.

For de som er interessert i å utforske Llama 3s ytelse, har Meta integrert sine nyeste modeller i Meta AI, en ledende AI-assistent bygget med Llama 3-teknologi. Brukere kan samhandle med Meta AI gjennom ulike Meta-apper, for eksempel Facebook, Instagram, WhatsApp, Messenger og nettet, for å få ting gjort, lære, lage og få kontakt med tingene som betyr noe for dem.

Hva er det neste for Llama 3?

Mens 8B- og 70B-modellene markerer begynnelsen på Llama 3-utgivelsen, har Meta ambisiøse planer for fremtiden til denne banebrytende LLM.

I løpet av de kommende månedene kan vi forvente å se nye funksjoner introdusert, inkludert multimodalitet (evnen til å behandle og generere forskjellige datamodaliteter, for eksempel bilder og videoer), flerspråklighet (støtter flere språk) og mye lengre kontekstvinduer for forbedret ytelse på oppgaver som krever omfattende kontekst.

I tillegg planlegger Meta å gi ut større modellstørrelser, inkludert modeller med over 400 milliarder parametere, som for tiden er under trening og viser lovende trender når det gjelder ytelse og kapasitet.

For å fremme feltet ytterligere, vil Meta også publisere en detaljert forskningsartikkel om Llama 3, og dele funnene og innsiktene med det bredere AI-fellesskapet.

Som en sniktitt på hva som kommer, har Meta delt noen tidlige øyeblikksbilder av ytelsen til den største LLM-modellen sin på forskjellige benchmarks. Selv om disse resultatene er basert på et tidlig sjekkpunkt og kan endres, gir de et spennende innblikk i det fremtidige potensialet til Llama 3.

konklusjonen

Llama 3 representerer en betydelig milepæl i utviklingen av store språkmodeller med åpen kildekode, og flytter grensene for ytelse, evner og ansvarlig utviklingspraksis. Med sin innovative arkitektur, massive treningsdatasett og banebrytende finjusteringsteknikker, etablerer Llama 3 nye toppmoderne benchmarks for LLM-er på parameterskalaene 8B og 70B.

Llama 3 er imidlertid mer enn bare en kraftig språkmodell; det er et bevis på Metas forpliktelse til å fremme et åpent og ansvarlig AI-økosystem. Ved å tilby omfattende ressurser, sikkerhetsverktøy og beste praksis, gir Meta utviklere mulighet til å utnytte det fulle potensialet til Llama 3 samtidig som de sikrer ansvarlig distribusjon skreddersydd for deres spesifikke brukstilfeller og målgrupper.

Mens Llama 3-reisen fortsetter, med nye muligheter, modellstørrelser og forskningsresultater i horisonten, venter AI-fellesskapet spent på de innovative applikasjonene og gjennombruddene som utvilsomt vil dukke opp fra denne banebrytende LLM.

Enten du er en forsker som flytter grensene for naturlig språkbehandling, en utvikler som bygger neste generasjon av intelligente applikasjoner, eller en AI-entusiast som er nysgjerrig på de siste fremskrittene, lover Llama 3 å være et kraftig verktøy i arsenalet ditt, som åpner nye dører og låser opp en verden av muligheter.

Relaterte temaer:Llama lama 2 Lama 3 LLM LLM-er meta

Neste

Microsoft lanserer Phi-3: Kraftige åpne AI-modeller som leverer topp ytelse i små størrelser

Ikke gå glipp av

FrugalGPT: Et paradigmeskifte i kostnadsoptimalisering for store språkmodeller

Aayush Mittal

Jeg har brukt de siste fem årene på å fordype meg i den fascinerende verdenen av maskinlæring og dyplæring. Min lidenskap og ekspertise har ført til at jeg har bidratt til over 50 ulike programvareprosjekter, med spesielt fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot naturlig språkbehandling, et felt jeg er ivrig etter å utforske videre.