Kunstig intelligens
Avduking av Meta Llama 3: Et sprang fremover i store språkmodeller

Innenfor generativ AI fortsetter Meta å lede med sin forpliktelse til åpen kildekode-tilgjengelighet, og distribuerer sin avanserte Large Language Model Meta AI (Llama)-serie globalt til utviklere og forskere. Med utgangspunkt i sine progressive initiativer introduserte Meta nylig den tredje iterasjonen av denne serien, Lama 3. Denne nye utgaven forbedres betydelig Lama 2, og tilbyr en rekke forbedringer og setter standarder som utfordrer industrikonkurrenter som Google, Mistral og Anthropic. Denne artikkelen utforsker de betydelige fremskrittene til Llama 3 og hvordan den sammenlignes med forgjengeren, Llama 2.
Metas Llama-serie: Fra eksklusiv til åpen tilgang og forbedret ytelse
Meta startet sin Llama-serie i 2022 med lanseringen av Lama 1, en modell begrenset til ikke-kommersiell bruk og kun tilgjengelig for utvalgte forskningsinstitusjoner på grunn av de enorme beregningskravene og proprietære naturen som preget banebrytende LLM-er på den tiden. I 2023, med lanseringen av Llama 2, endret Meta AI seg mot større åpenhet, og tilbyr modellen fritt for både forsknings- og kommersielle formål. Dette trekket ble designet for å demokratisere tilgangen til sofistikerte generative AI-teknologier, slik at et bredere spekter av brukere, inkludert startups og mindre forskningsteam, kan innovere og utvikle applikasjoner uten de høye kostnadene som vanligvis er forbundet med store modeller. For å fortsette denne trenden mot åpenhet, har Meta introdusert Llama 3, som fokuserer på å forbedre ytelsen til mindre modeller på tvers av ulike industrielle benchmarks.
Vi introduserer Llama 3
Llama 3 er andre generasjon av Metas åpen kildekode store språkmodeller (LLM), med både forhåndstrente og instruksjonsfinjusterte modeller med 8B og 70B parametere. I tråd med sine forgjengere, bruker Llama 3 en kun dekoder transformatorarkitektur og fortsetter praksisen med autoregressiv, selvstyrt opplæring for å forutsi påfølgende tokens i tekstsekvenser. Llama 3 er forhåndstrent på et datasett som er syv ganger større enn det som brukes for Llama 2, med over 15 billioner tokens hentet fra en nylig kuratert blanding av offentlig tilgjengelig online data. Dette enorme datasettet behandles ved hjelp av to klynger utstyrt med 24,000 XNUMX GPUer. For å opprettholde den høye kvaliteten på disse treningsdataene, en rekke datasentrisk AI teknikker ble brukt, inkludert heuristiske og NSFW-filtre, semantisk deduplisering, og tekstkvalitetsklassifisering. Llama 3 Instruct-modellen er skreddersydd for dialogapplikasjoner og har blitt betydelig forbedret, og inkluderer over 10 millioner menneskekommenterte dataprøver og utnytter en sofistikert blanding av treningsmetoder som f.eks. overvåket finjustering (SFT), prøvetaking av avslag, proksimal policyoptimalisering (PPO)og direkte policyoptimalisering (DPO).
Llama 3 vs. Llama 2: Nøkkelforbedringer
Llama 3 gir flere forbedringer i forhold til Llama 2, noe som øker funksjonaliteten og ytelsen betydelig:
- Utvidet ordforråd: Llama 3 har økt vokabularet til 128,256 2 tokens, opp fra Llama 32,000s XNUMX XNUMX tokens. Denne forbedringen støtter mer effektiv tekstkoding for både innganger og utganger og styrker dens flerspråklige evner.
- Utvidet kontekstlengde: Llama 3-modeller gir en kontekstlengde på 8,000 tokens, en dobling av de 4,090 tokenene som støttes av Llama 2. Denne økningen gir mulighet for mer omfattende innholdshåndtering, som omfatter både brukerforespørsler og modellsvar.
- Oppgraderte treningsdata: Treningsdatasettet for Llama 3 er syv ganger større enn for Llama 2, inkludert fire ganger mer kode. Den inneholder over 5 % høykvalitets, ikke-engelsk data som spenner over mer enn 30 språk, noe som er avgjørende for flerspråklig applikasjonsstøtte. Disse dataene gjennomgår streng kvalitetskontroll ved bruk av avanserte teknikker som heuristiske og NSFW-filtre, semantisk deduplisering og tekstklassifisering.
- Raffinert instruksjonsjustering og evaluering: Avvikende fra Llama 2, bruker Llama 3 avanserte instruksjonsjusteringsteknikker, inkludert overvåket finjustering (SFT), avvisningsprøvetaking, proksimal policyoptimalisering (PPO) og direkte policyoptimalisering (DPO). For å forsterke denne prosessen har et nytt menneskelig evalueringssett av høy kvalitet blitt introdusert, bestående av 1,800 instruksjoner som dekker ulike brukstilfeller som råd, idédugnad, klassifisering, koding og mer, som sikrer omfattende vurdering og finjustering av modellens muligheter.
- Avansert AI-sikkerhet: Llama 3, som Llama 2, inneholder strenge sikkerhetstiltak som finjustering av instruksjoner og omfattende red-teaming for å redusere risikoer, spesielt på kritiske områder som cybersikkerhet og biologiske trusler. Til støtte for denne innsatsen har Meta også introdusert Llama Guard 2, finjustert på 8B-versjonen av Llama 3. Denne nye modellen forbedrer Llama Guard-serien ved å klassifisere LLM-inndata og svar for å identifisere potensielt usikkert innhold, noe som gjør det ideelt for produksjonsmiljøer.
Tilgjengelighet av Llama 3
Llama 3-modeller er nå integrert i Hugging Face økosystem, forbedrer tilgjengeligheten for utviklere. Modellene er også tilgjengelige gjennom modell-som-en-tjeneste-plattformer som f.eks Perplexity Labs og Fyrverkeri.ai, og på skyplattformer som AWS SageMaker, AzureMLog Vertex AI. Meta planlegger å utvide Llama 3s tilgjengelighet ytterligere, inkludert plattformer som Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM og Snowflake. I tillegg vil maskinvarestøtte for Llama 3 bli utvidet til å omfatte plattformer fra AMD, AWS, Dell, Intel, NVIDIA og Qualcomm.
Kommende forbedringer i Llama 3
Meta har avslørt at den nåværende utgivelsen av Llama 3 bare er den første fasen i deres bredere visjon for fullversjonen av Llama 3. De utvikler en avansert modell med over 400 milliarder parametere som vil introdusere nye funksjoner, inkludert multimodalitet og kapasitet til å håndtere flere språk. Denne forbedrede versjonen vil også ha et betydelig utvidet kontekstvindu og forbedrede generelle ytelsesevner.
Bunnlinjen
Metas Llama 3 markerer en betydelig utvikling i landskapet av store språkmodeller, og driver serien ikke bare mot større åpen kildekode-tilgjengelighet, men også betydelig forbedre ytelsesevnene. Med et treningsdatasett som er syv ganger større enn forgjengeren og funksjoner som utvidet ordforråd og økt kontekstlengde, setter Llama 3 nye standarder som utfordrer selv de sterkeste konkurrentene i bransjen.
Denne tredje iterasjonen fortsetter ikke bare å demokratisere AI-teknologi ved å gjøre funksjoner på høyt nivå tilgjengelig for et bredere spekter av utviklere, men introduserer også betydelige fremskritt innen sikkerhet og treningspresisjon. Ved å integrere disse modellene i plattformer som Hugging Face og utvide tilgjengeligheten gjennom store skytjenester, sikrer Meta at Llama 3 er like allestedsnærværende som den er kraftig.
Når vi ser fremover, lover Metas pågående utvikling enda mer robuste evner, inkludert multimodalitet og utvidet språkstøtte, noe som legger grunnlaget for at Llama 3 ikke bare skal konkurrere med, men potensielt overgå andre store AI-modeller på markedet. Llama 3 er et bevis på Metas forpliktelse til å lede AI-revolusjonen, og gir verktøy som ikke bare er mer tilgjengelige, men også betydelig mer avanserte og tryggere for en global brukerbase.