Connect with us

Kunstig intelligens

Avdekning av Meta Llama 3: Et Sprang Fremover i Store Språkmodeller

mm

I feltet for generativ AI, fortsetter Meta å lede med sin forpliktelse til åpen kilde-tilgjengelighet, og distribuerer sin avanserte store språkmodell Meta AI (Llama)-serien globalt til utviklere og forskere. Bygging på sine progressive initiativer, introduserte Meta nylig den tredje iterasjonen av denne serien, Llama 3. Denne nye utgaven forbedrer betydelig på Llama 2, og tilbyr mange forbedringer og setter standarder som utfordrer bransjekonkurrenter som Google, Mistral og Anthropic. Denne artikkelen utforsker de betydelige fremgangene i Llama 3 og hvordan den sammenlignes med sin forgjenger, Llama 2.

Meta’s Llama-serie: Fra Eksklusiv til Åpen Tilgang og Forbedret Ytelse

Meta initierte sin Llama-serie i 2022 med lanseringen av Llama 1, en modell begrenset til ikke-kommersiell bruk og tilgjengelig kun for utvalgte forskningsinstitusjoner på grunn av de enorme beregningskravene og proprietære naturen som karakteriserte toppmoderne LLM-er på den tiden. I 2023, med lanseringen av Llama 2, skiftet Meta AI mot større åpenhet, og tilbød modellen fritt for både forskning og kommersielle formål. Dette skrittet var designet for å demokratisere tilgangen til sofistikerte generative AI-teknologier, og å tillate en bredere rekke brukere, inkludert start-ups og mindre forskningsteam, å innovere og utvikle applikasjoner uten de steile kostnadene som vanligvis er forbundet med store modeller. Fortsetter denne trenden mot åpenhet, har Meta introdusert Llama 3, som fokuserer på å forbedre ytelsen til mindre modeller på ulike industrielle benchmark.

Introduksjon av Llama 3

Llama 3 er den andre generasjonen av Meta’s åpen kilde-store språkmodeller (LLM-er), med både forhånds-trente og instruksjons-finetuned modeller med 8B og 70B parametre. I linje med sine forgjengere, bruker Llama 3 en decoder-kun transformer-arkitektur og fortsetter praksisen med autoregressiv, selv-supervisert trening for å forutsi påfølgende token i tekstsekvenser. Llama 3 er forhånds-trent på en datasett som er syv ganger større enn den som ble brukt for Llama 2, med over 15 billioner token hentet fra en ny kurert blanding av offentlig tilgjengelige nettdata. Denne enorme datasetten blir prosessert ved hjelp av to cluster med 24 000 GPU-er. For å opprettholde den høye kvaliteten på denne treningdataen, ble en rekke data-sentrerte AI-teknikker brukt, inkludert heuristiske og NSFW-filtre, semantisk deduplisering og tekstkvalitetsklassifisering. Tilpasset for dialog-applikasjoner, har Llama 3 Instruct-modellen blitt betydelig forbedret, og inkluderer over 10 millioner menneske-annoterte datasample og utnytter en sofistisert blanding av treningsmetoder som supervisert finjustering (SFT), rejection sampling, proximal policy optimization (PPO) og direkte policy-optimisering (DPO).

Llama 3 vs. Llama 2: Nøkkel-forbedringer

Llama 3 bringer flere forbedringer over Llama 2, og øker betydelig funksjonaliteten og ytelsen:

  • Utvidet Vokabular: Llama 3 har økt sitt vokabular til 128 256 token, opp fra Llama 2’s 32 000 token. Denne forbedringen støtter mer effektiv tekstkoding for både inndata og utdata og styrker dens multilingvale evner.
  • Utvidet Kontekstlengde: Llama 3-modellene tilbyr en kontekstlengde på 8 000 token, og doblet den 4 090 token som støttes av Llama 2. Denne økningen tillater mer omfattende innholdshåndtering, og omfatter både bruker-forespørsler og modell-respons.
  • Oppgradert Treningdata: Treningdatasettet for Llama 3 er syv ganger større enn det for Llama 2, og inkluderer fire ganger mer kode. Det inneholder over 5 % høykvalitets, ikke-engelsk data som dekker over 30 språk, hvilket er avgjørende for multilingval applikasjon-støtte. Denne dataen undergår strenge kvalitetskontroller ved hjelp av avanserte teknikker som heuristiske og NSFW-filtre, semantisk deduplisering og tekstklassifisering.
  • Raffinert Instruksjons-finetuning og Evaluering: I motsetning til Llama 2, bruker Llama 3 avanserte instruksjons-finetuningsteknikker, inkludert supervisert finjustering (SFT), rejection sampling, proximal policy optimization (PPO) og direkte policy-optimisering (DPO). For å supplere denne prosessen, er en ny høykvalitets menneske-evalueringssett introdusert, bestående av 1 800 forespørsler som dekker diverse bruksscenarier som råd, brainstorming, klassifisering, kode og mer, og sikrer en omfattende vurdering og finjustering av modellens evner.
  • Avansert AI-Sikkerhet: Llama 3, som Llama 2, inkorporerer strenge sikkerhetstiltak som instruksjons-finetuning og omfattende red-teaming for å mildne risiko, spesielt i kritiske områder som cybersikkerhet og biologiske trusler. I støtte til disse innsatsene, har Meta også introdusert Llama Guard 2, finjustert på den 8B-versjonen av Llama 3. Denne nye modellen forbedrer Llama Guard-serien ved å klassifisere LLM-inndata og -respons for å identifisere potensielt usikker innhold, og gjør det ideelt for produksjonsmiljøer.

Tilgjengelighet av Llama 3

Llama 3-modellene er nå integrert i Hugging Face-økosystemet, og forbedrer tilgjengeligheten for utviklere. Modellene er også tilgjengelige gjennom modell-som-tjeneste-plattformer som Perplexity Labs og Fireworks.ai, og på sky-plattformer som AWS SageMaker, Azure ML og Vertex AI. Meta planlegger å utvide Llama 3’s tilgjengelighet videre, inkludert plattformer som Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM og Snowflake. I tillegg vil hårdvare-støtten for Llama 3 utvides til å inkludere plattformer fra AMD, AWS, Dell, Intel, NVIDIA og Qualcomm.

Kommende Forbedringer i Llama 3

Meta har avslørt at den nåværende utgaven av Llama 3 bare er den første fasen i deres bredere visjon for den fullstendige versjonen av Llama 3. De utvikler en avansert modell med over 400 milliarder parametre som vil introdusere nye funksjoner, inkludert multimodalitet og evnen til å håndtere flere språk. Denne forbedrede versjonen vil også ha en betydelig utvidet kontekst-vindu og forbedret ytelse.

Sammenfatning

Meta’s Llama 3 markerer en betydelig utvikling i landskapet av store språkmodeller, og driver serien ikke bare mot større åpen kilde-tilgjengelighet, men også vesentlig forbedrer ytelse. Med en treningdatasett som er syv ganger større enn dens forgjenger, og funksjoner som utvidet vokabular og økt kontekstlengde, setter Llama 3 nye standarder som utfordrer selv de sterkeste bransjekonkurrentene.

Dr. Tehseen Zia er en fast ansatt associate professor ved COMSATS University Islamabad, med en PhD i AI fra Vienna University of Technology, Østerrike. Som spesialist i kunstig intelligens, maskinlæring, datavitenskap og datavisjon, har han gjort betydelige bidrag med publikasjoner i anerkjente vitenskapelige tidsskrifter. Dr. Tehseen har også ledet flere industriprosjekter som hovedundersøker og tjenestegjort som AI-konsulent.