Connect with us

Kunstig intelligens

Afsløring af Meta Llama 3: Et spring fremad for store sprogmodeller

mm

På området for generativ AI fortsætter Meta med at lede med sin forpligtelse til åben kildekode, hvor de distribuerer deres avancerede store sprogmodel Meta AI (Llama)-serien globalt til udviklere og forskere. Bygget på deres progressive initiativer har Meta nyligt introduceret den tredje iteration af denne serie, Llama 3. Denne nye udgave forbedrer betydeligt på Llama 2, og tilbyder mange forbedringer og sætter benchmarks, der udfordrer industrikonkurrenter som Google, Mistral og Anthropic. Denne artikel udforsker de betydelige fremskridt i Llama 3 og hvordan den sammenlignes med sin forgænger, Llama 2.

Meta’s Llama-serie: Fra eksklusiv til åben adgang og forbedret ydelse

Meta iværksatte sin Llama-serie i 2022 med lanceringen af Llama 1, en model begrænset til ikke-kommerciel brug og kun tilgængelig for udvalgte forskningsinstitutioner på grund af de enorme beregningskrav og proprietære natur, der kendetegnede avancerede LLM’er på det tidspunkt. I 2023, med udrollningen af Llama 2, skiftede Meta AI til større åbenhed, og tilbød modellen frit til både forskning og kommercielle formål. Dette skridt var designet til at demokratisere adgangen til avancerede generative AI-teknologier, og tillod en bredere vifte af brugere, herunder startups og mindre forskningsteams, at innovere og udvikle applikationer uden de høje omkostninger, der normalt er forbundet med store modeller. Fortsættende denne tendens mod åbenhed, har Meta introduceret Llama 3, der fokuserer på at forbedre ydelsen af mindre modeller på tværs af forskellige industrielle benchmarks.

Præsentation af Llama 3

Llama 3 er den anden generation af Meta’s åbne store sprogmodeller (LLM’er), med både forudtrænede og instruktions-finetunede modeller med 8B og 70B parametre. I linje med sine forgængere, anvender Llama 3 en kun-afkodnings- transformatorarkitektur og fortsætter praksis med autoregressiv, selv-superveret træning for at forudsige efterfølgende token i tekstsekvenser. Llama 3 er forudtrænet på en dataset, der er syv gange større end den, der blev brugt til Llama 2, og indeholder over 15 billioner token trukket fra en nyt kurateret blanding af offentligt tilgængelige online-data. Denne enorme dataset bliver behandlet ved hjælp af to cluster med 24.000 GPU’er. For at opretholde den høje kvalitet af denne træningsdata, blev en række data-centreret AI-teknikker anvendt, herunder heuristiske og NSFW-filtre, semantisk deduplikation og tekstkvalitetsklassifikation. Tilpasset til dialogapplikationer, er Llama 3 Instruct-modellen betydeligt forbedret, og indeholder over 10 millioner menneske-annoterede datasæt og udnytter en sofistikeret blanding af træningsmetoder som superviseret finjustering (SFT), rejection sampling, proximal policy optimization (PPO) og direkte policyoptimering (DPO).

Llama 3 vs. Llama 2: Nøgleforbedringer

Llama 3 bringer flere forbedringer over Llama 2, og forbedrer betydeligt dens funktionalitet og ydelse:

  • Udvidet Vokabular: Llama 3 har øget sit vokabular til 128.256 token, op fra Llama 2’s 32.000 token. Denne forbedring understøtter mere effektiv tekstkodning for både indgange og udgange og styrker dens multilingvale evner.
  • Forlænget Kontekstlængde: Llama 3-modellerne giver en kontekstlængde på 8.000 token, og fordobler de 4.090 token, der understøttes af Llama 2. Denne øgning tillader mere omfattende indholdshåndtering, og omfatter både brugerprompts og modelrespons.
  • Opgraderet Træningsdata: Træningsdatasettet for Llama 3 er syv gange større end det for Llama 2, og indeholder fire gange mere kode. Det indeholder over 5% højkvalitets, ikke-engelsk data, der dækker over 30 sprog, hvilket er afgørende for multilingval applikationsstøtte. Denne data undergår strenge kvalitetskontroller ved hjælp af avancerede teknikker som heuristiske og NSFW-filtre, semantisk deduplikation og tekstklassificatorer.
  • Forbedret Instruktionsfinjustering og Evaluering: I modsætning til Llama 2, anvender Llama 3 avancerede instruktionsfinjusteringsteknikker, herunder superviseret finjustering (SFT), rejection sampling, proximal policy optimization (PPO) og direkte policyoptimering (DPO). For at supplere denne proces, er der introduceret et nyt højkvalitetsmenneskeevalueringsset, der består af 1.800 prompts, der dækker diverse brugsområder som råd, brainstorming, klassificering, kodning og mere, og sikrer en omfattende vurdering og finjustering af modellens evner.
  • Avanceret AI-Sikkerhed: Llama 3, ligesom Llama 2, inkorporerer strenge sikkerhedsforanstaltninger som instruktionsfinjustering og omfattende red-teaming for at mindske risici, især på kritiske områder som cybersikkerhed og biologiske trusler. For at støtte disse bestræbelser, har Meta også introduceret Llama Guard 2, der er finjusteret på den 8B-version af Llama 3. Denne nye model forbedrer Llama Guard-serien ved at klassificere LLM-indgange og -respons for at identificere potentielt usikker indhold, og gør den ideel til produktionsmiljøer.

Tilgængelighed af Llama 3

Llama 3-modellerne er nu integreret i Hugging Face-økosystemet, og forbedrer tilgængeligheden for udviklere. Modellerne er også tilgængelige gennem model-as-a-service-platforme som Perplexity Labs og Fireworks.ai, og på cloud-platforme som AWS SageMaker, Azure ML og Vertex AI. Meta planlægger at udvide Llama 3’s tilgængelighed yderligere, herunder platforme som Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM og Snowflake. Derudover vil hardware-støtte til Llama 3 blive udvidet til at omfatte platforme fra AMD, AWS, Dell, Intel, NVIDIA og Qualcomm.

Kommercielle Forbedringer i Llama 3

Meta har afsløret, at den nuværende udgave af Llama 3 kun er den første fase i deres bredere vision for den fulde version af Llama 3. De udvikler en avanceret model med over 400 milliarder parametre, der vil introducere nye funktioner, herunder multimodalitet og evnen til at håndtere multiple sprog. Denne forbedrede version vil også have en betydeligt forlænget kontekstvindue og forbedret ydelse.

Sammenfatning

Meta’s Llama 3 markerer en betydelig udvikling i landskabet af store sprogmodeller, og driver serien ikke kun mod større åben kildekode-adgang, men også betydeligt forbedrer dens ydelseevner. Med en træningsdataset, der er syv gange større end dens forgænger, og funktioner som udvidet vokabular og øget kontekstlængde, sætter Llama 3 nye benchmarks, der udfordrer selv de stærkeste industrikonkurrenter.

Denne tredje iteration fortsætter ikke kun med at demokratisere AI-teknologi ved at gøre højniveaufunktioner tilgængelige for en bredere spektrum af udviklere, men introducerer også betydelige fremskridt i sikkerhed og træningspræcision. Ved at integrere disse modeller i platforme som Hugging Face og udvide tilgængeligheden gennem store cloud-tjenester, sikrer Meta, at Llama 3 er lige så almindelig som det er kraftfuldt.

Med henblik på fremtiden lover Meta’s fortsatte udvikling endnu mere avancerede funktioner, herunder multimodalitet og udvidet sprogstøtte, og sætter scenen for Llama 3 til ikke kun at konkurrere med, men potentielt at overgå andre store AI-modeller på markedet. Llama 3 er et vidnesbyrd om Meta’s forpligtelse til at lede AI-revolutionen, og tilbyder værktøjer, der ikke kun er mere tilgængelige, men også betydeligt mere avancerede og sikrere for en global brugerbase.

Dr. Tehseen Zia er en fastansat lektor ved COMSATS University Islamabad, med en ph.d. i AI fra Vienna University of Technology, Østrig. Specialiseret i kunstig intelligens, maskinlæring, datavidenskab og computer vision, har han gjort betydelige bidrag med publikationer i anerkendte videnskabelige tidsskrifter. Dr. Tehseen har også ledet forskellige industrielle projekter som hovedundersøger og fungeret som AI-rådgiver.