Kunstig intelligens

Alt du behøver at vide om Llama 3 | Den mest kraftfulde open source-model endnu | Begreber til brug

Opdateret on April 24, 2024

Meta Llama 3 open source LLM OUTPERFORM GPT 4

Meta har for nylig udgivet Lama 3, den næste generation af dens avancerede open source store sprogmodel (LLM). Llama 3 bygger på det grundlag, der blev sat af sin forgænger, og sigter mod at forbedre de muligheder, der placerede Llama 2 som en betydelig open source-konkurrent til ChatGPT, som beskrevet i den omfattende gennemgang i artiklen Llama 2: Et dybt dyk ind i Open Source Challenger til ChatGPT.

I denne artikel vil vi diskutere kernekoncepterne bag Llama 3, udforske dens innovative arkitektur og træningsproces og give praktisk vejledning i, hvordan man får adgang til, bruger og implementerer denne banebrydende model på en ansvarlig måde. Uanset om du er en forsker, udvikler eller AI-entusiast, vil dette indlæg udstyre dig med den viden og de ressourcer, der er nødvendige for at udnytte kraften i Llama 3 til dine projekter og applikationer.

The Evolution of Llama: Fra Llama 2 til Llama 3

Metas administrerende direktør, Mark Zuckerberg, annoncerede debuten af Llama 3, den seneste AI-model udviklet af Meta AI. Denne state-of-the-art model, nu open source, skal forbedre Metas forskellige produkter, herunder Messenger og Instagram. Zuckerberg fremhævede, at Llama 3 placerer Meta AI som den mest avancerede frit tilgængelig AI-assistent.

Før vi taler om detaljerne ved Llama 3, lad os kort gense dens forgænger, Llama 2. Llama 2022, der blev introduceret i 2, var en væsentlig milepæl i open source LLM-landskabet, der tilbyder en kraftfuld og effektiv model, der kunne køre på forbrugerhardware .

Men mens Llama 2 var en bemærkelsesværdig præstation, havde den sine begrænsninger. Brugere rapporterede problemer med falske afvisninger (modellen nægtede at besvare godartede forespørgsler), begrænset hjælpsomhed og plads til forbedringer på områder som ræsonnement og kodegenerering.

Indtast Llama 3: Metas svar på disse udfordringer og fællesskabets feedback. Med Llama 3 har Meta sat sig for at bygge de bedste open source-modeller på niveau med de bedste proprietære modeller, der er tilgængelige i dag, og samtidig prioritere ansvarlig udvikling og implementeringspraksis.

Lama 3: Arkitektur og træning

En af de vigtigste innovationer i Llama 3 er dens tokenizer, som har et betydeligt udvidet ordforråd af 128,256-symboler (op fra 32,000 i Lama 2). Dette større ordforråd giver mulighed for mere effektiv kodning af tekst, både til input og output, hvilket potentielt kan føre til stærkere flersprogethed og generelle præstationsforbedringer.

Llama 3 indeholder også Opmærksomhed for grupperet forespørgsel (GQA), en effektiv repræsentationsteknik, der forbedrer skalerbarheden og hjælper modellen med at håndtere længere sammenhænge mere effektivt. Det 8B version af Llama 3 bruger GQA, mens både 8B og 70B modeller kan behandle sekvenser op til 8,192-symboler.

Træningsdata og skalering

De træningsdata, der bruges til Llama 3, er en afgørende faktor for dens forbedrede ydeevne. Meta kurerede et massivt datasæt på over 15 billioner tokens fra offentligt tilgængelige onlinekilder, syv gange større end det datasæt, der blev brugt til Llama 2. Dette datasæt inkluderer også en betydelig del (over 5 %) af højkvalitets ikke-engelske data, der dækker mere end 30 sprog, som forberedelse til fremtidige flersprogede applikationer.

For at sikre datakvaliteten brugte Meta avancerede filtreringsteknikker, herunder heuristiske filtre, NSFW-filtre, semantisk deduplikering og tekstklassificeringsprogrammer trænet på Llama 2 til at forudsige datakvalitet. Holdet udførte også omfattende eksperimenter for at bestemme den optimale blanding af datakilder til fortræning, hvilket sikrede, at Llama 3 klarer sig godt på tværs af en bred vifte af brugssager, herunder trivia, STEM, kodning og historisk viden.

Opskalering af fortræning var et andet kritisk aspekt af Llama 3's udvikling. Meta udviklede skaleringslove, der gjorde det muligt for dem at forudsige ydeevnen af sine største modeller på nøgleopgaver, såsom kodegenerering, før de rent faktisk trænede dem. Dette informerede beslutningerne om datamix og beregningsallokering, hvilket i sidste ende førte til mere effektiv og effektiv træning.

Llama 3's største modeller blev trænet på to specialbyggede 24,000 GPU-klynger, der udnyttede en kombination af dataparallelisering, modelparallelisering og pipeline-paralleliseringsteknikker. Metas avancerede træningsstak automatiserede fejlregistrering, håndtering og vedligeholdelse, maksimerer GPU-oppetiden og øger træningseffektiviteten med cirka tre gange sammenlignet med Llama 2.

Instruktion Finjustering og ydeevne

For at frigøre Llama 3's fulde potentiale for chat- og dialogapplikationer fornyede Meta sin tilgang til finjustering af instruktion. Dens metode kombinerer overvåget finjustering (SFT), prøveudtagning af afslag, proksimal politikoptimering (PPO), og direkte præferenceoptimering (DPO).

Kvaliteten af de prompter, der blev brugt i SFT, og de præferencerangeringer, der blev brugt i PPO og DPO, spillede en afgørende rolle i udførelsen af de tilpassede modeller. Metas team kurerede omhyggeligt disse data og udførte flere runder af kvalitetssikring af annoteringer leveret af menneskelige annotatorer.

Træning i præferencerangeringer via PPO og DPO forbedrede også markant Llama 3's ydeevne på ræsonnement og kodningsopgaver. Meta fandt ud af, at selv når en model kæmper for at besvare et ræsonnement spørgsmål direkte, kan den stadig producere det korrekte ræsonnementspor. Træning i præferencerangeringer gjorde det muligt for modellen at lære, hvordan man vælger det rigtige svar fra disse spor.

Resultaterne taler for sig selv: Llama 3 udkonkurrerer mange tilgængelige open source-chatmodeller på almindelige branchebenchmarks, og etablerer ny state-of-the-art ydeevne for LLM'er på 8B og 70B parameterskalaerne.

Ansvarlig udvikling og sikkerhedsovervejelser

Mens Meta forfulgte banebrydende ydeevne, prioriterede Meta også ansvarlig udvikling og implementeringspraksis for Llama 3. Virksomheden antog en tilgang på systemniveau og forestillede sig Llama 3-modeller som en del af et bredere økosystem, der sætter udviklere i førersædet, hvilket giver dem mulighed for at designe og tilpasse modellerne til deres specifikke anvendelsestilfælde og sikkerhedskrav.

Meta gennemførte omfattende red-teaming-øvelser, udførte modstridende evalueringer og implementerede sikkerhedsbegrænsende teknikker for at sænke resterende risici i sine instruktionsjusterede modeller. Virksomheden anerkender dog, at resterende risici sandsynligvis vil forblive og anbefaler, at udviklere vurderer disse risici i sammenhæng med deres specifikke anvendelsessager.

For at understøtte ansvarlig implementering har Meta opdateret sin vejledning til ansvarlig brug, der giver udviklere en omfattende ressource til at implementere bedste praksis for sikkerhed på model- og systemniveau for deres applikationer. Guiden dækker emner som indholdsmoderering, risikovurdering og brugen af sikkerhedsværktøjer som Llama Guard 2 og Code Shield.

Llama Guard 2, der er bygget på MLCommons-taksonomien, er designet til at klassificere LLM-input (prompter) og svar, og registrerer indhold, der kan anses for usikkert eller skadeligt. CyberSecEval 2 udvider sin forgænger ved at tilføje foranstaltninger til at forhindre misbrug af modellens kodefortolker, stødende cybersikkerhedsfunktioner og modtagelighed for at fremskynde injektionsangreb.

Code Shield, en ny introduktion med Llama 3, tilføjer inferens-tidsfiltrering af usikker kode produceret af LLM'er, hvilket mindsker risici forbundet med usikker kodeforslag, kodefortolkermisbrug og sikker kommandoudførelse.

Adgang til og brug af Llama 3

Efter lanceringen af Meta AI's Llama 3 er adskillige open source-værktøjer blevet gjort tilgængelige til lokal implementering på forskellige operativsystemer, herunder Mac, Windows og Linux. Dette afsnit beskriver tre bemærkelsesværdige værktøjer: Ollama, Open WebUI og LM Studio, der hver tilbyder unikke funktioner til at udnytte Llama 3's muligheder på personlige enheder.

Ollama: Tilgængelig til Mac, Linux og Windows, Ollama forenkler betjeningen af Llama 3 og andre store sprogmodeller på personlige computere, selv dem med mindre robust hardware. Den inkluderer en pakkehåndtering til nem modelstyring og understøtter kommandoer på tværs af platforme til download og kørsel af modeller.

Åbn WebUI med Docker: Dette værktøj giver en brugervenlig, Docker-baseret grænseflade, der er kompatibel med Mac, Linux og Windows. Den integreres problemfrit med modeller fra Ollama-registret, hvilket giver brugerne mulighed for at implementere og interagere med modeller som Llama 3 i en lokal webgrænseflade.

LM Studio: Målretter mod brugere på Mac, Linux og Windows, LM Studio understøtter en række modeller og er bygget på llama.cpp-projektet. Det giver en chat-grænseflade og letter direkte interaktion med forskellige modeller, herunder Llama 3 8B Instruct-modellen.

Disse værktøjer sikrer, at brugere effektivt kan bruge Llama 3 på deres personlige enheder, der imødekommer en række tekniske færdigheder og krav. Hver platform tilbyder trinvise processer til opsætning og modelinteraktion, hvilket gør avanceret AI mere tilgængelig for udviklere og entusiaster.

Implementering af Llama 3 i skala

Ud over at give direkte adgang til modelvægtene har Meta indgået partnerskab med forskellige cloud-udbydere, model-API-tjenester og hardwareplatforme for at muliggøre problemfri implementering af Llama 3 i skala.

En af de vigtigste fordele ved Llama 3 er dens forbedrede token-effektivitet takket være den nye tokenizer. Benchmarks viser, at Llama 3 kræver op til 15 % færre tokens sammenlignet med Llama 2, hvilket resulterer i hurtigere og mere omkostningseffektiv slutning.

Integrationen af Grouped Query Attention (GQA) i 8B-versionen af Llama 3 bidrager til at opretholde inferenseffektivitet på niveau med 7B-versionen af Llama 2, på trods af stigningen i parameterantal.

For at forenkle implementeringsprocessen har Meta leveret Llama Recipes-depotet, som indeholder open source-kode og eksempler til finjustering, implementering, modelevaluering og mere. Dette lager tjener som en værdifuld ressource for udviklere, der ønsker at udnytte Llama 3's muligheder i deres applikationer.

For dem, der er interesseret i at udforske Llama 3's ydeevne, har Meta integreret sine nyeste modeller i Meta AI, en førende AI-assistent bygget med Llama 3-teknologi. Brugere kan interagere med Meta AI gennem forskellige Meta-apps, såsom Facebook, Instagram, WhatsApp, Messenger og nettet, for at få tingene gjort, lære, skabe og forbinde med de ting, der betyder noget for dem.

Hvad er det næste for Llama 3?

Mens 8B- og 70B-modellerne markerer begyndelsen på Llama 3-udgivelsen, har Meta ambitiøse planer for fremtiden for denne banebrydende LLM.

I de kommende måneder kan vi forvente at se nye muligheder introduceret, herunder multimodalitet (evnen til at behandle og generere forskellige datamodaliteter, såsom billeder og videoer), flersprogethed (understøtter flere sprog) og meget længere kontekstvinduer for forbedret ydeevne på opgaver, der kræver omfattende sammenhæng.

Derudover planlægger Meta at frigive større modelstørrelser, herunder modeller med over 400 milliarder parametre, som i øjeblikket er under træning og viser lovende tendenser med hensyn til ydeevne og kapaciteter.

For yderligere at fremme feltet vil Meta også udgive en detaljeret forskningsartikel om Llama 3, der deler sine resultater og indsigter med det bredere AI-fællesskab.

Som et sneak preview af, hvad der kommer, har Meta delt nogle tidlige snapshots af sin største LLM-models ydeevne på forskellige benchmarks. Selvom disse resultater er baseret på et tidligt kontrolpunkt og kan ændres, giver de et spændende indblik i Llama 3's fremtidige potentiale.

Konklusion

Llama 3 repræsenterer en væsentlig milepæl i udviklingen af store open source-sprogmodeller, der flytter grænserne for ydeevne, kapaciteter og ansvarlig udviklingspraksis. Med sin innovative arkitektur, massive træningsdatasæt og banebrydende finjusteringsteknikker etablerer Llama 3 nye avancerede benchmarks for LLM'er på 8B og 70B parameterskalaerne.

Llama 3 er dog mere end blot en kraftfuld sprogmodel; det er et vidnesbyrd om Metas forpligtelse til at fremme et åbent og ansvarligt AI-økosystem. Ved at levere omfattende ressourcer, sikkerhedsværktøjer og bedste praksis giver Meta udviklere mulighed for at udnytte det fulde potentiale af Llama 3, samtidig med at de sikrer ansvarlig udrulning skræddersyet til deres specifikke brugssituationer og målgrupper.

Mens Llama 3-rejsen fortsætter, med nye muligheder, modelstørrelser og forskningsresultater i horisonten, venter AI-fællesskabet spændt på de innovative applikationer og gennembrud, der utvivlsomt vil dukke op fra denne banebrydende LLM.

Uanset om du er en forsker, der flytter grænserne for naturlig sprogbehandling, en udvikler, der bygger den næste generation af intelligente applikationer, eller en AI-entusiast, der er nysgerrig efter de seneste fremskridt, lover Llama 3 at være et kraftfuldt værktøj i dit arsenal, der åbner nye døre og låser op for en verden af muligheder.

Relaterede emner:Llama lama 2 Lama 3 LLM LLM'er meta

Næste

Microsoft afslører Phi-3: Kraftige åbne AI-modeller, der leverer topydelse i små størrelser

Gå ikke glip af

FrugalGPT: Et paradigmeskifte i omkostningsoptimering for store sprogmodeller

Aayush Mittal

Jeg har brugt de sidste fem år på at fordybe mig i den fascinerende verden af Machine Learning og Deep Learning. Min passion og ekspertise har ført mig til at bidrage til over 50 forskellige software engineering projekter, med særligt fokus på AI/ML. Min vedvarende nysgerrighed har også trukket mig hen imod Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.

Unite.AI

Alt du behøver at vide om Llama 3 | Den mest kraftfulde open source-model endnu | Begreber til brug

Kunstig intelligens

Alt du behøver at vide om Llama 3 | Den mest kraftfulde open source-model endnu | Begreber til brug

Indholdsfortegnelse

The Evolution of Llama: Fra Llama 2 til Llama 3

Lama 3: Arkitektur og træning

Træningsdata og skalering

Instruktion Finjustering og ydeevne

Ansvarlig udvikling og sikkerhedsovervejelser

Adgang til og brug af Llama 3

Implementering af Llama 3 i skala

Hvad er det næste for Llama 3?

Konklusion

Unite.AI

Alt du behøver at vide om Llama 3 | Den mest kraftfulde open source-model endnu | Begreber til brug

Indholdsfortegnelse

The Evolution of Llama: Fra Llama 2 til Llama 3

Lama 3: Arkitektur og træning

Træningsdata og skalering

Instruktion Finjustering og ydeevne

Ansvarlig udvikling og sikkerhedsovervejelser

Adgang til og brug af Llama 3

Implementering af Llama 3 i skala

Hvad er det næste for Llama 3?

Konklusion

Du kan godt lide