Artificiell intelligens

Allt du behöver veta om Llama 3 | Den mest kraftfulla open-source-modellen hittills | Koncept till anvÀndning

mm
Meta Llama 3 open source LLM OUTPERFORM GPT 4

Meta har nyligen släppt Llama 3, nästa generation av sin state-of-the-art open source stora språkmodell (LLM). Genom att bygga på grunderna som lagts av dess föregångare, syftar Llama 3 till att förbättra de funktioner som gjorde Llama 2 till en betydande open-source konkurrent till ChatGPT, som beskrivs i den omfattande recensionen i artikeln Llama 2: En djupdykning i den open-source-utmanaren till ChatGPT.

I den här artikeln kommer vi att diskutera de grundläggande koncepten bakom Llama 3, utforska dess innovativa arkitektur och utbildningsprocess, och ge praktiska råd om hur man kan komma åt, använda och distribuera denna banbrytande modell på ett ansvarsfullt sätt. Oavsett om du är en forskare, utvecklare eller AI-entusiast, kommer den här artikeln att ge dig den kunskap och de resurser du behöver för att utnyttja kraften i Llama 3 för dina projekt och applikationer.

Llamas utveckling: Från Llama 2 till Llama 3

Metas VD, Mark Zuckerberg, meddelade debuten av Llama 3, den senaste AI-modellen som utvecklats av Meta AI. Denna state-of-the-art-modell, som nu är open-sourcad, är tänkt att förbättra Metas olika produkter, inklusive Messenger och Instagram. Zuckerberg betonade att Llama 3 positionerar Meta AI som den mest avancerade fritt tillgängliga AI-assistenten.

Innan vi går in på detaljerna om Llama 3, låt oss kort återblicka på dess föregångare, Llama 2. Llama 2 introducerades 2022 och var en betydande milstolpe i landskapet för open-source LLM, som erbjöd en kraftfull och effektiv modell som kunde köras på konsumenthårdvara.

Men medan Llama 2 var en betydande prestation, hade den sina begränsningar. Användare rapporterade problem med falska vägran (modellen vägrade att svara på ofarliga uppmaningar), begränsad användbarhet och utrymme för förbättring inom områden som resonemang och kodgenerering.

Då kommer Llama 3: Metas svar på dessa utmaningar och samhällets feedback. Med Llama 3 har Meta som mål att bygga de bästa open-source-modellerna i nivå med de bästa proprietära modellerna som finns tillgängliga idag, samtidigt som man prioriterar ansvarsfull utveckling och distributionspraxis.

Llama 3: Arkitektur och utbildning

En av de viktigaste innovationerna i Llama 3 är dess tokenisator, som har en betydligt utökad ordförråd på 128 256 token (upp från 32 000 i Llama 2). Detta större ordförråd möjliggör mer effektiv kodning av text, både för indata och utdata, vilket potentiellt kan leda till bättre multilingualism och övergripande prestandaförbättringar.

Llama 3 använder också Grupperad frågeuppmärksamhet (GQA), en effektiv representationsmetod som förbättrar skalbarheten och hjälper modellen att hantera längre sammanhang mer effektivt. 8B-versionen av Llama 3 använder GQA, medan både 8B– och 70B-modellerna kan bearbeta sekvenser upp till 8 192 token.

Utbildningsdata och skalning

Utbildningsdatat som används för Llama 3 är en avgörande faktor för dess förbättrade prestanda. Meta har sammanställt en enorm datamängd på över 15 biljoner token från offentligt tillgängliga onlinekällor, sju gånger större än datamängden som användes för Llama 2. Denna datamängd innehåller också en betydande andel (över 5%) av högkvalitativa icke-engelska data, som täcker mer än 30 språk, i förberedelse för framtida multilingvistiska tillämpningar.

För att säkerställa datakvalitet har Meta använt avancerade filtertekniker, inklusive heuristiska filter, NSFW-filter, semantisk deduplicering och textklassificerare som tränats på Llama 2 för att förutsäga datakvalitet. Teamet har också genomfört omfattande experiment för att fastställa den optimala blandningen av datakällor för förutbildning, vilket säkerställer att Llama 3 fungerar bra över ett brett spektrum av användningsfall, inklusive trivia, STEM, kodning och historisk kunskap.

Att skala upp förutbildning var en annan kritisk aspekt av Llama 3:s utveckling. Meta har utvecklat skalningslagar som möjliggör förutsägelse av prestanda för sina största modeller på viktiga uppgifter, såsom kodgenerering, innan de faktiskt tränas. Detta informerade besluten om data mix och beräkningsallokering, vilket i slutändan ledde till mer effektiv och effektiv utbildning.

Llama 3:s största modeller tränades på två anpassade 24 000 GPU-kluster, med en kombination av data-parallellisering, modell-parallellisering och pipeline-parallelliseringstekniker. Metas avancerade utbildningsstack automatiserade felhantering, underhåll och felsökning, vilket maximerade GPU-uptime och ökade utbildningseffektiviteten med cirka tre gånger jämfört med Llama 2.

Instruktionsfinjustering och prestanda

För att låsa upp Llama 3:s fulla potential för chatt- och dialogtillämpningar har Meta innoverat sin metod för instruktionsfinjustering. Metoden kombinerar tillsynsfinjustering (SFT), avvisningsprovning, proximal policyoptimering (PPO) och direkt preferensoptimering (DPO).

Kvaliteten på de uppmaningar som används i SFT och de preferensrankningar som används i PPO och DPO spelade en avgörande roll i prestandan hos de justerade modellerna. Metas team har noggrant kuraterat dessa data och utfört flera omgångar av kvalitetssäkring på annoteringar som tillhandahållits av mänskliga annotatorer.

Utbildning på preferensrankningar via PPO och DPO förbättrade också Llama 3:s prestanda på resonemangs- och kodningsuppgifter. Meta fann att även när en modell kämpar för att svara direkt på en resonemangsfråga, kan den fortfarande producera den korrekta resonemangsspåret. Utbildning på preferensrankningar möjliggjorde för modellen att lära sig att välja det korrekta svaret från dessa spår.

Arena results

Resultaten talar för sig själva: Llama 3 överträffar många tillgängliga open-source-chattmodeller på vanliga branschbenchmark, och etablerar en ny state-of-the-art-prestanda för LLM på 8B- och 70B-parametrarnas skala.

Ansvarsfull utveckling och säkerhetsaspekter

Medan man strävar efter toppmodellprestanda, har Meta också prioriterat ansvarsfull utveckling och distributionspraxis för Llama 3. Företaget antog ett systembaserat tillvägagångssätt, där Llama 3-modellerna ses som en del av ett bredare ekosystem som låter utvecklare styra, tillåter dem att utforma och anpassa modellerna efter sina specifika användningsfall och säkerhetskrav.

Meta har genomfört omfattande red team-övningar, utfört motståndstester och implementerat säkerhetsmitigeringstekniker för att minska resterande risker i sina instruktionsjusterade modeller. Men företaget erkänner att resterande risker sannolikt kommer att kvarstå och rekommenderar att utvecklare bedömer dessa risker i sammanhanget med sina specifika användningsfall.

För att stödja ansvarsfull distribution har Meta uppdaterat sin ansvarsfulla användarguide, som ger en omfattande resurs för utvecklare att implementera modell- och systembaserade säkerhetsbästa praxis för sina applikationer. Guiden täcker ämnen som innehållsmoderering, riskbedömning och användning av säkerhetshjälpmedel som Llama Guard 2 och Code Shield.

Llama Guard 2, som bygger på MLCommons-taxonomi, är utformad för att klassificera LLM-ingångar (uppmaningar) och svar, och upptäcka innehåll som kan anses vara osäkert eller skadligt. CyberSecEval 2 utvidgar sin föregångare genom att lägga till åtgärder för att förhindra missbruk av modellens kodtolk, offensiva cybersäkerhetsfunktioner och känslighet för uppmaningsinjektionsattacker.

Code Shield, en ny introduktion med Llama 3, lägger till inferenstidfilter för osäker kod som genereras av LLM, och minskar risker förknippade med osäker kod, kodtolksmissbruk och säker kommandouppförande.

Tillgång till och användning av Llama 3

Efter lanseringen av Meta AI:s Llama 3 har flera open-source-verktyg gjorts tillgängliga för lokal distribution på olika operativsystem, inklusive Mac, Windows och Linux. Detta avsnitt beskriver tre betydande verktyg: Ollama, Open WebUI och LM Studio, som alla erbjuder unika funktioner för att utnyttja Llama 3:s kapaciteter på personliga enheter.

Ollama: Tillgänglig för Mac, Linux och Windows, Ollama förenklar driften av Llama 3 och andra stora språkmodeller på persondatorer, även de med mindre robust hårdvara. Det innehåller en pakethanterare för enkel modellhantering och stöder kommandon över plattformar för nedladdning och körning av modeller.

Open WebUI med Docker: Detta verktyg erbjuder ett användarvänligt, Docker-baserat gränssnitt som är kompatibelt med Mac, Linux och Windows. Det integreras sömlöst med modeller från Ollama-registret, vilket möjliggör för användare att distribuera och interagera med modeller som Llama 3 inom ett lokalt webbgränssnitt.

LM Studio: Riktat mot användare på Mac, Linux och Windows, LM Studio stöder en rad modeller och bygger på llama.cpp-projektet. Det erbjuder ett chattgränssnitt och möjliggör direkt interaktion med olika modeller, inklusive Llama 3 8B Instruct-modellen.

Dessa verktyg säkerställer att användare kan utnyttja Llama 3 på sina personliga enheter, med hänsyn till en rad tekniska färdigheter och krav. Varje plattform erbjuder steg-för-steg-processer för installation och modellinteraktion, vilket gör avancerad AI mer tillgänglig för utvecklare och entusiaster.

Distribution av Llama 3 i stor skala

Förutom att tillhandahålla direkt tillgång till modellvikter, har Meta samarbetat med olika molntjänsteleverantörer, modell-API-tjänster och hårdvaruplattformar för att möjliggöra sömlös distribution av Llama 3 i stor skala.

En av de viktigaste fördelarna med Llama 3 är dess förbättrade tokeneffektivitet, tack vare den nya tokenisatorn. Benchmark-tester visar att Llama 3 kräver upp till 15% färre token jämfört med Llama 2, vilket resulterar i snabbare och mer kostnadseffektiv inferens.

Integrationen av Grupperad frågeuppmärksamhet (GQA) i 8B-versionen av Llama 3 bidrar till att upprätthålla inferenseffektivitet i nivå med 7B-versionen av Llama 2, trots den ökade parametermängden.

För att förenkla distributionsprocessen har Meta tillhandahållit Llama Recipes-repositoriet, som innehåller open-source-kod och exempel för finjustering, distribution, modellutvärdering och mer. Detta repository fungerar som en värdefull resurs för utvecklare som vill utnyttja Llama 3:s kapaciteter i sina applikationer.

För de som är intresserade av att utforska Llama 3:s prestanda har Meta integrerat sina senaste modeller i Meta AI, en ledande AI-assistent byggd med Llama 3-teknik. Användare kan interagera med Meta AI genom olika Meta-appar, som Facebook, Instagram, WhatsApp, Messenger och webben, för att utföra uppgifter, lära sig, skapa och ansluta till det som är viktigt för dem.

Vad händer härnäst för Llama 3?

Medan 8B- och 70B-modellerna markerar början på Llama 3-utgåvan, har Meta ambitiösa planer för framtiden för denna banbrytande LLM.

Under de kommande månaderna kan vi förvänta oss att se nya funktioner introduceras, inklusive multimodalitet (förmågan att bearbeta och generera olika datamodaliteter, som bilder och videor), multilingualism (stöd för flera språk) och mycket längre kontextfönster för förbättrad prestanda på uppgifter som kräver omfattande kontext.

Dessutom planerar Meta att släppa större modellstorlekar, inklusive modeller med över 400 miljarder parametrar, som för närvarande är under utbildning och visar lovande trender i termer av prestanda och kapacitet.

För att ytterligare främja området kommer Meta att publicera en detaljerad forskningsrapport om Llama 3, där de delar sina slutsatser och insikter med den bredare AI-gemenskapen.

Som en förhandsvisning av vad som kommer, har Meta delat några tidiga ögonblicksbilder av sin största LLM-modells prestanda på olika benchmark. Även om dessa resultat baseras på en tidig checkpoint och kan komma att ändras, ger de en spännande glimt av Llama 3:s framtida potential.

Slutsats

Llama 3 representerar en betydande milstolpe i utvecklingen av open-source stora språkmodeller, och driver gränserna för prestanda, kapacitet och ansvarsfulla utvecklingspraxis. Med sin innovativa arkitektur, massiva utbildningsdatamängd och banbrytande finjusteringsteknik etablerar Llama 3 en ny state-of-the-art-prestanda för LLM på 8B- och 70B-parametrarnas skala.

Men Llama 3 är mer än bara en kraftfull språkmodell; det är ett bevis på Metas åtagande att främja ett öppet och ansvarsfullt AI-ekosystem. Genom att tillhandahålla omfattande resurser, säkerhetshjälpmedel och bästa praxis, ger Meta utvecklare möjlighet att utnyttja Llama 3:s fulla potential samtidigt som de säkerställer ansvarsfull distribution anpassad till sina specifika användningsfall och målgrupper.

Medan Llama 3-resan fortsätter, med nya funktioner, modellstorlekar och forskningsfynd i sikte, väntar AI-gemenskapen med spänning på de innovativa tillämpningarna och genombrotten som utan tvekan kommer att uppstå från denna banbrytande LLM.

Oavsett om du är en forskare som driver gränserna för naturligt språkbehandling, en utvecklare som bygger nästa generation av intelligenta applikationer eller en AI-entusiast som är nyfiken på de senaste framstegen, lovar Llama 3 att vara ett kraftfullt verktyg i din arsenal, öppnar nya dörrar och låser upp en värld av möjligheter.

Jag har tillbringat de senaste fem Ären med att dyka djupt in i den fascinerande vÀrlden av MaskinlÀrning och DjupinlÀrning. Min passion och expertis har lett mig till att bidra till över 50 olika mjukvaruprojekt, med sÀrskild fokus pÄ AI/ML. Min pÄgÄende nyfikenhet har ocksÄ lett mig mot Naturlig SprÄkbehandling, ett omrÄde som jag Àr angelÀgen om att utforska vidare.