Connect with us

Allt du behöver veta om Llama 3 | Den kraftfullaste öppen källkodsmodellen hittills | Koncept till användning

Artificiell intelligens

Allt du behöver veta om Llama 3 | Den kraftfullaste öppen källkodsmodellen hittills | Koncept till användning

mm
Meta Llama 3 open source LLM OUTPERFORM GPT 4

Meta har nyligen släppt Llama 3, nästa generation av sin state-of-the-art-öppen källkodsstor språkmodell (LLM). Genom att bygga på grunderna som lagts av dess föregångare syftar Llama 3 till att förbättra de funktioner som gjorde Llama 2 till en betydande öppen källkodstävlande till ChatGPT, som beskrivs i den omfattande granskningen i artikeln Llama 2: En djupdykning i den öppna källkodsutmanaren till ChatGPT.

I den här artikeln kommer vi att diskutera de grundläggande koncepten bakom Llama 3, utforska dess innovativa arkitektur och utbildningsprocess, och ge praktiska råd om hur man kan komma åt, använda och distribuera denna banbrytande modell på ett ansvarsfullt sätt. Oavsett om du är en forskare, utvecklare eller AI-entusiast kommer den här artikeln att utrusta dig med den kunskap och de resurser som behövs för att utnyttja kraften i Llama 3 för dina projekt och applikationer.

Utvecklingen av Llama: Från Llama 2 till Llama 3

Metas VD, Mark Zuckerberg, tillkännagav debuten av Llama 3, den senaste AI-modellen utvecklad av Meta AI. Denna state-of-the-art-modell, som nu är öppen källkod, är avsedd att förbättra Metas olika produkter, inklusive Messenger och Instagram. Zuckerberg betonade att Llama 3 positionerar Meta AI som den mest avancerade fritt tillgängliga AI-assistenten.

Innan vi diskuterar specifikationerna för Llama 3, låt oss kort återblicka på dess föregångare, Llama 2. Llama 2 introducerades 2022 och var en betydande milstolpe i landskapet för öppen källkods-LLM, som erbjöd en kraftfull och effektiv modell som kunde köras på konsumenthårdvara.

Men medan Llama 2 var en anmärkningsvärd prestation, hade den sina begränsningar. Användare rapporterade problem med falska vägran (modellen vägrade att svara på ofarliga uppmaningar), begränsad användbarhet och utrymme för förbättring inom områden som resonemang och kodgenerering.

Då kommer Llama 3: Metas svar på dessa utmaningar och samhällets feedback. Med Llama 3 har Meta som mål att bygga de bästa öppna källkodsmodellerna som är jämförbara med de bästa proprietära modellerna som finns tillgängliga idag, samtidigt som de prioriterar ansvarsfull utveckling och distribution.

Llama 3: Arkitektur och utbildning

En av de viktigaste innovationerna i Llama 3 är dess tokenisator, som har en betydligt utökad ordlista på 128 256 token (upp från 32 000 i Llama 2). Denna större ordlista möjliggör mer effektiv kodning av text, både för indata och utdata, vilket potentiellt kan leda till bättre multilingualism och övergripande prestandaförbättringar.

Llama 3 använder också Gruppfrågeuppmärksamhet (GQA), en effektiv representationsmetod som förbättrar skalbarheten och hjälper modellen att hantera längre sammanhang mer effektivt. 8B-versionen av Llama 3 använder GQA, medan både 8B– och 70B-modellerna kan bearbeta sekvenser upp till 8 192 token.

Träningsdata och skalning

Träningsdata som används för Llama 3 är en avgörande faktor för dess förbättrade prestanda. Meta har kuraterat en enorm datamängd med över 15 biljoner token från offentligt tillgängliga onlinekällor, sju gånger större än datamängden som användes för Llama 2. Denna datamängd innehåller också en betydande andel (över 5%) av högkvalitativa icke-engelska data, som täcker mer än 30 språk, i förberedelse för framtida multilingvala applikationer.

För att säkerställa datakvalitet använde Meta avancerade filtertekniker, inklusive heuristiska filter, NSFW-filter, semantisk deduplicering och textklassificerare utbildade på Llama 2 för att förutsäga datakvalitet. Teamet utförde också omfattande experiment för att bestämma den optimala blandningen av datakällor för förutbildning, vilket säkerställde att Llama 3 presterar bra över en bred range av användningsfall, inklusive trivia, STEM, kodning och historisk kunskap.

Att skala upp förutbildning var en annan kritisk aspekt av Llama 3:s utveckling. Meta utvecklade skalningslagar som möjliggjorde för dem att förutsäga prestandan för deras största modeller på viktiga uppgifter, såsom kodgenerering, innan de faktiskt tränade dem. Detta informerade besluten om data mix och beräkningsallokering, vilket slutligen ledde till mer effektiv och effektiv utbildning.

Llama 3:s största modeller tränades på två anpassade 24 000 GPU-kluster, med hjälp av en kombination av data-parallellisering, modell-parallellisering och pipeline-parallelliseringstekniker. Metas avancerade utbildningsstack automatiserade felupptäckt, hantering och underhåll, vilket maximalt GPU-uptime och ökade utbildningseffektiviteten med cirka tre gånger jämfört med Llama 2.

Instruktionsfinjustering och prestanda

För att låsa upp Llama 3:s fulla potential för chatt- och dialogapplikationer innoverade Meta sin metod för instruktionsfinjustering. Dess metod kombinerar tillsynsfinjustering (SFT), avvisningsprov, proximal policyoptimering (PPO) och direkt preferensoptimering (DPO).

Kvaliteten på de uppmaningar som användes i SFT och de preferensrankningar som användes i PPO och DPO spelade en avgörande roll i prestandan för de justerade modellerna. Metas team valde noggrant ut denna data och utförde flera omgångar av kvalitetssäkring på annoteringar som tillhandahållits av mänskliga annotatorer.

Träning på preferensrankningar via PPO och DPO förbättrade också avsevärt Llama 3:s prestanda på resonemangs- och kodningsuppgifter. Meta fann att även när en modell kämpade för att svara direkt på en resonemangsfråga, kunde den fortfarande producera den korrekta resonemangsspåren. Träning på preferensrankningar möjliggjorde för modellen att lära sig att välja det korrekta svaret från dessa spår.

Arena results

Resultaten talar för sig själva: Llama 3 presterar bättre än många tillgängliga öppen källkods-chattmodeller på vanliga branschbenchmarks, och etablerar en ny state-of-the-art-prestanda för LLM på 8B- och 70B-parameternivåer.

Ansvarsfull utveckling och säkerhetsaspekter

Medan Meta strävar efter att uppnå topprestanda, har de också prioriterat ansvarsfull utveckling och distributionspraxis för Llama 3. Företaget antog ett systemnivåtillvägagångssätt, med Llama 3-modellerna som en del av ett bredare ekosystem som placerar utvecklare i förarsätet, vilket möjliggör för dem att designa och anpassa modellerna för sina specifika användningsfall och säkerhetskrav.

Meta genomförde omfattande röd-team-övningar, utförde motståndstester och implementerade säkerhetsmitigeringstekniker för att minska restrisken i deras instruktionsjusterade modeller. Men företaget medger att rest-risker sannolikt kommer att kvarstå och rekommenderar att utvecklare bedömer dessa risker i sammanhanget med sina specifika användningsfall.

För att stödja ansvarsfull distribution har Meta uppdaterat sin ansvarsfulla användarguide, som tillhandahåller en omfattande resurs för utvecklare att implementera modell- och systemnivåsäkerhetsbästa praxis för sina applikationer. Guiden täcker ämnen som innehållsmoderering, riskbedömning och användning av säkerhetverktyg som Llama Guard 2 och Code Shield.

Llama Guard 2, byggd på MLCommons-taxonomi, är utformad för att klassificera LLM-inmatningar (uppmaningar) och svar, och upptäcka innehåll som kan anses vara farligt eller skadligt. CyberSecEval 2 utvidgar sin föregångare genom att lägga till åtgärder för att förhindra missbruk av modellens kodtolk, offensiva cybersäkerhetsfunktioner och känslighet för uppmaningsinjektionsattacker.

Code Shield, en ny introduktion med Llama 3, lägger till filter för osäker kod som produceras av LLM vid inferenstid, vilket mildrar risker som är förknippade med osäker kod, kodtolksmissbruk och säker kommandouppförande.

Tillgång och användning av Llama 3

Efter lanseringen av Meta AI:s Llama 3 har flera öppen källkodsverktyg gjorts tillgängliga för lokal distribution på olika operativsystem, inklusive Mac, Windows och Linux. Detta avsnitt beskriver tre anmärkningsvärda verktyg: Ollama, Open WebUI och LM Studio, som alla erbjuder unika funktioner för att utnyttja Llama 3:s funktioner på personliga enheter.

Ollama: Tillgänglig för Mac, Linux och Windows, Ollama förenklar driften av Llama 3 och andra stora språkmodeller på persondatorer, även de med mindre robust hårdvara. Det innehåller en pakethanterare för enkel modellhantering och stöder kommandon över plattformar för nedladdning och körning av modeller.

Open WebUI med Docker: Detta verktyg tillhandahåller ett användarvänligt, Docker-baserat gränssnitt som är kompatibelt med Mac, Linux och Windows. Det integreras sömlöst med modeller från Ollama-registret, vilket möjliggör för användare att distribuera och interagera med modeller som Llama 3 inom ett lokalt webbgränssnitt.

LM Studio: Riktat mot användare på Mac, Linux och Windows, LM Studio stöder en rad modeller och är byggt på llama.cpp-projektet. Det tillhandahåller ett chattgränssnitt och underlättar direkt interaktion med olika modeller, inklusive Llama 3 8B Instruct-modellen.

Dessa verktyg säkerställer att användare kan effektivt utnyttja Llama 3 på sina personliga enheter, med hänsyn till en rad tekniska färdigheter och krav. Varje plattform erbjuder steg-för-steg-processer för installation och modellinteraktion, vilket gör avancerad AI mer tillgänglig för utvecklare och entusiaster.

Distribution av Llama 3 i stor skala

Förutom att tillhandahålla direkt tillgång till modellvikter, har Meta samarbetat med olika molnleverantörer, modell-API-tjänster och hårdvaruplattformar för att möjliggöra sömlös distribution av Llama 3 i stor skala.

En av de viktigaste fördelarna med Llama 3 är dess förbättrade token-effektivitet, tack vare den nya tokenisatorn. Benchmark-tester visar att Llama 3 kräver upp till 15% färre token jämfört med Llama 2, vilket resulterar i snabbare och mer kostnadseffektiv inferens.

Integreringen av Gruppfrågeuppmärksamhet (GQA) i 8B-versionen av Llama 3 bidrar till att upprätthålla inferenseffektivitet på samma nivå som 7B-versionen av Llama 2, trots den ökade parameterantalet.

För att förenkla distributionsprocessen har Meta tillhandahållit Llama Recipes-repositoriet, som innehåller öppen källkods-kod och exempel för finjustering, distribution, modellutvärdering och mer. Detta repository fungerar som en värdefull resurs för utvecklare som vill utnyttja Llama 3:s funktioner i sina applikationer.

För de som är intresserade av att utforska Llama 3:s prestanda har Meta integrerat sina senaste modeller i Meta AI, en ledande AI-assistent byggd med Llama 3-teknik. Användare kan interagera med Meta AI genom olika Meta-appar, som Facebook, Instagram, WhatsApp, Messenger och webben, för att få saker gjorda, lära, skapa och ansluta till de saker som betyder något för dem.

Vad kommer härnäst för Llama 3?

Medan 8B- och 70B-modellerna markerar början på Llama 3-utgåvan, har Meta ambitiösa planer för framtiden för denna banbrytande LLM.

Under de kommande månaderna kan vi förvänta oss att se nya funktioner introduceras, inklusive multimodalitet (förmågan att bearbeta och generera olika data-modaliteter, såsom bilder och videor), multilingualism (stöd för flera språk) och mycket längre kontextfönster för förbättrad prestanda på uppgifter som kräver omfattande kontext.

Dessutom planerar Meta att släppa större modellstorlekar, inklusive modeller med över 400 miljarder parametrar, som för närvarande är under utbildning och visar lovande trender i termer av prestanda och funktioner.

För att ytterligare främja området kommer Meta att publicera en detaljerad forskningsartikel om Llama 3, och dela sina fynd och insikter med den bredare AI-gemenskapen.

Som en förhandsvisning av vad som kommer, har Meta delat några tidiga ögonblicksbilder av sin största LLM-modells prestanda på olika benchmark-tester. Medan dessa resultat baseras på en tidig checkpoint och kan komma att ändras, ger de en spännande glimt av Llama 3:s framtida potential.

Slutsats

Llama 3 representerar en betydande milstolpe i utvecklingen av öppen källkods-stora språkmodeller, och pressar gränserna för prestanda, funktioner och ansvarsfulla utvecklingspraxis. Med sin innovativa arkitektur, massiva träningsdatamängd och banbrytande finjusteringsteknik etablerar Llama 3 en ny state-of-the-art-prestanda för LLM på 8B- och 70B-parameternivåer.

Men Llama 3 är mer än bara en kraftfull språkmodell; det är ett bevis på Metas engagemang för att främja ett öppet och ansvarsfullt AI-ekosystem. Genom att tillhandahålla omfattande resurser, säkerhetverktyg och bästa praxis, ger Meta utvecklare möjlighet att utnyttja Llama 3:s fulla potential samtidigt som de säkerställer ansvarsfull distribution anpassad till deras specifika användningsfall och målgrupper.

Medan Llama 3-resan fortsätter, med nya funktioner, modellstorlekar och forskningsfynd på horisonten, väntar AI-gemenskapen med spänning på de innovativa applikationer och genombrott som utan tvekan kommer att uppstå från denna banbrytande LLM.

Oavsett om du är en forskare som pressar gränserna för naturlig språkbehandling, en utvecklare som bygger nästa generations intelligenta applikationer eller en AI-entusiast som är nyfiken på de senaste framstegen, lovar Llama 3 att vara ett kraftfullt verktyg i din arsenal, öppnande nya dörrar och låsande upp en värld av möjligheter.

Jag har under de senaste fem åren dykt ner i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika mjukvaruutvecklingsprojekt, med särskild fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är angelägen om att utforska vidare.