Artificiell intelligens
Den kraftfullaste öppna kÀllkods-LLM hittills: Meta LLAMA 3.1-405B
Llama 3.1-405B, utvecklad av Meta AI, representerar ett betydande steg framåt i öppna källkods-språkmodeller. Med 405 miljarder parametrar är det den största offentligt tillgängliga språkmodellen hittills, som rivaliserar och till och med överträffar några av de mest avancerade proprietära modellerna i olika benchmark-tester.
Nyckelfunktioner:
- 405 miljarder parametrar
- 128K token kontextlängd
- Flerspråkig stöd (8 språk)
- Instruktionsjusterad version tillgänglig
- Öppen källkod med en permissiv licens
Släppandet av en sådan kraftfull modell i den öppna källkods-domen är en spelväxlare, som demokratiserar tillgången till state-of-the-art AI-kapaciteter och främjar innovation inom hela branschen.
Modellarkitektur och utbildning
Processen börjar med att indata-texttoken omvandlas till token-inbäddningar. Dessa inbäddningar passerar genom flera lager av självuppmärksamhet och feedforward-nätverk, vilket tillåter modellen att fånga komplexa relationer och beroenden inom texten. Den autoregressiva avkodningsmekanismen genererar sedan utdata-texttoken, vilket slutför processen.

-
Grupperad frågeuppmärksamhet (GQA)
Llama 3.1 använder Grupperad frågeuppmärksamhet, som är en viktig optimeringsteknik som inte fullständigt täcktes i den tidigare responsen. Låt oss undersöka detta närmare:
Grupperad frågeuppmärksamhet (GQA) är en variant av multi-huvuduppmärksamhet som syftar till att minska beräkningskostnader och minnesanvändning under inferens, särskilt för långa sekvenser. I Llama 3.1 405B-modellen implementeras GQA med 8 nyckel-värdehuvuden.
Här är hur GQA fungerar:
- Istället för att ha separata nyckel- och värdeprojektioner för varje uppmärksamhets-huvud, grupperar GQA flera frågehuvuden för att dela samma nyckel- och värdehuvuden.
- Denna gruppering minskar betydligt antalet parametrar i nyckel- och värdeprojektionerna, vilket leder till mindre modellstorlekar och snabbare inferens.
- Uppmärksamhetsberäkningen kan uttryckas som:
Uppmärksamhet(Q, K, V) = softmax(QK^T / sqrt(d_k))VDär Q är grupperad i g grupper, och K och V har färre huvuden än Q.
Fördelarna med GQA i Llama 3.1 405B inkluderar:
- Minskat minnesavtryck: Färre nyckel- och värdeprojektioner innebär att mindre minne krävs för att lagra modellparametrarna.
- Snabbare inferens: Med färre beräkningar som krävs för nyckel- och värdeprojektioner förbättras inferenshastigheten.
- Bibehållen prestanda: Trots minskningen av parametrar har GQA visat sig bibehålla jämförbar prestanda med standard multi-huvuduppmärksamhet i många uppgifter.
-
Tvåstegs förutbildning för utökad kontext
Artikeln nämner en tvåstegs förutbildningsprocess för att uppnå 128K token kontextfönstret. Detta är en avgörande aspekt av Llama 3.1 405B:s förmågor:
Steg 1: Initial förutbildning på 8K token
- Modellen tränas först på sekvenser upp till 8K token.
- Denna fas tillåter modellen att lära sig allmän språkförståelse och genereringsförmåga.
Steg 2: Fortsatt förutbildning för kontextutvidgning
- Efter den initiala utbildningen genomgår modellen en fortsatt förutbildning för att öka kontextlängden till 128K token.
- Denna fas innefattar noggrant utformade utbildningsregimer för att hjälpa modellen generalisera till längre sekvenser utan att förlora sin förmåga att hantera kortare sammanhang.
-
Flerspråkiga förmågor
Medan den tidigare responsen berörde flerspråkiga förmågor, kan vi utveckla detta:
Kompositionell ansats:
- Llama 3.1 405B använder separata encoder för olika modaliteter (t.ex. bilder, tal).
- Dessa encoder omvandlar indata från olika modaliteter till ett gemensamt inbäddningsspråk som språkmodellen kan förstå.
Integrering med språkmodell:
- Utdata från dessa specialiserade encoder matas sedan in i den huvudsakliga språkmodellen.
- Detta tillåter Llama 3.1 405B att bearbeta och förstå olika typer av data samtidigt, vilket möjliggör uppgifter som involverar flera modaliteter.
Korsuppmärksamhetsmekanismer:
- För att hantera integrationen av olika modaliteter använder Llama 3.1 405B sannolikt korsuppmärksamhetsmekanismer.
- Dessa mekanismer tillåter modellen att uppmärksamma relevant information från olika modaliteter när den genererar text eller utför andra uppgifter.
De flerspråkiga förmågorna i Llama 3.1 405B öppnar upp en mängd olika tillämpningar, såsom:
- Bildbeskrivning och visuell frågebesvaring
- Tal-till-text-transkription med kontextuell förståelse
- Flerspråkiga resonemangsuppgifter som kombinerar text, bilder och potentiellt andra datatyper
Utbildningsdetaljer
- Tränad på över 15 biljoner token
- Egenbyggd GPU-kluster med 39,3M GPU-timmar för 405B-modellen
- Mångsidig dataset-samling för flerspråkiga förmågor
Den instruktionsjusterade versionen genomgick ytterligare utbildning:
- Fine-tuning på offentligt tillgängliga instruktionsdataset
- Över 25M syntetiskt genererade exempel
- Övervakad fine-tuning (SFT) och Förstärkt inlärning med mänsklig återkoppling (RLHF)
Prestandamätningar
Tabellen jämför Llama 3.1 405B, Nemotron 4 340B Instruct, GPT-4 (0125), GPT-4 Omni och Claude 3.5 Sonnet. Nyckelbenchmark-tester inkluderar allmänna uppgifter som MMLU och IFEval, koduppgifter som HumanEval och GSM8K, och resonemangsuppgifter som ARC Challenge. Varje benchmark-poäng reflekterar modellens förmåga att förstå och generera mänsklig text, lösa komplexa problem och utföra kod. Noterbart är att Llama 3.1 405B och Claude 3.5 Sonnet utmärker sig i flera benchmark-tester, vilket visar deras avancerade förmågor inom både allmänna och domänspecifika uppgifter.
Framtida riktningar
Släppandet av Llama 3.1-405B kommer sannolikt att accelerera innovation inom flera områden:
- Förbättrade fine-tuningstekniker för specialiserade domäner
- Utveckling av mer effektiva inferensmetoder
- Framsteg inom modellkomprimering och destillering
Slutsats
Llama 3.1-405B representerar en betydande milstolpe inom öppen källkods-AI, som erbjuder förmågor som tidigare var exklusiva för slutna modeller.
Medan vi fortsätter att utforska kraften i denna modell, är det avgörande att närma sig dess användning med ansvar och etisk övervägning. Verktygen och skydd som tillhandahålls tillsammans med modellen erbjuder en ram för ansvarsfull distribution, men kontinuerlig vaksamhet och samarbete inom samhället kommer att vara avgörande för att säkerställa att denna kraftfulla teknologi används till förmån för samhället.














