Artificiell intelligens

Den mest kraftfulla öppen källkod LLM hittills: Meta LLAMA 3.1-405B

publicerade August 2, 2024

Aayush Mittal Mittal

Lama 3.1-405B, utvecklad av Meta AI, representerar ett betydande steg framåt i språkmodeller med öppen källkod. Med 405 miljarder parametrar står den som den största allmänt tillgängliga språkmodellen hittills, och konkurrerar med och till och med överträffar några av de mest avancerade proprietära modellerna i olika benchmarks.

Nyckelfunktioner:

405 miljarder parametrar
128K token kontextlängd
Flerspråkigt stöd (8 språk)
Instruktionsjusterad version tillgänglig
Öppen källkod med tillåten licens

Släppningen av en så kraftfull modell i domänen med öppen källkod är en spelförändring, demokratiserar tillgången till toppmoderna AI-funktioner och främjar innovation i hela branschen.

Modellarkitektur och utbildning

Processen börjar med att inmatningstexttokens konverteras till tokeninbäddningar. Dessa inbäddningar passerar genom flera lager av självuppmärksamhet och feedforward-nätverk, vilket gör att modellen kan fånga komplexa relationer och beroenden i texten. Den autoregressiva avkodningsmekanismen genererar sedan de utgående textsymbolerna och fullbordar processen.

Grouped Query Attention (GQA)

Uppmärksamhet på grupperad fråga

Llama 3.1 använder Grouped Query Attention, vilket är en viktig optimeringsteknik som inte helt behandlades i föregående svar. Låt oss utforska detta mer i detalj:

Grouped Query Attention (GQA) är en variant av multi-head uppmärksamhet som syftar till att minska beräkningskostnader och minnesanvändning under slutledning, särskilt för långa sekvenser. I Llama 3.1 405B-modellen implementeras GQA med 8 nyckel-värdehuvuden.

Så här fungerar GQA:

Istället för att ha separata nyckel- och värdeprojektioner för varje uppmärksamhetshuvud, grupperar GQA flera frågehuvuden för att dela samma nyckel- och värdehuvuden.
Denna gruppering minskar avsevärt antalet parametrar i nyckel- och värdeprognoserna, vilket leder till mindre modellstorlekar och snabbare slutledning.
Uppmärksamhetsberäkningen kan uttryckas som:

Attention(Q, K, V) = softmax(QK^T / sqrt(d_k))V

Där Q är grupperat i g-grupper och K och V har färre huvuden än Q.

Fördelarna med GQA i Llama 3.1 405B inkluderar:

Minskat minnesfotavtryck: Färre nyckel- och värdeprojektioner innebär att mindre minne krävs för att lagra modellparametrarna.
Snabbare slutledning: Med färre beräkningar som behövs för nyckel- och värdeprojektioner förbättras slutledningshastigheten.
Bibehållen prestanda: Trots minskningen av parametrar har GQA visat sig bibehålla prestanda jämförbar med standard multi-head uppmärksamhet i många uppgifter.

Tvåstegs förträning för utökad kontext

Artikeln nämner en tvåstegs förträningsprocess för att uppnå kontextfönstret på 128K tokens. Detta är en avgörande aspekt av Llama 3.1 405B:s kapacitet:

Steg 1: Inledande förträning på 8K-polletter

Modellen tränas först på sekvenser på upp till 8K tokens.
Detta steg gör att modellen kan lära sig allmän språkförståelse och genereringsförmåga.

Steg 2: Fortsatt förträning för kontextförlängning

Efter den inledande träningen genomgår modellen fortsatt förträning för att öka kontextlängden till 128K tokens.
Detta steg innefattar noggrant utformade träningsregimer för att hjälpa modellen att generalisera till längre sekvenser utan att förlora sin förmåga att hantera kortare sammanhang.

Multimodala möjligheter

Medan det tidigare svaret berörde multimodala möjligheter, kan vi utöka hur Llama 3.1 405B implementerar detta:

Kompositionellt tillvägagångssätt:

Llama 3.1 405B använder separata kodare för olika modaliteter (t.ex. bilder, tal).
Dessa kodare omvandlar input från olika modaliteter till ett delat inbäddningsutrymme som språkmodellen kan förstå.

Integration med språkmodell:

Utdata från dessa specialiserade kodare matas sedan in i huvudspråksmodellen.
Detta gör att Llama 3.1 405B kan bearbeta och förstå olika typer av data samtidigt, vilket gör det möjligt för den att utföra uppgifter som involverar flera modaliteter.

Korsuppmärksamhetsmekanismer:

För att hantera integrationen av olika modaliteter använder Llama 3.1 405B sannolikt korsuppmärksamhetsmekanismer.
Dessa mekanismer tillåter modellen att ta hänsyn till relevant information från olika modaliteter när den genererar text eller utför andra uppgifter.

De multimodala funktionerna i Llama 3.1 405B öppnar upp ett brett utbud av applikationer, såsom:

Bildtextning och visuell frågesvar
Tal-till-text-transkription med kontextuell förståelse
Multimodala resonemangsuppgifter som kombinerar text, bilder och potentiellt andra datatyper

Utbildningsdetaljer

Tränade på över 15 biljoner token
Specialbyggt GPU-kluster med 39.3M GPU timmar för 405B-modellen
Mångsidig datauppsättning för flerspråkig kapacitet

Den instruktionsjusterade versionen genomgick ytterligare utbildning:

Finjusterad på allmänt tillgängliga instruktionsdatauppsättningar
Över 25M syntetiskt genererade exempel
Övervakad finjustering (SFT) och Förstärkt lärande med mänsklig feedback (RLHF)

Prestanda Benchmarks

Tabellen jämför Llama 3.1 405B, Nemotron 4 340B Instruct, GPT-4 (0125), GPT-4 Omni och Claude 3.5 Sonnet. Viktiga riktmärken inkluderar allmänna uppgifter som MMLU och IFEval, koduppgifter som HumanEval och GSM8K, och resonemangsuppgifter som ARC Challenge. Varje riktmärkespoäng återspeglar modellens förmåga att förstå och generera människolik text, lösa komplexa problem och exekvera kod. Det är värt att notera att Llama 3.1 405B och Claude 3.5 Sonnet utmärker sig i flera riktmärken och visar upp sina avancerade förmågor inom både allmänna och domänspecifika uppgifter.

Minneskrav för Llama 3.1-405B

Att köra Llama 3.1-405B kräver betydande minne och beräkningsresurser:

GPU-minne: 405B-modellen kan använda upp till 80 GB GPU-minne per A100 GPU för effektiv slutledning. Att använda Tensor Parallelism kan fördela belastningen över flera GPU:er.
RAMMinst 512 GB system-RAM rekommenderas för att hantera modellens minnesbehov och säkerställa smidig databehandling.
lagring: Se till att du har flera terabyte SSD-lagring för modellvikter och tillhörande datamängder. Höghastighets-SD:er är avgörande för att minska dataåtkomsttider under träning och slutledning (Lama Ai modell) (Groq).

Inferensoptimeringstekniker för Llama 3.1-405B

Att köra en 405B-parametermodell som Llama 3.1 effektivt kräver flera optimeringstekniker. Här är nyckelmetoder för att säkerställa effektiv slutledning:

a) Kvantisering: Kvantisering innebär att minska precisionen i modellens vikter, vilket minskar minnesanvändningen och förbättrar inferenshastigheten utan att avsevärt offra noggrannheten. Llama 3.1 stöder kvantisering till FP8 eller till och med lägre precisioner med hjälp av tekniker som QLoRA (Quantized Low-Rank Adaptation) för att optimera prestanda på GPU:er.

Exempel på kod:

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

model_name = "meta-llama/Meta-Llama-3.1-405B"
bnb_config = BitsAndBytesConfig(
load_in_8bit=True, # Change to load_in_4bit for 4-bit precision
bnb_8bit_quant_type="fp8",
bnb_8bit_compute_dtype=torch.float16,
)
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

b) Tensorparallellism: Tensorparallellism innebär att man delar upp modellens lager över flera grafikkort för att parallellisera beräkningar. Detta är särskilt användbart för stora modeller som Llama 3.1, vilket möjliggör effektiv resursanvändning.

Exempel på kod:

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name = "meta-llama/Meta-Llama-3.1-405B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype=torch.float16
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
nlp = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)

c) KV-cacheoptimering: Effektiv hantering av nyckel-värde-cachen (KV) är avgörande för att hantera långa sammanhang. Llama 3.1 stöder utökade kontextlängder, som kan hanteras effektivt med optimerade KV-cache-tekniker. Exempel på kod:

# Ensure you have sufficient GPU memory to handle extended context lengths
output = model.generate(
input_ids, 
max_length=4096, # Increase based on your context length requirement
use_cache=True
)

Implementeringsstrategier

Att distribuera Llama 3.1-405B kräver noggrant övervägande av hårdvaruresurser. Här är några alternativ:

a) Molnbaserad implementering: Använd GPU-instanser med högt minne från molnleverantörer som AWS (P4d-instanser) eller Google Cloud (TPU v4).

Exempel på kod:

# Example setup for AWS
import boto3
ec2 = boto3.resource('ec2')
instance = ec2.create_instances(
ImageId='ami-0c55b159cbfafe1f0', # Deep Learning AMI
InstanceType='p4d.24xlarge',
MinCount=1,
MaxCount=1
)

b) Lokal distribution: För organisationer med högpresterande beräkningsmöjligheter erbjuder implementering av Llama 3.1 på plats mer kontroll och potentiellt lägre långsiktiga kostnader.

Exempel på inställningar:

# Example setup for on-premises deployment
# Ensure you have multiple high-performance GPUs, like NVIDIA A100 or H100
pip install transformers
pip install torch # Ensure CUDA is enabled

c) Distribuerad slutledning: För större distributioner, överväg att distribuera modellen över flera noder.

Exempel på kod:

# Using Hugging Face's accelerate library
from accelerate import Accelerator

accelerator = Accelerator()
model, tokenizer = accelerator.prepare(model, tokenizer)

Användningsfall och applikationer

Kraften och flexibiliteten hos Llama 3.1-405B öppnar upp för många möjligheter:

a) Syntetisk datagenerering: Generera högkvalitativa, domänspecifika data för utbildning av mindre modeller.

Exempel på användningsfall:

from transformers import pipeline

generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
synthetic_data = generator("Generate financial reports for Q1 2023", max_length=200)

b) Kunskapsdestillation: Överför kunskapen om 405B-modellen till mindre, mer implementerbara modeller.

Exempel på kod:

# Use distillation techniques from Hugging Face
from transformers import DistillationTrainer, DistillationTrainingArguments

training_args = DistillationTrainingArguments(
    output_dir="./distilled_model",
    per_device_train_batch_size=2,
    num_train_epochs=3,
    logging_dir="./logs",
)
trainer = DistillationTrainer(
    teacher_model=model,
    student_model=smaller_model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)
trainer.train()

c) Domänspecifik finjustering: Anpassa modellen för specialiserade uppgifter eller branscher.

Exempel på kod:

from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./domain_specific_model",
    per_device_train_batch_size=1,
    num_train_epochs=3,
)
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)
trainer.train()

Dessa tekniker och strategier hjälper dig att utnyttja den fulla potentialen hos Llama 3.1-405B, vilket säkerställer effektiva, skalbara och specialiserade AI-applikationer.

framtida Avstånd

Utgivningen av Llama 3.1-405B kommer sannolikt att påskynda innovation inom flera områden:

Förbättrade finjusteringstekniker för specialiserade domäner
Utveckling av effektivare slutledningsmetoder
Framsteg inom modellkompression och destillation

Slutsats

Llama 3.1-405B representerar en betydande milstolpe inom AI med öppen källkod, och erbjuder funktioner som tidigare var exklusiva för modeller med stängd källkod.

I takt med att vi fortsätter att utforska kraften i denna modell är det avgörande att närma sig dess användning med ansvar och etisk hänsyn. De verktyg och skyddsåtgärder som tillhandahålls tillsammans med modellen erbjuder ett ramverk för ansvarsfull implementering, men kontinuerlig vaksamhet och samarbete med lokalsamhället kommer att vara avgörande för att säkerställa att denna kraftfulla teknik används till förmån för samhället.

Strax

Mistral 2 och Mistral NeMo: En omfattande guide till den senaste LLM som kommer från Paris

Missa inte

Avtäcker SAM 2: Metas nya grundmodell med öppen källkod för objektsegmentering i realtid i videor och bilder

Aayush Mittal

Jag har ägnat de senaste fem åren åt att fördjupa mig i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika programvaruutvecklingsprojekt, med särskilt fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är ivrig att utforska vidare.

Unite.AI

Den mest kraftfulla öppen källkod LLM hittills: Meta LLAMA 3.1-405B

Nyckelfunktioner:

Modellarkitektur och utbildning

Grouped Query Attention (GQA)

Tvåstegs förträning för utökad kontext

Multimodala möjligheter

Utbildningsdetaljer

Prestanda Benchmarks

Minneskrav för Llama 3.1-405B

Inferensoptimeringstekniker för Llama 3.1-405B

Implementeringsstrategier

Användningsfall och applikationer

framtida Avstånd

Slutsats

Du må gilla