Kunstig intelligens

Den mest kraftfulle åpne kilde LLM ennå: Meta LLAMA 3.1-405B

Publisert 2. august 2024

Oppdatert 21. mai 2026

Aayush Mittal Mittal

div]:bg-bg-300 [&_pre]:-mr-4 md:[&_pre]:-mr-9″>

Llama 3.1-405B, utviklet av Meta AI, representerer et betydelig sprang fremover i åpne kilde språkmodeller. Med 405 milliarder parametere, står det som den største offentlig tilgjengelige språkmodellen til dags dato, og rivaliserer og overgår noen av de mest avanserte proprietære modellene i ulike benchmark.

Nøkkel funksjoner:

405 milliarder parametere
128K token kontekst lengde
Flerspråklig støtte (8 språk)
Instruksjon-tuned versjon tilgjengelig
Åpen kilde med en permissiv lisens

Utgivelsen av en så kraftfull modell i åpen kilde domenet er en game-changer, demokratiserer tilgangen til state-of-the-art AI-kapasiteter og fremmer innovasjon over hele industrien.

Modell arkitektur og trening

Prosessen begynner med input tekst token som konverteres til token-embeddings. Disse embeddingene passerer gjennom flere lag av selv-oppmerksomhet og feedforward nettverk, som tillater modellen å fange komplekse relasjoner og avhengigheter innenfor teksten. Den autoregressive dekoding-mekanismen genererer deretter output tekst token, og fullfører prosessen.

div]:bg-bg-300 [&_pre]:-mr-4 md:[&_pre]:-mr-9″>

Gruppert spørings oppmerksomhet (GQA)

Gruppert spørings oppmerksomhet

Llama 3.1 utnytter Gruppert spørings oppmerksomhet, som er en viktig optimaliseringsteknikk som ikke fullstendig er dekket i den forrige responsen. La oss utforske dette i mer detalj:

Gruppert spørings oppmerksomhet (GQA) er en variant av multi-hode oppmerksomhet som har som mål å redusere beregningskostnader og minnebruk under inferens, særlig for lange sekvenser. I Llama 3.1 405B-modellen er GQA implementert med 8 nøkkel-verdi-hoder.

Her er hvordan GQA fungerer:

I stedet for å ha separate nøkkel- og verdi-projeksjoner for hver oppmerksomhets-hode, grupperer GQA flere spørings-hoder for å dele samme nøkkel- og verdi-hoder.
Denne grupperingen reduserer betydelig antallet parametere i nøkkel- og verdi-projeksjonene, noe som fører til mindre modell-størrelser og raskere inferens.
Oppmerksomhets-beregningen kan uttrykkes som:

Oppmerksomhet(Q, K, V) = softmax(QK^T / sqrt(d_k))V

Hvor Q er gruppert i g grupper, og K og V har færre hoder enn Q.

Fordelene med GQA i Llama 3.1 405B inkluderer:

Redusert minne-avtrykk: Færre nøkkel- og verdi-projeksjoner betyr mindre minne er nødvendig for å lagre modell-parametere.
Raskere inferens: Med færre beregninger nødvendig for nøkkel- og verdi-projeksjoner, er inferens-hastigheten forbedret.
Beholdt ytelse: Til tross for reduksjonen i parametere, har GQA vist seg å beholde sammenlignbar ytelse med standard multi-hode oppmerksomhet i mange oppgaver.

To-trinns forhånds-trening for utvidet kontekst

Artikkelen nevner en to-trinns forhånds-trening-prosess for å oppnå 128K token kontekst-vindu. Dette er et kritisk aspekt av Llama 3.1 405B’s kapasiteter:

Trinn 1: Initial forhånds-trening på 8K tokens

Modellen er først trenet på sekvenser på opptil 8K tokens.
Dette trinnet tillater modellen å lære generell språk-forståelse og genererings-kapasiteter.

Trinn 2: Fortsettende forhånds-trening for kontekst-utvidelse

Etter den initielle treningen, gjennomgår modellen en fortsettende forhånds-trening for å øke kontekst-lengden til 128K tokens.
Dette trinnet innebærer nøye designet trening-regimer for å hjelpe modellen å generalisere til lengre sekvenser uten å miste evnen til å håndtere kortere kontekster.

Flerspråklig kapasitet

mens den forrige responsen berørte flerspråklig kapasitet, kan vi utvide på hvordan Llama 3.1 405B implementerer dette:

Komposisjons-tilnærming:

Llama 3.1 405B bruker separate encodere for forskjellige modaliteter (f.eks. bilder, tale).
Disse encoderne transformerer input fra forskjellige modaliteter til en felles innbednings-rom som språk-modellen kan forstå.

Integrering med språk-modell:

Utdataene fra disse spesialiserte encoderne føres deretter inn i hoved-språk-modellen.
Dette tillater Llama 3.1 405B å prosessere og forstå forskjellige typer data samtidig, og å utføre oppgaver som involverer flere modaliteter.

Kryss-oppmerksomhets-mekanismer:

For å håndtere integreringen av forskjellige modaliteter, bruker Llama 3.1 405B sannsynligvis kryss-oppmerksomhets-mekanismer.
Disse mekanismene tillater modellen å fokusere på relevante informasjon fra forskjellige modaliteter når den genererer tekst eller utfører andre oppgaver.

Den flerspråklige kapasiteten til Llama 3.1 405B åpner opp for en rekke muligheter:

Bilde-underskrift og visuell spørsmål-svar
Tale-til-tekst-transkripsjon med kontekst-forståelse
Flerspråklig resonnering-oppgaver som kombinerer tekst, bilder og potensielt andre data-typer

Trening detaljer

Trenet på over 15 billioner tokens
Egenbygd GPU-kluster med 39,3M GPU-timer for 405B-modellen
Mangfoldig datasett-kurering for flerspråklig kapasitet

Den instruksjon-tuned versjonen gjennomgikk ytterligere trening:

Fine-tunet på offentlig tilgjengelige instruksjons-datasett
Over 25M syntetisk genererte eksempler
Overvåket fine-tuning (SFT) og Forsterket læring med menneskelig tilbakemelding (RLHF)

Ytelses-benchmark

Tabellen sammenligner Llama 3.1 405B, Nemotron 4 340B Instruct, GPT-4 (0125), GPT-4 Omni og Claude 3.5 Sonnet. Nøkkel-benchmark inkluderer generelle oppgaver som MMLU og IFEval, kode-oppgaver som HumanEval og GSM8K, og resonnering-oppgaver som ARC Challenge. Hver benchmark-poeng reflekterer modellens evne til å forstå og generere menneske-lignende tekst, løse komplekse problemer og utføre kode. Notabelt, Llama 3.1 405B og Claude 3.5 Sonnet utmerker seg i flere benchmark, og viser deres avanserte kapasiteter i både generelle og domene-spesifikke oppgaver.

Minne-krav for Llama 3.1-405B

Kjøring av Llama 3.1-405B krever betydelig minne og beregningsressurser:

GPU-minne: 405B-modellen kan utnytte opptil 80GB GPU-minne per A100 GPU for effektiv inferens. Bruk av Tensor Parallelism kan distribuere lasten over flere GPU-er.
RAM: En minimum på 512GB system-RAM anbefales for å håndtere modellens minne-avtrykk og sikre jevn data-prosessering.
Lagring: Sikre at du har flere terabyte SSD-lagring for modell-vekt og tilhørende datasett. Høyhastighets SSD-er er kritisk for å redusere data-tilgangstider under trening og inferens (Llama Ai Model) (Groq).

Inferens-optimaliseringsteknikker for Llama 3.1-405B

Kjøring av en 405B parameter-modell som Llama 3.1 effektivt krever flere optimaliseringsteknikker. Her er nøkkel-metoder for å sikre effektiv inferens:

a) Kvantifisering: Kvantifisering innebærer å redusere nøyaktigheten av modellens vekter, noe som reduserer minne-bruk og forbedrer inferens-hastighet uten å ofre mye på nøyaktigheten. Llama 3.1 støtter kvantifisering til FP8 eller lavere presisjoner ved hjelp av teknikkene QLoRA (Quantized Low-Rank Adaptation) for å optimalisere ytelse på GPU-er.

Eksempel-kode:


<p>from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig</p>

<p>model_name = "meta-llama/Meta-Llama-3.1-405B"
bnb_config = BitsAndBytesConfig(
load_in_8bit=True, # Endre til load_in_4bit for 4-bit presisjon
bnb_8bit_quant_type="fp8",
bnb_8bit_compute_dtype=torch.float16,
)
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)</p>

b) Tensor-parallelisme: Tensor-parallelisme innebærer å splitte modellens lag over flere GPU-er for å parallelisere beregninger. Dette er særlig nyttig for store modeller som Llama 3.1, og tillater effektiv bruk av ressurser.

Eksempel-kode:

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

<p>model_name = "meta-llama/Meta-Llama-3.1-405B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype=torch.float16
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
nlp = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)

c) KV-cache-optimalisering: Effektiv håndtering av nøkkel-verdi-cache er kritisk for å håndtere lange kontekster. Llama 3.1 støtter utvidede kontekst-lengder, som kan håndteres effektivt ved hjelp av optimaliserte KV-cache-teknikker. Eksempel-kode:

# Sikre at du har tilstrekkelig GPU-minne for å håndtere utvidede kontekst-lengder
output = model.generate(
input_ids,
max_length=4096, # Øk basert på kontekst-lengde-krav
use_cache=True
)

Deploy-strategier

Deploying av Llama 3.1-405B krever omtanke til hardware-ressurser. Her er noen alternativer:

a) Sky-basert deploy: Utnytt høy-minne GPU-eksemplarer fra sky-tilbydere som AWS (P4d-eksemplarer) eller Google Cloud (TPU v4).

Eksempel-kode:

# Eksempeloppsett for AWS
import boto3
ec2 = boto3.resource('ec2')
instance = ec2.create_instances(
ImageId='ami-0c55b159cbfafe1f0', # Deep Learning AMI
InstanceType='p4d.24xlarge',
MinCount=1,
MaxCount=1
)

b) Lokal deploy: For organisasjoner med høy-ytelses datamaskiner, å deploye Llama 3.1 på egen hånd gir mer kontroll og potensielt lavere langtids-kostnader.

Eksempeloppsett:

# Eksempeloppsett for lokal deploy
# Sikre at du har flere høy-ytelses GPU-er, som NVIDIA A100 eller H100
pip install transformers
pip install torch # Sikre at CUDA er aktivert

c) Distribuert inferens: For større deploy, vurdere å distribuere modellen over flere noder.

Eksempel-kode:

# Ved hjelp av Hugging Face sitt accelerate-bibliotek
from accelerate import Accelerator

<p>accelerator = Accelerator()
model, tokenizer = accelerator.prepare(model, tokenizer)

Bruksområder og anvendelser

Kraften og fleksibiliteten til Llama 3.1-405B åpner opp for en rekke muligheter:

a) Syntetisk data-generering: Generer høykvalitets, domene-spesifikke data for å trene mindre modeller.

Eksempel-bruksområde:

from transformers import pipeline

<p>generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
syntetisk_data = generator("Generer finansielle rapporter for Q1 2023", max_length=200)</p>

b) Kunnskaps-destillasjon: Overfør kunnskapen fra 405B-modellen til mindre, mer deployable modeller.

Eksempel-kode:

# Bruk destillasjonsteknikker fra Hugging Face
from transformers import DistillationTrainer, DistillationTrainingArguments

<p>training_args = DistillationTrainingArguments(
output_dir="./distilled_model",
per_device_train_batch_size=2,
num_train_epochs=3,
logging_dir="./logs",
)
trainer = DistillationTrainer(
teacher_model=model,
student_model=smaller_model,
args=training_args,
train_dataset=train_dataset,
eval_dataset=eval_dataset,
)
trainer.train()</p>

c) Domene-spesifikke fine-tuning: Tilpass modellen for spesialiserte oppgaver eller bransjer.

Eksempel-kode:

from transformers import Trainer, TrainingArguments

<p>training_args = TrainingArguments(
output_dir="./domain_specific_model",
per_device_train_batch_size=1,
num_train_epochs=3,
)
trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_dataset,
eval_dataset=eval_dataset,
)
trainer.train()</p>

Disse teknikkene og strategiene vil hjelpe deg å utnytte fullt potensialet til Llama 3.1-405B, og sikre effektive, skalerbare og spesialiserte AI-applikasjoner.

Fremtidige retninger

Utgivelsen av Llama 3.1-405B er sannsynligvis å akselerere innovasjon i flere områder:

Forbedrede fine-tuningsteknikker for spesialiserte domener
Utvikling av mer effektive inferens-metoder
Fremgang i modell-komprimering og destillasjon

Konklusjon

Llama 3.1-405B representerer et betydelig milepæl i åpen kilde AI, og tilbyr kapasiteter som tidligere var eksklusive for lukkede modeller.

Ettersom vi fortsetter å utforske kraften til denne modellen, er det essensielt å nærme seg dens bruk med ansvar og etisk overveielse. Verktøyene og sikkerhetstiltakene som følger med modellen, gir en ramme for ansvarlig deploy, men kontinuerlig varsomhet og samarbeid innenfor samfunnet vil være avgjørende for å sikre at denne kraftfulle teknologien brukes til beste for samfunnet.

Aayush Mittal, Mittal

Jeg har brukt de siste fem årene på å dykke ned i den fasiniserende verden av Maskinlæring og Dypt Læring. Min lidenskap og ekspertise har ledet meg til å bidra til over 50 ulike programvareprosjekter, med særlig fokus på AI/ML. Min pågående nysgjørhet har også trukket meg mot Naturlig Språkbehandling, et felt jeg er ivrig etter å utforske videre.