Inteligența artificială

Cel mai puternic LLM cu sursă deschisă de până acum: Meta LLAMA 3.1-405B

Publicat August 2, 2024

Aayush Mittal Mittal

Lama 3.1-405B, dezvoltat de Meta AI, reprezintă un salt înainte semnificativ în modelele de limbaj open-source. Cu 405 miliarde de parametri, este cel mai mare model de limbă disponibil public până în prezent, rivalizând și chiar depășind unele dintre cele mai avansate modele proprietare în diferite benchmark-uri.

Caracteristici cheie:

405 miliarde de parametri
Lungimea contextului simbolului de 128K
Suport multilingv (Limbile 8)
Acordat cu instrucțiuni versiune disponibilă
Open-source cu licență permisivă

Lansarea unui model atât de puternic în domeniul open-source este un schimbător de joc, democratizează accesul la capabilități de AI de ultimă generație și încurajează inovația în industrie.

Arhitectură și instruire model

Procesul începe cu jetoanele de text de intrare care sunt convertite în înglobare de simboluri. Aceste înglobări trec prin mai multe straturi de rețele de auto-atenție și feedforward, permițând modelului să surprindă relații și dependențe complexe în text. Mecanismul de decodare autoregresiv generează apoi jetoanele text de ieșire, completând procesul.

Atenție la interogare grupată (GQA)

Atenție la interogare grupată

Llama 3.1 utilizează Grouped Query Attention, o tehnică importantă de optimizare care nu a fost abordată pe deplin în răspunsul anterior. Să explorăm acest aspect mai detaliat:

Atenția de interogare grupată (GQA) este o variantă a atenției cu mai multe capete care are ca scop reducerea costurilor de calcul și a utilizării memoriei în timpul inferenței, în special pentru secvențele lungi. În modelul Llama 3.1 405B, GQA este implementat cu 8 capete cheie-valoare.

Iată cum funcționează GQA:

În loc să aibă proiecții separate de cheie și valoare pentru fiecare cap de atenție, GQA grupează mai multe capete de interogare pentru a partaja aceleași capete de cheie și valoare.
Această grupare reduce semnificativ numărul de parametri din proiecțiile cheie și valorice, ceea ce duce la dimensiuni mai mici ale modelului și o inferență mai rapidă.
Calculul atenției poate fi exprimat astfel:

Attention(Q, K, V) = softmax(QK^T / sqrt(d_k))V

Unde Q este grupat în g grupuri, iar K și V au mai puține capete decât Q.

Beneficiile GQA în Llama 3.1 405B includ:

Amprentă de memorie redusă: Mai puține proiecții cheie și valori înseamnă că este necesară mai puțină memorie pentru a stoca parametrii modelului.
Inferență mai rapidă: Cu mai puține calcule necesare pentru proiecțiile cheie și valori, viteza de inferență este îmbunătățită.
Performanță menținută: În ciuda reducerii parametrilor, s-a demonstrat că GQA menține performanțe comparabile cu atenția standard cu mai multe capete în multe sarcini.

Pre-instruire în două etape pentru context extins

Articolul menționează un proces de pre-antrenament în două etape pentru a atinge fereastra de context a token-ului de 128K. Acesta este un aspect crucial al capabilităților Llama 3.1 405B:

Etapa 1: Pre-antrenament inițial pe jetoane 8K

Modelul este mai întâi antrenat pe secvențe de până la 8K jetoane.
Această etapă permite modelului să învețe înțelegerea generală a limbajului și capacitățile de generare.

Etapa 2: Pre-instruire continuă pentru extinderea contextului

După antrenamentul inițial, modelul este supus unui pre-antrenament continuu pentru a crește lungimea contextului la 128K tokens.
Această etapă implică regimuri de antrenament atent concepute pentru a ajuta modelul să se generalizeze la secvențe mai lungi, fără a-și pierde capacitatea de a gestiona contexte mai scurte.

Capacități multimodale

În timp ce răspunsul anterior a atins capacitățile multimodale, putem extinde modul în care Llama 3.1 405B implementează acest lucru:

Abordare compozițională:

Llama 3.1 405B utilizează codificatoare separate pentru diferite modalități (de exemplu, imagini, vorbire).
Acești codificatori transformă intrarea din diferite modalități într-un spațiu de încorporare comun pe care modelul de limbaj îl poate înțelege.

Integrare cu modelul lingvistic:

Ieșirile de la aceste codificatoare specializate sunt apoi introduse în modelul de limbaj principal.
Acest lucru îi permite lui Llama 3.1 405B să proceseze și să înțeleagă diferite tipuri de date simultan, permițându-i să realizeze sarcini care implică mai multe modalități.

Mecanisme de atenție încrucișată:

Pentru a gestiona integrarea diferitelor modalități, Llama 3.1 405B utilizează probabil mecanisme de atenție încrucișată.
Aceste mecanisme permit modelului să se ocupe de informații relevante din diferite modalități atunci când generează text sau efectuează alte sarcini.

Capacitățile multimodale ale Llama 3.1 405B deschid o gamă largă de aplicații, cum ar fi:

Subtitrări și răspunsuri vizuale la întrebări
Transcriere de la vorbire la text cu înțelegere contextuală
Sarcini de raționament multimodal care combină text, imagini și eventual alte tipuri de date

Detalii de antrenament

Antrenat la peste 15 trilioane jetoane
Cluster GPU personalizat cu 39.3 milioane de ore GPU pentru modelul 405B
Curare diverse seturi de date pentru capabilități multilingve

Versiunea reglată cu instrucțiuni a fost supusă unei instruiri suplimentare:

Ajustat pe seturi de date de instrucțiuni disponibile public
Peste 25M exemple generate sintetic
Reglare fină supravegheată (SFT) și Învățare prin consolidare cu feedback uman (RLHF)

Benchmarks de performanță

Tabelul compară Llama 3.1 405B, Nemotron 4 340B Instruct, GPT-4 (0125), GPT-4 Omni și Claude 3.5 Sonnet. Printre testele cheie se numără sarcini generale precum MMLU și IFEval, sarcini de cod precum HumanEval și GSM8K și sarcini de raționament precum ARC Challenge. Fiecare scor al testului reflectă capacitatea modelului de a înțelege și genera text asemănător celui uman, de a rezolva probleme complexe și de a executa cod. În special, Llama 3.1 405B și Claude 3.5 Sonnet excelează la mai multe teste, demonstrându-și capacitățile avansate atât în sarcini generale, cât și în sarcini specifice domeniului.

Cerințe de memorie pentru Llama 3.1-405B

Rularea Llama 3.1-405B necesită memorie substanțială și resurse de calcul:

Memoria GPU: Modelul 405B poate utiliza până la 80 GB de memorie GPU per GPU A100 pentru o inferență eficientă. Utilizarea Tensor Parallelism poate distribui sarcina pe mai multe GPU-uri.
RAMSe recomandă un minim de 512 GB de RAM pentru sistem, pentru a gestiona amprenta de memorie a modelului și a asigura o procesare fără probleme a datelor.
Stocare: Asigurați-vă că aveți câțiva terabytes de stocare SSD pentru greutățile modelului și seturile de date asociate. SSD-urile de mare viteză sunt esențiale pentru reducerea timpilor de acces la date în timpul antrenamentului și al inferenței (Modelul Lama Ai)â € <â € < (Groq).

Tehnici de optimizare a inferenței pentru Llama 3.1-405B

Rularea eficientă a unui model de parametri 405B precum Llama 3.1 necesită mai multe tehnici de optimizare. Iată metode cheie pentru a asigura o inferență eficientă:

a) Cuantizare: Cuantizarea implică reducerea preciziei ponderilor modelului, ceea ce scade utilizarea memoriei și îmbunătățește viteza de inferență fără a sacrifica semnificativ acuratețea. Llama 3.1 acceptă cuantizarea până la FP8 sau chiar precizii mai mici folosind tehnici precum QLoRA (Quantized Low-Rank Adaptation) pentru a optimiza performanța pe GPU-uri.

Exemplu de cod:

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

model_name = "meta-llama/Meta-Llama-3.1-405B"
bnb_config = BitsAndBytesConfig(
load_in_8bit=True, # Change to load_in_4bit for 4-bit precision
bnb_8bit_quant_type="fp8",
bnb_8bit_compute_dtype=torch.float16,
)
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

b) Paralelism tensor: Paralelismul tensorial implică împărțirea straturilor modelului pe mai multe GPU-uri pentru a paraleliza calculele. Acest lucru este util în special pentru modelele mari, cum ar fi Llama 3.1, permițând utilizarea eficientă a resurselor.

Exemplu de cod:

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name = "meta-llama/Meta-Llama-3.1-405B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype=torch.float16
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
nlp = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)

c) Optimizare KV-Cache: Gestionarea eficientă a memoriei cache-cheie-valoare (KV) este crucială pentru gestionarea contextelor lungi. Llama 3.1 acceptă lungimi de context extinse, care pot fi gestionate eficient folosind tehnici optimizate KV-cache. Exemplu de cod:

# Ensure you have sufficient GPU memory to handle extended context lengths
output = model.generate(
input_ids, 
max_length=4096, # Increase based on your context length requirement
use_cache=True
)

Strategii de implementare

Implementarea Llama 3.1-405B necesită o analiză atentă a resurselor hardware. Iată câteva opțiuni:

a) Implementare bazată pe cloud: Utilizați instanțe GPU cu memorie mare de la furnizori de cloud precum AWS (instanțe P4d) sau Google Cloud (TPU v4).

Exemplu de cod:

# Example setup for AWS
import boto3
ec2 = boto3.resource('ec2')
instance = ec2.create_instances(
ImageId='ami-0c55b159cbfafe1f0', # Deep Learning AMI
InstanceType='p4d.24xlarge',
MinCount=1,
MaxCount=1
)

b) Implementare la sediu: Pentru organizațiile cu capabilități de calcul de înaltă performanță, implementarea Llama 3.1 on-premise oferă mai mult control și costuri potențial mai mici pe termen lung.

Exemplu de configurare:

# Example setup for on-premises deployment
# Ensure you have multiple high-performance GPUs, like NVIDIA A100 or H100
pip install transformers
pip install torch # Ensure CUDA is enabled

c) Inferență distribuită: Pentru implementări mai mari, luați în considerare distribuirea modelului pe mai multe noduri.

Exemplu de cod:

# Using Hugging Face's accelerate library
from accelerate import Accelerator

accelerator = Accelerator()
model, tokenizer = accelerator.prepare(model, tokenizer)

Cazuri de utilizare și aplicații

Puterea și flexibilitatea Llama 3.1-405B deschid numeroase posibilități:

a) Generarea de date sintetice: Generați date de înaltă calitate, specifice domeniului pentru antrenarea modelelor mai mici.

Exemplu de caz de utilizare:

from transformers import pipeline

generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
synthetic_data = generator("Generate financial reports for Q1 2023", max_length=200)

b) Distilarea cunoștințelor: Transferați cunoștințele despre modelul 405B către modele mai mici, mai implementabile.

Exemplu de cod:

# Use distillation techniques from Hugging Face
from transformers import DistillationTrainer, DistillationTrainingArguments

training_args = DistillationTrainingArguments(
    output_dir="./distilled_model",
    per_device_train_batch_size=2,
    num_train_epochs=3,
    logging_dir="./logs",
)
trainer = DistillationTrainer(
    teacher_model=model,
    student_model=smaller_model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)
trainer.train()

c) Reglare fină specifică domeniului: Adaptați modelul pentru sarcini sau industrii specializate.

Exemplu de cod:

from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./domain_specific_model",
    per_device_train_batch_size=1,
    num_train_epochs=3,
)
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)
trainer.train()

Aceste tehnici și strategii vă vor ajuta să valorificați întregul potențial al Llama 3.1-405B, asigurând aplicații AI eficiente, scalabile și specializate.

Directii viitoare

Lansarea Llama 3.1-405B este probabil să accelereze inovația în mai multe domenii:

Tehnici îmbunătățite de reglare fină pentru domeniile specializate
Dezvoltarea unor metode de inferență mai eficiente
Progrese în compresia modelului și distilare

Concluzie

Llama 3.1-405B reprezintă o piatră de hotar semnificativă în IA open-source, oferind capabilități care anterior erau exclusive modelelor cu sursă închisă.

Pe măsură ce continuăm să explorăm puterea acestui model, este crucial să abordăm utilizarea sa cu responsabilitate și considerații etice. Instrumentele și garanțiile furnizate odată cu modelul oferă un cadru pentru o implementare responsabilă, dar vigilența continuă și colaborarea comunității vor fi esențiale pentru a ne asigura că această tehnologie puternică este utilizată în beneficiul societății.

Subiecte asemănătoare:ai democratizarea Benchmark-uri de performanță AI Scalare AI Cuantizarea FP8 Interogare grupată Atenție optimizarea inferenței model de limbaj mare Lamă Lama 3.1 lama 3.1 405b Invatare mecanica AI cu sursă deschisă arhitectura transformatorului

Urmeaza

Mistral 2 și Mistral NeMo: un ghid cuprinzător pentru cel mai recent LLM venit de la Paris

Nu ratați

Dezvăluirea SAM 2: Noul model de fundație Open-Source al Meta pentru segmentarea obiectelor în timp real în videoclipuri și imagini

Aayush Mittal

Mi-am petrecut ultimii cinci ani scufundându-mă în lumea fascinantă a învățării automate și a învățării profunde. Pasiunea și expertiza mea m-au determinat să contribui la peste 50 de proiecte diverse de inginerie software, cu un accent deosebit pe AI/ML. Curiozitatea mea continuă m-a atras și către Procesarea limbajului natural, un domeniu pe care sunt dornic să îl explorez în continuare.

Unite.AI

Cel mai puternic LLM cu sursă deschisă de până acum: Meta LLAMA 3.1-405B

Caracteristici cheie:

Arhitectură și instruire model

Atenție la interogare grupată (GQA)

Pre-instruire în două etape pentru context extins

Capacități multimodale

Detalii de antrenament

Benchmarks de performanță

Cerințe de memorie pentru Llama 3.1-405B

Tehnici de optimizare a inferenței pentru Llama 3.1-405B

Strategii de implementare

Cazuri de utilizare și aplicații

Directii viitoare

Concluzie

Ar putea să îți placă