Yapay Zekâ

En Güçlü Açık Kaynaklı LLM: Meta LLAMA 3.1-405B

Published August 2, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Llama 3.1-405B, Meta AI tarafından geliştirilmiştir ve açık kaynaklı dil modellerinde önemli bir ilerlemeyi temsil etmektedir. 405 milyar parametreye sahip olarak, şimdiye kadar mevcut olan en büyük halka açık dil modeli olarak, çeşitli testlerde bazı en gelişmiş özel modellerle yarışıyor ve hatta bazılarını aşiyor.

Ana Özellikler:

405 milyar parametre
128K token bağlam uzunluğu
Çok dilli destek (8 dil)
Talimatlara göre ayarlanmış sürüm mevcuttur
Açık kaynaklı ve esnek bir lisansla

Bu kadar güçlü bir modelin açık kaynaklı alanda yayınlanması, devlet-sanayî ve üniversite işbirliğini demokratikleştirmekte ve endüstri genelinde inovasyonu teşvik etmektedir.

Model Mimarisi ve Eğitim

Süreç, girdi metin tokenlerinin token gömme işlemlerine dönüştürülmesiyle başlar. Bu gömme işlemleri, metin içinde karmaşık ilişkiler ve bağımlılıkları yakalamak için birden fazla self-attention ve besleyici ağ katmanlarından geçer. Otomatik geri besleme mekanizması daha sonra çıktı metin tokenlerini oluşturur ve süreci tamamlar.

Gruplu Sorgu Dikkati (GQA)

Gruplu sorgu dikkati

Llama 3.1, Gruplu Sorgu Dikkati kullanır, bu da önceki yanıta tam olarak dahil edilmeyen önemli bir optimizasyon tekniğidir. Detaylı olarak inceleyelim:

Gruplu Sorgu Dikkati (GQA), çok başlı dikkatin bir varyantıdır ve özellikle uzun dizilerde hesaplama maliyetlerini ve bellek kullanımını azaltmayı hedefler. Llama 3.1 405B modelinde GQA, 8 ana-değer başıyla uygulanır.

GQA nasıl çalışır:

Her dikkat başı için ayrı ana ve değer projeksiyonları yerine, GQA, birden fazla sorgu başını aynı ana ve değer başlarını paylaşacak şekilde gruplar.
Bu gruplama, ana ve değer projeksiyonlarındaki parametre sayısını önemli ölçüde azaltır, bu da daha küçük model boyutlarına ve daha hızlı çıkarıma yol açar.
Dikkat hesaplama şu şekilde ifade edilebilir:

Dikkat(Q, K, V) = softmax(QK^T / sqrt(d_k))V

Burada Q, g gruba bölünür ve K ile V, Q’den daha az başlığa sahiptir.

Llama 3.1 405B’de GQA’nın faydaları şunlardır:

Bellek ayak izinin azaltılması: Daha az ana ve değer projeksiyonu, model parametrelerini depolamak için gereken belleğin azalması anlamına gelir.
Çıkarımın hızlanması: Ana ve değer projeksiyonları için gereken hesaplamaların azalmasıyla, çıkarım hızı artar.
Performansın korunması: Parametrelerin azaltılmasına rağmen, GQA, birçok görevde standart çok başlı dikkate benzer bir performans göstermiştir.

Uzun Bağlam için İki Aşamalı Ön Eğitim

Makale, 128K token bağlam penceresini elde etmek için iki aşamalı bir ön eğitim sürecinden bahseder. Bu, Llama 3.1 405B’nin yeteneklerinin kritik bir yönüdür:

1. Aşama: 8K token için ilk ön eğitim

Model ilk olarak 8K tokenlik dizilere kadar eğitilir.
Bu aşama, modelin genel dil anlama ve oluşturma yeteneklerini öğrenmesini sağlar.

2. Aşama: Bağlam uzatma için devam eden ön eğitim

İlk eğitimden sonra, model 128K tokenlik bağlam uzunluğuna ulaşmak için devam eden ön eğitime tabi tutulur.
Bu aşama, modelin daha uzun dizileri genellemesini sağlamak için dikkatli bir şekilde tasarlanmış eğitim rejimlerini içerir, ancak daha kısa bağlamları işleme yeteneğini kaybetmeden.

Çoklu Modalite Yetenekleri

Önceki yanıta dokunulan çoklu modalite yeteneklerine ilişkin olarak, Llama 3.1 405B’nin bunu nasıl uyguladığını genişletebiliriz:

Bileşik Yaklaşım:

Llama 3.1 405B, farklı modaliteler için (örneğin, resimler, konuşma) ayrı kodlayıcılar kullanır.
Bu kodlayıcılar, farklı modalitelerden girişi, dil modelinin anlayabileceği paylaşılan bir gömme alanına dönüştürür.

Dil Modeliyle Entegrasyon:

Bu özel kodlayıcılardan gelen çıktılar, daha sonra ana dil modeline beslenir.
Bu, Llama 3.1 405B’nin birden fazla modaliteyi aynı anda işleyerek, birden fazla modaliteyi içeren görevleri gerçekleştirmesini sağlar.

Çapraz Dikkat Mekanizmaları:

Farklı modalitelerin entegrasyonunu ele almak için, Llama 3.1 405B muhtemelen çapraz dikkat mekanizmaları kullanır.
Bu mekanizmalar, metin oluşturma veya diğer görevleri gerçekleştirirken, modelin farklı modalitelerden ilgili bilgileri dikkat kesilmesini sağlar.

Llama 3.1 405B’nin çoklu modalite yetenekleri, aşağıdaki gibi bir dizi uygulamayı açar:

Görüntü altyazısı ve görsel soru cevaplaması
Bağlamsal anlama ile konuşma metne dökümü
Metin, resim ve potansiyel olarak diğer veri türlerini birleştiren çoklu modalite akıl yürütme görevleri

Eğitim Ayrıntıları

15 trilyonun üzerinde token üzerinde eğitilmiştir
Özel olarak oluşturulmuş bir GPU kümesi, 405B modeli için 39.3M GPU saati
Çok dilli yetenek için çeşitli veri seti derlemesi

Talimatlara göre ayarlanmış sürüm, ek eğitimden geçti:

Halka açık talimat veri setleri üzerinde ince ayarlandı
25 milyondan fazla sentezlenmiş örnek
Gözetimli İnce Ayar (SFT) ve İnsan Geri Bildirimi ile Peşinden Öğrenme (RLHF)

Performans Benchmarkları

Tablo, Llama 3.1 405B, Nemotron 4 340B Instruct, GPT-4 (0125), GPT-4 Omni ve Claude 3.5 Sonnet’i karşılaştırır. Ana benchmarklar arasında genel görevler (MMLU ve IFEval), kod görevleri (HumanEval ve GSM8K) ve akıl yürütme görevleri (ARC Challenge) bulunur. Her benchmark puanı, modelin insan benzeri metin oluşturma, karmaşık problemleri çözme ve kod yürütme yeteneklerini yansıtır. Llama 3.1 405B ve Claude 3.5 Sonnet, birçok benchmarkta üstün performans gösterir ve hem genel hem de alan özgü görevlerde gelişmiş yeteneklerini gösterir.

Llama 3.1-405B için Bellek Gereksinimleri

Llama 3.1-405B’yi çalıştırmak önemli miktarda bellek ve hesaplama kaynakları gerektirir:

GPU Belleği: 405B modeli, verimli çıkarım için her bir A100 GPU’da 80GB’a kadar GPU belleği kullanabilir. Tensor Paralelliği, yükü birden fazla GPU’ya dağıtabilir.
RAM: Sistem RAM’i için en az 512GB tavsiye edilir, modelin bellek ayak izini işleyip veri işlemini düzgün bir şekilde gerçekleştirebilmek için.
Depolama: Model ağırlıkları ve ilgili veri setleri için birkaç terabayt SSD depolama alanı olduğundan emin olun. Yüksek hızlı SSD’ler, eğitim ve çıkarım sırasında veri erişim sürelerini azaltmak için kritiktir (Llama Ai Model) (Groq).

Llama 3.1-405B için Çıkarım Optimizasyon Teknikleri

405B parametreli bir model gibi Llama 3.1’i verimli bir şekilde çalıştırmak, birkaç optimizasyon tekniğini gerektirir. Ana yöntemler şunlardır:
a) Kuantizasyon: Kuantizasyon, model ağırlıklarının hassasiyetini azaltma işlemini içerir, bu da bellek kullanımını azaltır ve çıkarım hızını artırır, ancak doğrulukta önemli bir kayba yol açmadan. Llama 3.1, FP8 veya daha düşük hassasiyetlere ulaşmak için QLoRA (Kuantize Edilmiş Düşük Ranksal Uyum) gibi teknikleri kullanarak performansı optimize eder.

Örnek Kod:


from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

model_name = "meta-llama/Meta-Llama-3.1-405B"
bnb_config = BitsAndBytesConfig(
load_in_8bit=True, # 4-bit hassasiyet için load_in_4bit olarak değiştirin
bnb_8bit_quant_type="fp8",
bnb_8bit_compute_dtype=torch.float16,
)
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

b) Tensor Paralelliği: Tensor paralelliği, modelin katmanlarını birden fazla GPU’ya dağıtmayı içerir, bu da hesaplamaları paralelleştirir. Bu, büyük modeller gibi Llama 3.1 için özellikle faydalıdır, kaynakların verimli kullanılmasını sağlar.

Örnek Kod:

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name = "meta-llama/Meta-Llama-3.1-405B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype=torch.float16
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
nlp = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)

c) KV-Cache Optimizasyonu: Uzun bağlamları işlerken KV-cache’in verimli yönetimi kritiktir. Llama 3.1, uzatilmiş bağlam uzunluklarını destekler ve optimize edilmiş KV-cache teknikleriyle verimli bir şekilde yönetilebilir. Örnek Kod:

# Yeterli GPU belleği olduğundan emin olun
output = model.generate(
input_ids,
max_length=4096, # Bağlam uzunluğunuza göre artırın
use_cache=True
)

Dağıtım Stratejileri

Llama 3.1-405B’yi dağıtmak, donanım kaynaklarının dikkatli bir şekilde değerlendirilmesini gerektirir. Seçenekler şunlardır:

a) Bulut Tabanlı Dağıtım: Yüksek bellekli GPU örneklerini kullanın, örneğin AWS (P4d örnekleri) veya Google Cloud (TPU v4).

Örnek Kod:

# AWS için örnek kurulum
import boto3
ec2 = boto3.resource('ec2')
instance = ec2.create_instances(
ImageId='ami-0c55b159cbfafe1f0', # Derin Öğrenme AMI
InstanceType='p4d.24xlarge',
MinCount=1,
MaxCount=1
)

b) Şirketsel Dağıtım: Yüksek performanslı hesaplama yeteneklerine sahip organizasyonlar için, Llama 3.1’i şirket içinde dağıtmak daha fazla kontrol sağlar ve uzun vadede daha düşük maliyetli olabilir.

Örnek Kurulum:

# Şirket içi kurulum için örnek
# Yüksek performanslı birden fazla GPU'ya (örneğin, NVIDIA A100 veya H100) sahip olduğunuzdan emin olun
pip install transformers
pip install torch # CUDA'nın etkinleştirildiğinden emin olun

c) Dağıtılmış Çıkarım: Daha büyük dağıtımlar için, modeli birden fazla düğüm arasında dağıtmak düşünülebilir.

Örnek Kod:

# Hugging Face'ın accelerate kütüphanesini kullanarak
from accelerate import Accelerator

accelerator = Accelerator()
model, tokenizer = accelerator.prepare(model, tokenizer)

Kullanım Durümları ve Uygulamalar

Llama 3.1-405B’nin gücü ve esnekliği, birçok olanağı açar:

a) Sentetik Veri Oluşturma: Küçük modelleri eğitmek için alan özgü, yüksek kaliteli sentetik veri oluşturun.

Örnek Kullanım Durumu:

from transformers import pipeline

generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
sentetik_veri = generator("2023'ün 1. çeyreği için finansal raporlar oluşturun", max_length=200)

b) Bilgi Distilasyonu: 405B modelinin bilgisini, daha küçük ve daha dağıtıma uygun modellere aktarın.

Örnek Kod:

# Hugging Face'den distilasyon tekniklerini kullanın
from transformers import DistillationTrainer, DistillationTrainingArguments

eğitim_argümanları = DistillationTrainingArguments(
output_dir="./distilled_model",
per_device_train_batch_size=2,
num_train_epochs=3,
logging_dir="./logs",
)
trainer = DistillationTrainer(
teacher_model=model,
student_model=küçük_model,
args=eğitim_argümanları,
train_dataset=eğitim_veriseti,
eval_dataset=değerlendirme_veriseti,
)
trainer.train()

c) Alan Özgü İnce Ayar: Modeli özel görevler veya endüstriler için uyarlayın.

Örnek Kod:

from transformers import Trainer, TrainingArguments

eğitim_argümanları = TrainingArguments(
output_dir="./alan_özgü_model",
per_device_train_batch_size=1,
num_train_epochs=3,
)
trainer = Trainer(
model=model,
args=eğitim_argümanları,
train_dataset=eğitim_veriseti,
eval_dataset=değerlendirme_veriseti,
)
trainer.train()

Bu teknikler ve stratejiler, Llama 3.1-405B’nin tam potansiyelini kullanmanıza, verimli, ölçeklenebilir ve uzmanlaşmış AI uygulamaları sağlamınıza yardımcı olacaktır.

Gelecek Yönelimler

Llama 3.1-405B’nin yayınlanması, aşağıdaki alanlarda inovasyonu hızlandırmaya likelydır:

Özel alanlar için geliştirilmiş ince ayar teknikleri
Daha verimli çıkarım yöntemlerinin geliştirilmesi
Model sıkıştırma ve distilasyonundaki ilerlemeler

Sonuç

Llama 3.1-405B, açık kaynaklı AI’de önemli bir kilometre taşı temsil eder ve önceden yalnızca kapalı kaynaklı modellere özgü olan yetenekleri sunar.

Bu modelin gücünü keşfettikçe, kullanımını sorumluluk ve etik consideration ile yaklaşmak kritiktir. Modelle birlikte sunulan araçlar ve güvenlik önlemleri, sorumlu dağıtım için bir çerçeve sağlar, ancak toplumun faydalarına AI teknolojisini kullanmanın devam eden bir görevi olacaktır.

Aayush Mittal

Son beş yıldır Makine Öğrenimi ve Derin Öğrenme dünyasına kendimi daldırmış bulunuyorum. Tutkum ve uzmanlığım, özellikle AI/ML odaklı 50'den fazla çeşitli yazılım mühendisliği projesine katkıda bulunmama yol açtı. Süregelen meraklılığım ayrıca beni Doğal Dil İşleme'ye doğru çekti, bu alanda daha fazla keşfetmeye hevesliyim.