Kecerdasan buatan

Model LLM Open Source Paling Kuat: Meta LLAMA 3.1-405B

Published August 2, 2024

Updated April 4, 2026

Aayush Mittal Mittal

Llama 3.1-405B, dikembangkan oleh Meta AI, merupakan lompatan besar dalam model bahasa terbuka. Dengan 405 miliar parameter, ini adalah model bahasa terbesar yang tersedia untuk umum hingga saat ini, menyaingi dan bahkan mengungguli beberapa model propietary yang paling canggih dalam berbagai benchmark.

Fitur Utama:

405 miliar parameter
128K panjang konteks token
Dukungan multibahasa (8 bahasa)
Instruction-tuned versi tersedia
Open-source dengan lisensi permissive

Pelepasan model yang begitu kuat di domain open-source ini merupakan perubahan besar, mendemokratisasikan akses ke kemampuan AI mutakhir dan mendorong inovasi di seluruh industri.

Arsitektur Model dan Pelatihan

Proses ini dimulai dengan token teks masukan yang diubah menjadi token embedding. Embedding ini melewati beberapa lapisan self-attention dan jaringan feedforward, memungkinkan model untuk menangkap hubungan kompleks dan ketergantungan dalam teks. Mekanisme dekoding autoregresif kemudian menghasilkan token teks keluaran, menyelesaikan proses.

Perhatian Kueri Berkelompok (GQA)

Perhatian kueri berkelompok

Llama 3.1 menggunakan Perhatian Kueri Berkelompok, yang merupakan teknik optimasi penting yang tidak sepenuhnya tercakup dalam respons sebelumnya. Mari kita jelajahi ini lebih lanjut:

Perhatian Kueri Berkelompok (GQA) adalah varian dari perhatian multi-kepala yang bertujuan untuk mengurangi biaya komputasi dan penggunaan memori selama inferensi, terutama untuk urutan panjang. Dalam model Llama 3.1 405B, GQA diimplementasikan dengan 8 kepala kunci-nilai.

Berikut cara GQA bekerja:

Bukannya memiliki proyeksi kunci dan nilai terpisah untuk setiap kepala perhatian, GQA mengelompokkan beberapa kepala kueri untuk berbagi kepala kunci dan nilai yang sama.
Pengelompokan ini secara signifikan mengurangi jumlah parameter dalam proyeksi kunci dan nilai, menghasilkan ukuran model yang lebih kecil dan inferensi yang lebih cepat.
Perhitungan perhatian dapat dinyatakan sebagai:

Perhatian(Q, K, V) = softmax(QK^T / sqrt(d_k))V

Di mana Q dikelompokkan menjadi g kelompok, dan K dan V memiliki kepala yang lebih sedikit daripada Q.

Manfaat GQA dalam Llama 3.1 405B termasuk:

Jejak memori yang berkurang: Proyeksi kunci dan nilai yang lebih sedikit berarti memori yang lebih sedikit diperlukan untuk menyimpan parameter model.
Inferensi yang lebih cepat: Dengan perhitungan yang lebih sedikit yang diperlukan untuk proyeksi kunci dan nilai, kecepatan inferensi ditingkatkan.
Kinerja yang dipertahankan: Meskipun penurunan parameter, GQA telah terbukti mempertahankan kinerja yang setara dengan perhatian multi-kepala standar dalam banyak tugas.

Prapelatihan Dua Tahap untuk Konteks yang Diperluas

Artikel tersebut menyebutkan proses prapelatihan dua tahap untuk mencapai jendela konteks 128K token. Ini adalah aspek penting dari kemampuan Llama 3.1 405B:

Tahap 1: Prapelatihan awal pada 8K token

Model pertama kali dilatih pada urutan hingga 8K token.
Tahap ini memungkinkan model untuk mempelajari pemahaman dan kemampuan generasi bahasa umum.

Tahap 2: Prapelatihan lanjutan untuk perluasan konteks

Setelah pelatihan awal, model menjalani prapelatihan lanjutan untuk meningkatkan panjang konteks hingga 128K token.
Tahap ini melibatkan rejimen pelatihan yangancang dengan hati-hati untuk membantu model menggeneralisasi ke urutan yang lebih panjang tanpa kehilangan kemampuan untuk menangani konteks yang lebih pendek.

Kemampuan Multimodal

Sementara respons sebelumnya menyentuh kemampuan multimodal, kita dapat memperluas bagaimana Llama 3.1 405B mengimplementasikan ini:

Pendekatan Komposisi:

Llama 3.1 405B menggunakan pengkode yang terpisah untuk modalitas yang berbeda (misalnya, gambar, ucapan).
Pengkode ini mengubah input dari berbagai modalitas menjadi ruang embedding bersama yang dapat dipahami oleh model bahasa.

Integrasi dengan Model Bahasa:

Keluaran dari pengkode khusus ini kemudian dimasukkan ke dalam model bahasa utama.
Hal ini memungkinkan Llama 3.1 405B untuk memproses dan memahami data yang berbeda secara bersamaan, memungkinkan untuk melakukan tugas yang melibatkan beberapa modalitas.

Mekanisme Perhatian Silang:

Untuk menangani integrasi modalitas yang berbeda, Llama 3.1 405B kemungkinan menggunakan mekanisme perhatian silang.
Mekanisme ini memungkinkan model untuk memperhatikan informasi yang relevan dari modalitas yang berbeda saat menghasilkan teks atau melakukan tugas lainnya.

Kemampuan multimodal Llama 3.1 405B membuka peluang aplikasi yang luas, seperti:

Pengcaption gambar dan jawaban pertanyaan visual
Transkripsi ucapan-ke-teks dengan pemahaman kontekstual
Tugas penalaran multimodal yang menggabungkan teks, gambar, dan potensi data jenis lain

Detail Pelatihan

Dilatih pada lebih dari 15 triliun token
Klaster GPU khusus dengan 39,3M jam GPU untuk model 405B
Kurasi dataset yang beragam untuk kemampuan multibahasa

Versi yang disesuaikan dengan instruksi menjalani pelatihan tambahan:

Dituning halus pada dataset instruksi yang tersedia secara umum
Lebih dari 25M contoh yang dihasilkan secara sintetis
Pengaturan Halus yang Diawasi (SFT) dan Pembelajaran Penguatan dengan Umpan Balik Manusia (RLHF)

Benchmark Kinerja

Tabel ini membandingkan Llama 3.1 405B, Nemotron 4 340B Instruct, GPT-4 (0125), GPT-4 Omni, dan Claude 3.5 Sonnet. Benchmark kunci termasuk tugas umum seperti MMLU dan IFEval, tugas kode seperti HumanEval dan GSM8K, dan tugas penalaran seperti ARC Challenge. Setiap skor benchmark mencerminkan kemampuan model dalam memahami dan menghasilkan teks seperti manusia, memecahkan masalah kompleks, dan mengeksekusi kode. Secara khusus, Llama 3.1 405B dan Claude 3.5 Sonnet unggul dalam beberapa benchmark, menunjukkan kemampuan canggih mereka dalam tugas umum dan khusus domain.

Persyaratan Memori untuk Llama 3.1-405B

Menjalankan Llama 3.1-405B memerlukan memori dan sumber daya komputasi yang substansial:

Memori GPU: Model 405B dapat menggunakan hingga 80GB memori GPU per A100 GPU untuk inferensi yang efisien. Menggunakan Paralelisme Tensor dapat mendistribusikan beban di seluruh beberapa GPU.
RAM: Minimal 512GB RAM sistem yang disarankan untuk menangani jejak memori model dan memastikan pemrosesan data yang lancar.
Penyimpanan: Pastikan Anda memiliki beberapa terabyte penyimpanan SSD untuk bobot model dan dataset terkait. SSD berkecepatan tinggi sangat penting untuk mengurangi waktu akses data selama pelatihan dan inferensi (Llama Ai Model) (Groq).

Teknik Optimasi Inferensi untuk Llama 3.1-405B

Menjalankan model 405B parameter seperti Llama 3.1 secara efisien memerlukan beberapa teknik optimasi. Berikut adalah metode kunci untuk memastikan inferensi yang efektif:

a) Kuantisasi: Kuantisasi melibatkan pengurangan presisi bobot model, yang menurunkan penggunaan memori dan meningkatkan kecepatan inferensi tanpa mengorbankan akurasi secara signifikan. Llama 3.1 mendukung kuantisasi hingga FP8 atau presisi yang lebih rendah menggunakan teknik seperti QLoRA (Quantized Low-Rank Adaptation) untuk mengoptimalkan kinerja pada GPU.

Contoh Kode:


from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

nama_model = "meta-llama/Meta-Llama-3.1-405B"
bnb_config = BitsAndBytesConfig(
load_in_8bit=True, # Ubah ke load_in_4bit untuk presisi 4-bit
bnb_8bit_quant_type="fp8",
bnb_8bit_compute_dtype=torch.float16,
)
model = AutoModelForCausalLM.from_pretrained(
nama_model,
quantization_config=bnb_config,
device_map="auto";
)
tokenizer = AutoTokenizer.from_pretrained(nama_model)

b) Paralelisme Tensor: Paralelisme tensor melibatkan pemisahan lapisan model di seluruh beberapa GPU untuk memaralelisasikan komputasi. Ini sangat berguna untuk model besar seperti Llama 3.1, memungkinkan penggunaan sumber daya yang efisien.

Contoh Kode:

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

nama_model = "meta-llama/Meta-Llama-3.1-405B"
model = AutoModelForCausalLM.from_pretrained(
nama_model,
device_map="auto",
torch_dtype=torch.float16
)
tokenizer = AutoTokenizer.from_pretrained(nama_model)
nlp = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)

c) Optimasi Cache KV: Manajemen cache kunci-nilai (KV) yang efisien sangat penting untuk menangani konteks panjang. Llama 3.1 mendukung panjang konteks yang diperluas, yang dapat dikelola secara efisien menggunakan teknik cache KV yang dioptimalkan. Contoh Kode:

# Pastikan Anda memiliki memori GPU yang cukup untuk menangani panjang konteks yang diperluas
output = model.generate(
input_ids,
max_length=4096, # Tingkatkan berdasarkan kebutuhan panjang konteks Anda
use_cache=True
)

Strategi Penerapan

Menerapkan Llama 3.1-405B memerlukan pertimbangan yang cermat terhadap sumber daya perangkat keras. Berikut beberapa pilihan:

a) Penerapan Berbasis Awan: Manfaatkan instance GPU bermemori tinggi dari penyedia cloud seperti AWS (instance P4d) atau Google Cloud (TPU v4).

Contoh Kode:

# Contoh pengaturan untuk AWS
import boto3
ec2 = boto3.resource('ec2')
instance = ec2.create_instances(
ImageId='ami-0c55b159cbfafe1f0', # Deep Learning AMI
InstanceType='p4d.24xlarge',
MinCount=1,
MaxCount=1
)

b) Penerapan On-Premises: Untuk organisasi dengan kemampuan komputasi kinerja tinggi, menerapkan Llama 3.1 on-premises menawarkan lebih banyak kontrol dan biaya yang potensial lebih rendah dalam jangka panjang.

Pengaturan Contoh:

# Contoh pengaturan untuk penerapan on-premises
# Pastikan Anda memiliki beberapa GPU kinerja tinggi, seperti NVIDIA A100 atau H100
pip install transformers
pip install torch # Pastikan CUDA diaktifkan

c) Inferensi Terdistribusi: Untuk penerapan yang lebih besar, pertimbangkan untuk mendistribusikan model di seluruh beberapa node.

Contoh Kode:

# Menggunakan perpustakaan accelerate dari Hugging Face
from accelerate import Accelerator

accelerator = Accelerator()
model, tokenizer = accelerator.prepare(model, tokenizer)

Kasus Penggunaan dan Aplikasi

Kekuatan dan fleksibilitas Llama 3.1-405B membuka peluang yang luas:

a) Generasi Data Sintetis: Buat data domain-spesifik berkualitas tinggi untuk melatih model yang lebih kecil.

Kasus Penggunaan Contoh:

from transformers import pipeline

generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
data_sintetis = generator("Buat laporan keuangan untuk Q1 2023", max_length=200)

b) Pengetahan Pengetahuan: Transfer pengetahuan model 405B ke model yang lebih kecil dan dapat diterapkan.

Contoh Kode:

# Gunakan teknik distilasi dari Hugging Face
from transformers import DistillationTrainer, DistillationTrainingArguments

training_args = DistillationTrainingArguments(
output_dir="./distilled_model",
per_device_train_batch_size=2,
num_train_epochs=3,
logging_dir="./logs",
)
trainer = DistillationTrainer(
teacher_model=model,
student_model=model_lebih_kecil,
args=training_args,
train_dataset=train_dataset,
eval_dataset=eval_dataset,
)
trainer.train()

c) Penyetelan Domain-Spesifik: Sesuaikan model untuk tugas atau industri khusus.

Contoh Kode:

from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
output_dir="./domain_spesifik_model",
per_device_train_batch_size=1,
num_train_epochs=3,
)
trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_dataset,
eval_dataset=eval_dataset,
)
trainer.train()

Teknik dan strategi ini akan membantu Anda memanfaatkan potensi penuh Llama 3.1-405B, memastikan aplikasi AI yang efisien, scalable, dan khusus.

Arah Masa Depan

Pelepasan Llama 3.1-405B kemungkinan akan mempercepat inovasi di beberapa area:

Teknik penyetelan yang ditingkatkan untuk domain khusus
Pengembangan metode inferensi yang lebih efisien
Peningkatan kompresi model dan distilasi

Kesimpulan

Llama 3.1-405B mewakili tonggak penting dalam AI open-source, menawarkan kemampuan yang sebelumnya eksklusif untuk model tertutup.

Ketika kita terus menjelajahi kekuatan model ini, penting untuk mendekatinya dengan tanggung jawab dan pertimbangan etis. Alat dan pengaman yang disediakan bersama model menawarkan kerangka untuk penerapan yang bertanggung jawab, tetapi kewaspadaan dan kolaborasi komunitas yang berkelanjutan akan menjadi kunci untuk memastikan bahwa teknologi kuat ini digunakan untuk kepentingan masyarakat.

Aayush Mittal

Saya telah menghabiskan lima tahun terakhir dengan membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menarik. Minat dan keahlian saya telah membawa saya untuk berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Rasa ingin tahu saya yang terus-menerus juga telah menarik saya ke arah Natural Language Processing, sebuah bidang yang saya ingin jelajahi lebih lanjut.