Kecerdasan Buatan

LLM Open Source Paling Kuat: Meta LLAMA 3.1-405B

Diterbitkan 2 Agustus 2024

Aayush Mittal Mital

Lama 3.1-405B, yang dikembangkan oleh Meta AI, mewakili lompatan maju yang signifikan dalam model bahasa sumber terbuka. Dengan 405 miliar parameter, model ini berdiri sebagai model bahasa terbesar yang tersedia untuk umum hingga saat ini, menyaingi dan bahkan melampaui beberapa model kepemilikan tercanggih dalam berbagai tolok ukur.

Fitur Utama:

405 miliar parameter
Panjang konteks token 128 ribu
Dukungan multibahasa (Bahasa 8)
Disetel dengan instruksi versi tersedia
Open-source dengan lisensi yang permisif

Pelepasan model yang begitu kuat dalam domain sumber terbuka merupakan terobosan baru, mendemokratisasi akses terhadap kemampuan AI yang canggih dan mendorong inovasi di seluruh industri.

Model Arsitektur dan Pelatihan

Prosesnya dimulai dengan token teks masukan diubah menjadi penyematan token. Penyematan ini melewati beberapa lapisan jaringan self-attention dan feedforward, memungkinkan model untuk menangkap hubungan dan ketergantungan yang kompleks dalam teks. Mekanisme decoding autoregresif kemudian menghasilkan token teks keluaran, menyelesaikan prosesnya.

Perhatian Kueri yang Dikelompokkan (GQA)

Perhatian kueri yang dikelompokkan

Llama 3.1 menggunakan Grouped Query Attention, sebuah teknik optimasi penting yang belum dibahas secara menyeluruh dalam respons sebelumnya. Mari kita bahas lebih detail:

Grouped Query Attention (GQA) adalah varian perhatian multi-head yang bertujuan untuk mengurangi biaya komputasi dan penggunaan memori selama inferensi, khususnya untuk rangkaian panjang. Dalam model Llama 3.1 405B, GQA diimplementasikan dengan 8 key-value head.

Berikut cara kerja GQA:

Daripada memiliki proyeksi kunci dan nilai yang terpisah untuk setiap kepala perhatian, GQA mengelompokkan beberapa kepala kueri untuk berbagi kunci dan kepala nilai yang sama.
Pengelompokan ini secara signifikan mengurangi jumlah parameter dalam proyeksi kunci dan nilai, sehingga menghasilkan ukuran model yang lebih kecil dan inferensi yang lebih cepat.
Perhitungan perhatian dapat dinyatakan sebagai:

Attention(Q, K, V) = softmax(QK^T / sqrt(d_k))V

Dimana Q dikelompokkan menjadi grup g, dan K dan V memiliki head yang lebih sedikit dibandingkan Q.

Keunggulan GQA pada Llama 3.1 405B antara lain:

Jejak memori berkurang: Lebih sedikit proyeksi kunci dan nilai berarti lebih sedikit memori yang diperlukan untuk menyimpan parameter model.
Inferensi lebih cepat: Dengan lebih sedikit komputasi yang diperlukan untuk proyeksi kunci dan nilai, kecepatan inferensi meningkat.
Performa terjaga: Meskipun ada pengurangan parameter, GQA telah terbukti mempertahankan kinerja yang sebanding dengan perhatian multi-kepala standar dalam banyak tugas.

Pra-pelatihan Dua Tahap untuk Konteks yang Diperluas

Artikel ini menyebutkan proses pra-pelatihan dua tahap untuk mencapai jendela konteks token 128K. Ini merupakan aspek krusial dari kapabilitas Llama 3.1 405B:

Tahap 1: Pra-pelatihan awal tentang token 8K

Model ini pertama kali dilatih pada urutan hingga 8 ribu token.
Tahap ini memungkinkan model untuk mempelajari pemahaman bahasa umum dan kemampuan pembangkitan.

Tahap 2: Pra-pelatihan lanjutan untuk perluasan konteks

Setelah pelatihan awal, model menjalani pra-pelatihan lanjutan untuk meningkatkan panjang konteks menjadi 128 ribu token.
Tahap ini melibatkan rangkaian pelatihan yang dirancang dengan cermat untuk membantu model menggeneralisasi ke rangkaian yang lebih panjang tanpa kehilangan kemampuannya untuk menangani konteks yang lebih pendek.

Kemampuan Multimoda

Meskipun tanggapan sebelumnya menyentuh kemampuan multimoda, kita dapat memperluas cara Llama 3.1 405B mengimplementasikannya:

Pendekatan Komposisi:

Llama 3.1 405B menggunakan encoder terpisah untuk modalitas berbeda (misalnya gambar, ucapan).
Pembuat enkode ini mengubah masukan dari berbagai modalitas menjadi ruang penyematan bersama yang dapat dipahami oleh model bahasa.

Integrasi dengan Model Bahasa:

Keluaran dari pembuat enkode khusus ini kemudian dimasukkan ke dalam model bahasa utama.
Hal ini memungkinkan Llama 3.1 405B memproses dan memahami berbagai jenis data secara bersamaan, memungkinkannya melakukan tugas yang melibatkan banyak modalitas.

Mekanisme Lintas Perhatian:

Untuk menangani integrasi modalitas yang berbeda, Llama 3.1 405B kemungkinan besar menggunakan mekanisme perhatian silang.
Mekanisme ini memungkinkan model untuk memperhatikan informasi yang relevan dari berbagai modalitas saat membuat teks atau melakukan tugas lain.

Kemampuan multimodal Llama 3.1 405B membuka berbagai aplikasi, seperti:

Keterangan gambar dan jawaban pertanyaan visual
Transkripsi ucapan-ke-teks dengan pemahaman kontekstual
Tugas penalaran multi-modal yang menggabungkan teks, gambar, dan kemungkinan tipe data lainnya

Detail Pelatihan

Dilatih di atas 15 triliun token
Cluster GPU yang dibuat khusus dengan 39.3 juta jam GPU untuk model 405B
Kurasi kumpulan data yang beragam untuk kemampuan multibahasa

Versi yang disesuaikan dengan instruksi menjalani pelatihan tambahan:

Menyempurnakan kumpulan data instruksi yang tersedia untuk umum
Lebih 25M contoh yang dihasilkan secara sintetis
Penyetelan Halus yang Diawasi (SFT) dan Pembelajaran Penguatan dengan Umpan Balik Manusia (RLHF)

Tolok Ukur Kinerja

Tabel ini membandingkan Llama 3.1 405B, Nemotron 4 340B Instruct, GPT-4 (0125), GPT-4 Omni, dan Claude 3.5 Sonnet. Tolok ukur utama mencakup tugas-tugas umum seperti MMLU dan IFEval, tugas-tugas pengkodean seperti HumanEval dan GSM8K, serta tugas-tugas penalaran seperti ARC Challenge. Setiap skor tolok ukur mencerminkan kemampuan model dalam memahami dan menghasilkan teks mirip manusia, memecahkan masalah kompleks, dan mengeksekusi kode. Llama 3.1 405B dan Claude 3.5 Sonnet unggul dalam beberapa tolok ukur, menunjukkan kemampuan tingkat lanjut mereka baik dalam tugas-tugas umum maupun tugas-tugas khusus domain.

Persyaratan Memori untuk Llama 3.1-405B

Menjalankan Llama 3.1-405B memerlukan memori dan sumber daya komputasi yang besar:

Memori GPU: Model 405B dapat memanfaatkan memori GPU hingga 80 GB per GPU A100 untuk inferensi yang efisien. Menggunakan Tensor Parallelism dapat mendistribusikan beban ke beberapa GPU.
RAM:Disarankan minimal RAM sistem 512 GB untuk menangani jejak memori model dan memastikan pemrosesan data yang lancar.
Storage: Pastikan Anda memiliki penyimpanan SSD beberapa terabyte untuk bobot model dan kumpulan data terkait. SSD berkecepatan tinggi sangat penting untuk mengurangi waktu akses data selama pelatihan dan inferensi (Model Llama Ai) (Groq.).

Teknik Optimasi Inferensi untuk Llama 3.1-405B

Menjalankan model parameter 405B seperti Llama 3.1 secara efisien memerlukan beberapa teknik pengoptimalan. Berikut adalah metode utama untuk memastikan inferensi yang efektif:

a) Kuantisasi: Kuantisasi melibatkan pengurangan presisi bobot model, yang mengurangi penggunaan memori dan meningkatkan kecepatan inferensi tanpa mengorbankan akurasi secara signifikan. Llama 3.1 mendukung kuantisasi hingga FP8 atau bahkan presisi yang lebih rendah menggunakan teknik seperti QLoRA (Quantized Low-Rank Adaptation) untuk mengoptimalkan kinerja pada GPU.

Contoh Kode:

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

model_name = "meta-llama/Meta-Llama-3.1-405B"
bnb_config = BitsAndBytesConfig(
load_in_8bit=True, # Change to load_in_4bit for 4-bit precision
bnb_8bit_quant_type="fp8",
bnb_8bit_compute_dtype=torch.float16,
)
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

b) Paralelisme Tensor: Paralelisme tensor melibatkan pemisahan lapisan model di beberapa GPU untuk memparalelkan komputasi. Hal ini khususnya berguna untuk model besar seperti Llama 3.1, yang memungkinkan penggunaan sumber daya yang efisien.

Contoh Kode:

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name = "meta-llama/Meta-Llama-3.1-405B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype=torch.float16
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
nlp = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)

c) Optimasi KV-Cache: Pengelolaan cache nilai kunci (KV) yang efisien sangat penting untuk menangani konteks yang panjang. Llama 3.1 mendukung konteks yang diperluas, yang dapat dikelola secara efisien menggunakan teknik KV-cache yang dioptimalkan. Contoh Kode:

# Ensure you have sufficient GPU memory to handle extended context lengths
output = model.generate(
input_ids, 
max_length=4096, # Increase based on your context length requirement
use_cache=True
)

Strategi Penerapan

Penerapan Llama 3.1-405B memerlukan pertimbangan yang cermat terhadap sumber daya perangkat keras. Berikut beberapa opsi:

a) Penerapan Berbasis Cloud: Memanfaatkan instans GPU dengan memori tinggi dari penyedia cloud seperti AWS (instans P4d) atau Google Cloud (TPU v4).

Contoh Kode:

# Example setup for AWS
import boto3
ec2 = boto3.resource('ec2')
instance = ec2.create_instances(
ImageId='ami-0c55b159cbfafe1f0', # Deep Learning AMI
InstanceType='p4d.24xlarge',
MinCount=1,
MaxCount=1
)

b) Penerapan di Tempat: Untuk organisasi dengan kemampuan komputasi kinerja tinggi, penerapan Llama 3.1 di lokasi menawarkan kontrol lebih besar dan berpotensi menurunkan biaya jangka panjang.

Contoh Pengaturan:

# Example setup for on-premises deployment
# Ensure you have multiple high-performance GPUs, like NVIDIA A100 or H100
pip install transformers
pip install torch # Ensure CUDA is enabled

c) Inferensi Terdistribusi: Untuk penerapan yang lebih besar, pertimbangkan untuk mendistribusikan model ke beberapa node.

Contoh Kode:

# Using Hugging Face's accelerate library
from accelerate import Accelerator

accelerator = Accelerator()
model, tokenizer = accelerator.prepare(model, tokenizer)

Gunakan Kasing dan Aplikasi

Kekuatan dan fleksibilitas Llama 3.1-405B membuka banyak kemungkinan:

a) Pembuatan Data Sintetis: Hasilkan data khusus domain berkualitas tinggi untuk melatih model yang lebih kecil.

Contoh Kasus Penggunaan:

from transformers import pipeline

generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
synthetic_data = generator("Generate financial reports for Q1 2023", max_length=200)

b) Penyulingan Pengetahuan: Transfer pengetahuan tentang model 405B ke model yang lebih kecil dan lebih dapat diterapkan.

Contoh Kode:

# Use distillation techniques from Hugging Face
from transformers import DistillationTrainer, DistillationTrainingArguments

training_args = DistillationTrainingArguments(
    output_dir="./distilled_model",
    per_device_train_batch_size=2,
    num_train_epochs=3,
    logging_dir="./logs",
)
trainer = DistillationTrainer(
    teacher_model=model,
    student_model=smaller_model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)
trainer.train()

c) Penyempurnaan Khusus Domain: Sesuaikan model untuk tugas atau industri khusus.

Contoh Kode:

from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./domain_specific_model",
    per_device_train_batch_size=1,
    num_train_epochs=3,
)
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)
trainer.train()

Teknik dan strategi ini akan membantu Anda memanfaatkan potensi penuh Llama 3.1-405B, memastikan aplikasi AI yang efisien, terukur, dan terspesialisasi.

Arah Masa Depan

Peluncuran Llama 3.1-405B kemungkinan akan mempercepat inovasi di beberapa bidang:

Peningkatan teknik penyesuaian untuk domain khusus
Pengembangan metode inferensi yang lebih efisien
Kemajuan dalam kompresi dan distilasi model

Kesimpulan

Llama 3.1-405B mewakili tonggak penting dalam AI sumber terbuka, menawarkan kemampuan yang sebelumnya eksklusif untuk model sumber tertutup.

Seiring kita terus mengeksplorasi kekuatan model ini, sangatlah penting untuk mendekati penggunaannya dengan penuh tanggung jawab dan pertimbangan etis. Perangkat dan perlindungan yang disediakan bersama model ini menawarkan kerangka kerja untuk penerapan yang bertanggung jawab, tetapi kewaspadaan berkelanjutan dan kolaborasi komunitas akan menjadi kunci untuk memastikan bahwa teknologi canggih ini digunakan untuk kepentingan masyarakat.

Topik-topik terkait:dan demokratisasi Tolok ukur kinerja AI penskalaan AI kuantisasi FP8 Perhatian Kueri yang Dikelompokkan optimasi inferensi model bahasa besar Llama Lama 3.1 lama 3.1 405b Pembelajaran mesin AI sumber terbuka arsitektur transformator

Berikutnya

Mistral 2 dan Mistral NeMo: Panduan Komprehensif LLM Terbaru yang Berasal dari Paris

Jangan Miss

Memperkenalkan SAM 2: Model Fondasi Sumber Terbuka Baru Meta untuk Segmentasi Objek Real-Time dalam Video dan Gambar

Aayush Mittal

Saya telah menghabiskan lima tahun terakhir membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menakjubkan. Semangat dan keahlian saya telah membuat saya berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Keingintahuan saya yang berkelanjutan juga menarik saya ke Natural Language Processing, bidang yang ingin saya jelajahi lebih jauh.

Bersatu.AI

LLM Open Source Paling Kuat: Meta LLAMA 3.1-405B

Fitur Utama:

Model Arsitektur dan Pelatihan

Perhatian Kueri yang Dikelompokkan (GQA)

Pra-pelatihan Dua Tahap untuk Konteks yang Diperluas

Kemampuan Multimoda

Detail Pelatihan

Tolok Ukur Kinerja

Persyaratan Memori untuk Llama 3.1-405B

Teknik Optimasi Inferensi untuk Llama 3.1-405B

Strategi Penerapan

Gunakan Kasing dan Aplikasi

Arah Masa Depan

Kesimpulan

Kamu mungkin suka