الذكاء الاصطناعي

أقوى نموذج لغة مفتوح المصدر حتى الآن: Meta LLAMA 3.1-405B

Published August 2, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Llama 3.1-405B، الذي تم تطويره بواسطة Meta AI، يمثل قفزة كبيرة إلى الأمام في نماذج اللغة المفتوحة المصدر. مع 405 مليار معامل، يعتبر أكبر نموذج لغة متاح بشكل عام حتى الآن، ويتجاوز بعض النماذج المتقدمة المملوكة في بعض الاختبارات.

الميزات الرئيسية:

405 مليار معامل
طول سياق 128 كيلو توكن
دعم متعدد اللغات (8 لغات)
إصدار متوافق مع التعليمات متاح
مفتوح المصدر مع رخصة مرنة

إطلاق نموذج قوي مثل هذا في المجال المفتوح المصدر هو تغيير في اللعبة، ويمكّن الوصول إلى قدرات الذكاء الاصطناعي المتقدمة، ويعزز الابتكار في جميع أنحاء الصناعة.

هيكل النموذج وعمليات التدريب

تبدأ العملية بتحويل رموز النص إلى تمثيلات توكن، ثم تمر هذه التمثيلات عبر طبقات متعددة من الانتباه الذاتي والشبكات الخطية، مما يسمح للنموذج بتقاطع العلاقات والمعتمديات المعقدة داخل النص. ثم يتم توليد رموز النص الإخراجية بواسطة آليّة التشفير التلقائي، مما ي完成 العملية.

انتباه الاستعلام المجموع (GQA)

انتباه الاستعلام المجموع

يستخدم Llama 3.1 انتباه الاستعلام المجموع، وهو تقنية تحسين importante لا يتم تغطيتها بالكامل في الاستجابة السابقة. دعونا نستكشف هذا بالتفصيل:

انتباه الاستعلام المجموع (GQA) هو متغير من انتباه متعدد الرؤوس يهدف إلى تقليل التكاليف الحسابية واستخدام الذاكرة أثناء الاستدلال، خاصة للتسلسلات الطويلة. في نموذج Llama 3.1 405B، يتم تنفيذ GQA مع 8 رؤوس مفتاح-قيمة.

هذا هو كيف يعمل GQA:

بدلاً من وجود مشاريع مفتاح وقيمة منفصلة لكل رأس انتباه، يتم تجميع GQA لعدة رؤوس استعلام لمشاركة نفس الرؤوس المفتاحية والقيمة.
يقلل هذا التجميع بشكل كبير من عدد المعاملات في مشاريع المفتاح والقيمة، مما يؤدي إلى حجم نموذج أصغر وأسرع في الاستدلال.
يمكن التعبير عن حساب الانتباه على النحو التالي:

انتباه(Q, K, V) = softmax(QK^T / sqrt(d_k))V

حيث Q يتم تجميعها في g مجموعات، وK وV لها رؤوس أقل من Q.

المنافع من GQA في Llama 3.1 405B تشمل:

تقليل بصمة الذاكرة: معاملات مفتاح وقيمة أقل تعني أن هناك حاجة إلى ذاكرة أقل لتخزين معاملات النموذج.
استدلال أسرع: مع الحسابات الأقل اللازمة لمشاريع المفتاح والقيمة، يتم تحسين سرعة الاستدلال.
الحفاظ على الأداء: على الرغم من تقليل المعاملات، تم إظهار GQA للحفاظ على أداء قابل للمقارنة مع انتباه متعدد الرؤوس في العديد من المهام.

تدريب مرحلي لسياق موسع

يذكر المقال عملية تدريب مرحلي لتحقيق نافذة سياق 128K توكن. هذا هو جانب حاسم من قدرات Llama 3.1 405B:

المرحلة 1: التدريب الأولي على 8K توكن

يتم تدريب النموذج أولاً على تسلسلات تصل إلى 8K توكن.
تسمح هذه المرحلة للنموذج بتعلم فهم اللغة العامة وقدرات التوليد.

المرحلة 2: الاستمرار في التدريب لتوسيع السياق

بعد التدريب الأولي، يخضع النموذج لتدريب مستمر لزيادة طول السياق إلى 128K توكن.
تتضمن هذه المرحلة أنظمة تدريب مصممة بعناية لمساعدة النموذج على تعميم التسلسلات الأطول دون فقدان القدرة على التعامل مع السياقات الأقصر.

قدرات متعددة الوضعية

في حين لمس الاستجابة السابقة على القدرات متعددة الوضعية، يمكننا التوسع في كيفية تنفيذ Llama 3.1 405B هذا:

نهج تركيبي:

يستخدم Llama 3.1 405B مشفرات منفصلة لعدة وضعيات (مثل الصور، الكلام).
تتحول هذه المشفرات الإدخال من وضعيات مختلفة إلى مساحة ترميز مشتركة يمكن للنموذج اللغة فهمها.

التكامل مع نموذج اللغة:

تتم تغذية مخرجات هذه المشفرات المتخصصة إلى النموذج اللغة الرئيسي.
هذا يسمح لـ Llama 3.1 405B بمعالجة وفهم أنواع مختلفة من البيانات في نفس الوقت، مما ي启قه على أداء مهام تتضمن عدة وضعيات.

آليات الانتباه المتقاطع:

للتعامل مع التكامل بين الوضعيات المختلفة، يُستخدم على الأرجح آليات انتباه متقاطع في Llama 3.1 405B.
تسمح هذه الآليات للنموذج بالانتباه إلى المعلومات ذات الصلة من وضعيات مختلفة عند توليد النص أو أداء مهام أخرى.

تفتح القدرات متعددة الوضعية في Llama 3.1 405B مجموعة واسعة من التطبيقات، مثل:

تعليم الصور والاستجواب البصري
نقل الكلام إلى النص مع فهم السياق
مهام التفكير متعددة الوضعية التي تجمع بين النص والصور وربما أنواع بيانات أخرى

تفاصيل التدريب

تم تدريبه على أكثر من 15 تريليون توكن
مجموعة GPU مخصصة مع 39.3M ساعة GPU لنموذج 405B
تحضير بيانات متنوع لتحقيق القدرات متعددة اللغات

خضع الإصدار المُحسّن بالتعليمات لتدريب إضافي:

تم ضبطه بشكل دقيق على مجموعات بيانات تعليمات متاحة بشكل عام
أكثر من 25M مثال تم إنشاؤه بشكل اصطناعي
ضبط دقيق خاضع للإشراف (SFT) وتعلم التوكيد مع ملاحظات بشرية (RLHF)

مقاييس الأداء

الجدول يقارن Llama 3.1 405B، Nemotron 4 340B Instruct، GPT-4 (0125)، GPT-4 Omni، وClaude 3.5 Sonnet. تشمل المقاييس الرئيسية مهام عامة مثل MMLU وIFEval، ومهام الكود مثل HumanEval وGSM8K، ومهام التفكير مثل ARC Challenge. يعكس كل نمط مقياس قدرة النموذج على فهم وتوليد نص شبيه بالبشر، وحل مشاكل معقدة، وتنفيذ الكود. ومن الملاحظ أن Llama 3.1 405B وClaude 3.5 Sonnet يتفوقان في العديد من المقاييس، مما يظهر قدراتهما المتقدمة في المهام العامة والمتخصصة.

متطلبات الذاكرة لـ Llama 3.1-405B

تشغيل Llama 3.1-405B يتطلب ذاكرة وموارد حسابية كبيرة:

ذاكرة GPU: يمكن لنموذج 405B استخدام ما يصل إلى 80GB من ذاكرة GPU لكل وحدة معالجة رسومات A100 للاستدلال الفعال. يمكن توزيع الحمل عبر عدة وحدات معالجة رسومات باستخدام موازاة التنسور.
الرام: يوصى بحد أدنى من 512GB من ذاكرة النظام للتعامل مع بصمة الذاكرة للنموذج وضمان معالجة البيانات بشكل سلس.
التخزين: تأكد من أن لديك عدة تيرابايت من تخزين SSD لوزن النموذج والبيانات المرتبطة. تعتبر الأقراص الصلبة عالية السعة حاسمة لتقليل أوقات الوصول إلى البيانات أثناء التدريب والاستدلال (Llama Ai Model) (Groq).

تقنيات تحسين الاستدلال لـ Llama 3.1-405B

تشغيل نموذج 405B معاملات مثل Llama 3.1 يتطلب عدة تقنيات تحسين. هنا هي الطرق الرئيسية لضمان استدلال فعال:

أ) التكميم: يتضمن التكميم تقليل دقة وزن النموذج، مما يقلل من استخدام الذاكرة ويعزز سرعة الاستدلال دون التضحية بشكل كبير بالدقة. يدعم Llama 3.1 التكميم إلى FP8 أو حتى دقائق أقل باستخدام تقنيات مثل QLoRA (Quantized Low-Rank Adaptation) لتحسين الأداء على وحدات معالجة الرسومات.

مثال على الكود:


from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

model_name = "meta-llama/Meta-Llama-3.1-405B"
bnb_config = BitsAndBytesConfig(
load_in_8bit=True, # قم بالتغيير إلى load_in_4bit لتحقيق دقة 4 بت
bnb_8bit_quant_type="fp8",
bnb_8bit_compute_dtype=torch.float16,
)
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

ب) موازاة التنسور: تتضمن موازاة التنسور تقسيم طبقات النموذج عبر عدة وحدات معالجة رسومات لتحقيق موازاة الحسابات. هذا مفيد بشكل خاص للنماذج الكبيرة مثل Llama 3.1، مما يسمح بالاستخدام الفعال للموارد.

مثال على الكود:

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name = "meta-llama/Meta-Llama-3.1-405B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype=torch.float16
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
nlp = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)

ج) تحسين ذاكرة KV: إدارة ذاكرة المفتاح والقيمة (KV) بفعالية حاسمة لمعالجة سياقات طويلة. يدعم Llama 3.1 أطوال سياق موسعة، والتي يمكن إدارتها بفعالية باستخدام تقنيات KV-ذاكرة محسنة. مثال على الكود:

# تأكد من أن لديك ذاكرة GPU كافية لمعالجة أطوال السياق الممتدة
output = model.generate(
input_ids,
max_length=4096, # قم بزيادة هذا حسب متطلبات طول السياق
use_cache=True
)

استراتيجيات النشر

نشر Llama 3.1-405B يتطلب اعتبارًا دقيقًا للموارد المادية. هنا بعض الخيارات:

أ) نشر على السحابة: استخدم مثيلات وحدات معالجة رسومات عالية الذاكرة من مزودي السحابة مثل AWS (مثيلات P4d) أو Google Cloud (TPU v4).

مثال على الكود:

# مثال على الإعداد لAWS
import boto3
ec2 = boto3.resource('ec2')
instance = ec2.create_instances(
ImageId='ami-0c55b159cbfafe1f0', # Deep Learning AMI
InstanceType='p4d.24xlarge',
MinCount=1,
MaxCount=1
)

ب) نشر محلي: بالنسبة للمنظمات التي تملك قدرات حوسبة عالية الأداء، يمكن نشر Llama 3.1 على الموقع لتقديم المزيد من التحكم وتكاليف أقل على المدى الطويل.

مثال على الإعداد:

# مثال على الإعداد لنشر محلي
# تأكد من أن لديك عدة وحدات معالجة رسومات عالية الأداء، مثل NVIDIA A100 أو H100
pip install transformers
pip install torch # تأكد من تمكين CUDA

ج) استدلال موزع: بالنسبة للنشرات الأكبر، فكر في توزيع النموذج عبر عدة عقد.

مثال على الكود:

# باستخدام مكتبة Hugging Face's accelerate
from accelerate import Accelerator

accelerator = Accelerator()
model, tokenizer = accelerator.prepare(model, tokenizer)

حالات استخدام والتطبيقات

تفتح قوة ومرنة Llama 3.1-405B العديد من الإمكانيات:

أ) توليد بيانات اصطناعية: قم بتوليد بيانات عالية الجودة ومتخصصة في المجال لتدريب نماذج أصغر.

مثال على حالة الاستخدام:

from transformers import pipeline

generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
synthetic_data = generator("Generate financial reports for Q1 2023", max_length=200)

ب) تنقيح المعرفة: نقل معرفة نموذج 405B إلى نماذج أصغر وأكثر قابلة للتوزيع.

مثال على الكود:

# استخدم تقنيات التنقيح من Hugging Face
from transformers import DistillationTrainer, DistillationTrainingArguments

training_args = DistillationTrainingArguments(
output_dir="./distilled_model",
per_device_train_batch_size=2,
num_train_epochs=3,
logging_dir="./logs",
)
trainer = DistillationTrainer(
teacher_model=model,
student_model=smaller_model,
args=training_args,
train_dataset=train_dataset,
eval_dataset=eval_dataset,
)
trainer.train()

ج) ضبط دقيق متخصص في المجال: تعديل النموذج لمهام أو صناعات متخصصة.

مثال على الكود:

from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
output_dir="./domain_specific_model",
per_device_train_batch_size=1,
num_train_epochs=3,
)
trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_dataset,
eval_dataset=eval_dataset,
)
trainer.train()

ستساعدك هذه التقنيات والاستراتيجيات على استغلال إمكانيات Llama 3.1-405B بالكامل، مما يضمن تطبيقات ذكاء اصطناعي فعالة ومرنة ومختصة.

اتجاهات المستقبل

من المرجح أن يسرع إطلاق Llama 3.1-405B في الابتكار في عدة مجالات:

تحسين تقنيات الضبط الدقيق للمجالات المتخصصة
تطوير أساليب استدلال أكثر كفاءة
تقدم في ضغط النموذج وتنقيحه

الختام

يمثل Llama 3.1-405B علامة فارقة في الذكاء الاصطناعي المفتوح المصدر، ويوفر قدرات كانت حصرية في النماذج المملوكة.

بينما نواصل استكشاف قوة هذا النموذج، من المهم أن نتعامل مع استخدامه بمسؤولية واعتبار أخلاقي. الأدوات والحماية المقدمة جنبًا إلى جنب مع النموذج توفر إطارًا لنشر مسؤول، ولكن الحاجة المستمرة إلى اليقظة والتعاون المجتمعي ستكون حاسمة لضمان أن هذه التكنولوجيا القوية تستخدم لصالح المجتمع.

Aayush Mittal

لقد قمت بإنفاق الخمس سنوات الماضية في غمرة العالم المثير للاهتمام من تعلم الآلة والتعلم العميق. وقد أدت شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا للهندسة البرمجية متنوعًا، مع التركيز بشكل خاص على الذكاء الاصطناعي / تعلم الآلة. كما أدت فضولي المستمر إلى جذبي نحو معالجة اللغة الطبيعية، وهو مجال أنا حريص على استكشافه بشكل أكبر.