الأفضل
5 أفضل نماذج LLM مفتوحة المصدر (مايو 2026)

لقد أصبحت الذكاء الاصطناعي مفتوح المصدر متقاربة مع الأنظمة مغلقة المصدر. تقدم هذه النماذج الخمس نماذج اللغة الكبيرة (LLMs) أداءً على مستوى المؤسسات بدون تكاليف API المتكررة أو قفل البائع. كل منها يتعامل مع حالات استخدام مختلفة ، من الاستدلال على الجهاز إلى الدعم المتعدد اللغات على نطاق واسع.
يشرح هذا الدليل GPT-OSS-120B و DeepSeek-R1 و Qwen3-235B و LLaMA 4 و Mixtral-8x22B مع تفاصيل محددة حول القدرات والتكاليف ومتطلبات النشر.
مقارنة سريعة
| أداة | الأفضل ل | السعر الأولي | الميزة الرئيسية |
|---|---|---|---|
| GPT-OSS-120B | نشر جهاز GPU واحد | مجانًا (Apache 2.0) | يعمل على 80GB GPU مع 120B معامل |
| DeepSeek-R1 | مهام التفكير المعقدة | مجانًا (MIT) | 671B معامل مع التفكير الشفاف |
| Qwen3-235B | تطبيقات متعددة اللغات | مجانًا (Apache 2.0) | يدعم 119+ لغة مع التفكير الهجين |
| LLaMA 4 | معالجة متعددة الوضعيات | مجانًا (رخصة مخصصة) | 10M نافذة سياق العلامة |
| Mixtral-8x22B | الإنتاج الكفء للتكلفة | مجانًا (Apache 2.0) | 75% توفير الحوسبة مقابل نماذج كثيفة |
1. GPT-OSS-120B
أصدر OpenAI أول نماذج مفتوحة الوزن منذ GPT-2 في أغسطس 2025. يستخدم GPT-OSS-120B هيكلاً من مزيج من الخبراء مع 117 مليار معامل إجمالي ولكن فقط 5.1 مليار معامل نشط لكل رمز. يعني هذا التصميم المتفرق أنك يمكنك تشغيله على جهاز GPU واحد بدلاً من الحاجة إلى مجموعات متعددة من GPU.
يتماشى النموذج مع أداء o4-mini على الاختبارات الأساسية. يصل إلى 90% دقة على اختبارات MMLU و 80% على مهام التفكير GPQA. يصل إلى 62% من التوليد الرمز عند مرور 1 ، وهو منافس للبديل المغلق المصدر. يعالج نافذة السياق 128,000 رمز تحليل الوثائق الشامل دون تقطيع.
قام OpenAI بتدريب هذه النماذج باستخدام تقنيات من o3 ونظم الطليعة الأخرى. كان التركيز على النشر العملي أكثر من النطاق الخام. قاموا بنشر tokenizer o200k_harmony مفتوح المصدر إلى جانب النماذج ، مما يُحدد كيفية معالجة الإدخالات عبر التنفيذ.
المزايا والعيوب
- توفير تكاليف البنية التحتية متعددة GPU
- نافذة سياق 128K الأصلية تعالج قاعدة الشفرة أو الوثائق الطويلة
- ترخيص Apache 2.0 يسمح بالاستخدام التجاري غير المقيد والتعديل
- تطبيقات مرجعية في PyTorch و Triton و Metal تسهل التكامل
- 90% دقة MMLU تتوافق مع النماذج المملوكة عند اختبارات التفكير
- التركيز على اللغة الإنجليزية يحد من القدرات متعددة اللغات بالمقارنة مع البديل
- 5.1B معامل نشط قد يؤدي أداء أقل من نماذج كثيفة على مهام متخصصة
- يستلزم 80GB VRAM الحد الأدنى يستثني نشر GPU من المستهلك
- لا توجد متغيرات منقولة متاحة بعد لبيئات مقيدة الموارد
- تخصص المجال المحدود بالمقارنة مع البديل المحدد
التسعير: يعمل GPT-OSS-120B تحت ترخيص Apache 2.0 بدون تكاليف متكررة. تحتاج إلى أجهزة قادرة على تشغيل نماذج 80GB (GPU NVIDIA A100 أو H100). يكلف النشر السحابي على AWS أو Azure أو GCP حوالي 3-5 دولار في الساعة لنوع مثيل مناسب. يتطلب النشر الذاتي شراء GPU مرة واحدة (~10,000-15,000 دولار لاستخدام A100).
لا توجد رسوم اشتراك. لا حدود API. لا قفل البائع.
2. DeepSeek-R1
بني نموذج DeepSeek-R1 خصيصًا للتفكير الشفاف. يستخدم الهيكل 671 مليار معامل إجمالي مع 37 مليار معامل نشط لكل تمرير إلى الأمام. أُكد على التعلم التعزيزي بدون تعديل إشرافي تقليدي أولاً ، مما يسمح للأنماط المعرفية بالظهور بشكل طبيعي من عملية التعلم التعزيزي.
يصل النموذج إلى 97% دقة على تقييمات MATH-500 ويتوافق مع OpenAI o1 على مهام التفكير المعقدة. ما يميز DeepSeek-R1 هو أنه يمكنك ملاحظة عملية التفكير. يظهر النموذج المنطق خطوة خطوة بدلاً من الإجابات النهائية فقط. هذا الشفافية يهم في التطبيقات التي تحتاج إلى التحقق من التفكير ، مثل التحليل المالي أو التحقق الهندسي.
أصدر DeepSeek ستة نسخ منقولة إلى جانب النموذج الرئيسي. تتراوح هذه النسخ من 1.5B إلى 70B معامل ، وتعمل على أجهزة من GPU المستهلك عالي الجودة إلى أجهزة الحواف. يتفوق النموذج المنقول Qwen-32B على o1-mini عبر الاختبارات ، ويتطلب جزءًا من الحوسبة.













