الذكاء الاصطناعي
أصبحت Tülu 3 من Allen AI منافسًا غير متوقع لشركة DeepSeek

تواصل الأخبار. نماذج DeepSeek قد تحدت المعايير وتحدد معايير جديدة وتصدر الكثير من الضوضاء. لكن شيء مثير للاهتمام حدث للتو في مشهد البحث في مجال الذكاء الاصطناعي ويستحق انتباهك.
Allen AI أصدرت بشكل هادئ عائلة نماذج Tülu 3 الجديدة، ونسخة 405B параметр لا تتنافس فقط مع DeepSeek – بل تتساوى أو تتفوق عليها في معايير رئيسية.
دعونا نضع هذا في السياق.
نموذج Tülu 3 ذو 405B параметр يتنافس مع الأفضل في الأداء مثل DeepSeek V3 عبر مجموعة من المهام. نحن نشهد أداءً قابلاً للمقارنة أو الأفضل في مجالات مثل حل المسائل الرياضية وتنفيذ التحديات البرمجية وتنفيذ الإرشادات بدقة. كما أنها تفعل ذلك من خلال نهج مفتوح تمامًا.
لقد أصدروا خط أنابيب التدريب الكامل والكود وطريقة التعلم بالتعزيز الجديدة التي تسمى التعلم بالتعزيز مع مكافآت قابلة للتحقق (RLVR) التي جعلت هذا ممكنًا.
التطورات مثل هذه خلال الأسابيع القليلة الماضية تغير حقًا كيفية حدوث تطوير الذكاء الاصطناعي من الدرجة الأولى. عندما يمكن لنموذج مفتوح المصدر完全 أن يتساوى مع أفضل النماذج المغلقة هناك، فإنه يفتح إمكانيات كانت مقفلة في السابق خلف جدران الشركات الخاصة.
المعركة الفنية
ما جعله Tülu 3 يبرز؟ يعود الأمر إلى عملية تدريب فريدة من نوعها تتكون من أربع مراحل تتجاوز النهج التقليدية.
دعونا ننظر كيف بنت Allen AI هذا النموذج:
المرحلة 1: اختيار البيانات الاستراتيجي
كان الفريق يعلم أن جودة النموذج تبدأ من جودة البيانات. لقد kếtبو مجموعات بيانات محددة مثل WildChat و Open Assistant مع المحتوى المولد مخصصًا. لكن هنا تكمن الرؤية الأساسية: لم يجمعوا البيانات فقط – بل أنشأوا مجموعات بيانات مستهدفة لمهارات محددة مثل المنطق الرياضي وبراعة البرمجة.
المرحلة 2: بناء استجابات أفضل
في المرحلة الثانية، ركزت Allen AI على تعليم نموذجها مهارات محددة. لقد أنشأوا مجموعات بيانات تدريبية مختلفة – بعضها للرياضيات، أخرى للبرمجة، وأخرى للمهام العامة. من خلال اختبار هذه المجموعات بشكل متكرر، يمكنهم رؤية بالضبط أين يتفوق النموذج وأين يحتاج إلى عمل.
المرحلة 3: التعلم من المقارنات
هنا أصبحت Allen AI مبدعة. بنوا نظامًا يمكنه مقارنة استجابات Tülu 3 على الفور مع نماذج أخرى رائدة. كما حلوا مشكلة مستمرة في الذكاء الاصطناعي – ميل النماذج إلى كتابة استجابات طويلة فقط من أجل الطول. نهجهم، باستخدام تأمل التوجيه المباشر مع تطبيقات التطبيقات المعتمدة (DPO)، يعني أن النموذج يتعلم تقدير الجودة على الكمية. النتيجة؟ استجابات دقيقة ومدروسة.
عندما يتعلم النماذج من التفضيلات (أي استجابة أفضل، A أو B؟)، فإنهم يميلون إلى تطوير انحيازًا مثيرًا للاهتمام: يبدأون في التفكير أن الاستجابات الأطول دائمًا أفضل. إنه مثل محاولة الفوز من خلال قول المزيد بدلاً من قول الأشياء جيدًا.
المرحلة 4: ابتكار RLVR
هذا هو الكسر الفني الذي يستحق الانتباه. RLVR ي置ّخ نموذج المكافآت الموضوعي بمكافآت ملموسة.
عادة ما يتعلم نماذج الذكاء الاصطناعي من خلال نظام معقد من نماذج المكافآت – أساسًا تخمينات متعلمة حول ما يجعل استجابة جيدة. لكن Allen AI سلكت طريقًا مختلفًا مع RLVR.
- يحصل النموذج على ملاحظات فورية ثنائية: 10 نقاط للاستجابات الصحيحة، 0 للاستجابات الخاطئة
- لا يوجد مكان للمكافآت الجزئية أو التقييم الغامض
- يصبح التعلم متوجهاً ودقيقًا
- يتعلم النموذج أن ي优ّي الدقة على الاستجابات التي تبدو معقولة ولكنها خاطئة

RLVR Training (Allen AI)
النتائج؟ أظهر Tülu 3 تحسينات ملحوظة في المهام التي تهم فيها الدقة. أداؤه على المنطق الرياضي (معايير GSM8K) والتحديات البرمجية قفز بشكل ملحوظ. حتى اتباعه للإرشادات أصبح أكثر دقة لأن النموذج تعلم أن يُقدّر الدقة الملموسة على الاستجابات التقريبية.
نظرة على الأرقام
نسخة 405B параметр من Tülu 3 تتنافس مباشرة مع أفضل النماذج في المجال. دعونا ننظر إلى哪里 تتفوق وأيضًا ما يعني هذا لنموذج الذكاء الاصطناعي مفتوح المصدر.
الرياضيات
يتميز Tülu 3 في المنطق الرياضي المعقد. على معايير مثل GSM8K و MATH، يتوازن مع أداء DeepSeek. يعالج النموذج مشاكل متعددة الخطوات ويظهر قدرات قوية في المنطق الرياضي.
البرمجة
تثبت نتائج البرمجة أنها مثيرة للإعجاب بشكل متساو. بفضل تدريب RLVR، يكتب Tülu 3 شفرة تحل المشاكل بفعالية. قوته تكمن في فهم إرشادات البرمجة وإنتاج حلول وظيفية.
اتباع الإرشادات بدقة
يتفوق نموذج اتباع الإرشادات على أنه قوة أساسية. في حين أن العديد من النماذج تقرب أو تعمم الإرشادات، يظهر Tülu 3 دقة ملحوظة في تنفيذ ما يُطلب بدقة.
فتح صندوق أسود لتطوير الذكاء الاصطناعي
أصدرت Allen AI نموذجًا قويًا وعمليّة التطوير الكاملة.
كل جانب من عملية التدريب موثق ومتاح. من النهج الرباعي إلى أساليب تحضير البيانات وتنفيذ RLVR – лежит العملية بأكملها مفتوحة للدراسة والتكرار. هذه الشفافية تحدد معيارًا جديدًا في تطوير الذكاء الاصطناعي ذي الأداء العالي.
الأسئلة الشائعة (FAQ) حول Tülu 3
ما هو Tülu 3 وما هي الميزات الرئيسية?
Tülu 3 هو عائلة من نماذج LLM مفتوحة المصدر تم تطويرها بواسطة Allen AI، مبنية على هيكل Llama 3.1. يأتي في أحجام مختلفة (8B، 70B، و 405B параметр). صمّم Tülu 3 لتحسين الأداء عبر مهام متنوعة تشمل المعرفة والمنطق والرياضيات والبرمجة وتنفيذ الإرشادات والأمان.
ما هي عملية تدريب Tülu 3 وما هي البيانات المستخدمة?
تدريب Tülu 3 يتضمن عدة مراحل رئيسية. أولًا، يقوم الفريق بتحضير مجموعة من الاستفسارات من مجموعات بيانات عامة وبيانات مُولدة اصطناعيًا تستهدف مهارات محددة، مما يضمن تنظيف البيانات من المعايير. ثانيًا، يتم إجراء تعديل دقيق بموجب الإشراف (SFT) على مزيج من بيانات اتباع الإرشادات والرياضيات والبرمجة. بعد ذلك، يتم استخدام التوجيه المباشر (DPO) مع بيانات التفضيل التي تم إنشاؤها من خلال ملاحظات بشرية ونموذج LLM. أخيرًا، يتم استخدام التعلم بالتعزيز مع مكافآت قابلة للتحقق (RLVR) لمهام ذات دقة قابلة للقياس. يستخدم Tülu 3 مجموعات بيانات محددة لكل مرحلة، بما في ذلك تعليمات مدفوعة بالشخصية والرياضيات والبرمجة.
كيف يتعامل Tülu 3 مع الأمان وما هي المعايير المستخدمة لتقييمه?
الأمان هو مكون أساسي في تطوير Tülu 3، يتم تناوله خلال عملية التدريب. يتم استخدام مجموعة بيانات أمان محددة خلال SFT، ويُظهر أنها في الغالب متعامدة مع بيانات المهام الأخرى.
ما هو RLVR؟
RLVR هو تقنية حيث يتم تدريب النموذج لتحسين المكافأة القابلة للتحقق، مثل دقة الإجابة. يختلف هذا عن RLHF التقليدي الذي يستخدم نموذج مكافأة.













