قادة الفكر

معايير الأداء للنماذج اللغوية الكبيرة

Published August 28, 2024

Updated April 27, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

افهم دور المعايير وقيودها في تقييم أداء النماذج اللغوية الكبيرة. استكشف تقنيات تطوير النماذج اللغوية الكبيرة القوية.

اكتسبت النماذج اللغوية الكبيرة شعبية كبيرة في السنوات الأخيرة. أعني، لقد رأيت ذلك. القدرة الاستثنائية للنماذج اللغوية الكبيرة على فهم أوامر اللغة البشرية جعلتها التكامل المثالي للشركات، ودعماً للعمليات الحيوية وتأتمات المهام إلى أقصى كفاءة. بالإضافة إلى ذلك، وراء فهم المستخدم العادي، هناك المزيد مما يمكن للنماذج اللغوية الكبيرة القيام به. ومع نمو اعتمادنا عليها، يجب أن نولّي اهتماماً أكبر لضمان الدقة والموثوقية المطلوبة. هذا هو مهمة عالمية تهم المؤسسات بالكامل، ولكن في مجال الأعمال هناك الآن عدة معايير يمكن استخدامها لتقييم أداء النماذج اللغوية الكبيرة عبر مجالات مختلفة. يمكن أن تختبر هذه المعايير قدرات النموذج في الفهم والمنطق والرياضيات، إلخ، وتحدد نتائجها ما إذا كان النموذج اللغوي الكبير جاهزاً للنشر التجاري.

في هذا المقال، جمعت قائمة شاملة لأشهر معايير تقييم النماذج اللغوية الكبيرة. سنناقش كل معيار بالتفصيل ونرى كيف تؤدي النماذج اللغوية الكبيرة المختلفة أمام معايير التقييم. ولكن أولاً، دعونا نفهم تقييم النماذج اللغوية الكبيرة بشكل أكثر تفصيلاً.

ما هو تقييم النماذج اللغوية الكبيرة؟

مثل نماذج الذكاء الاصطناعي الأخرى، النماذج اللغوية الكبيرة تحتاج إلى تقييم ضد معايير محددة تقييم جوانب مختلفة من أداء نموذج اللغة: المعرفة، الدقة، الموثوقية، والاتساق. المعيار المعتاد يشمل:

فهم استفسارات المستخدم: تقييم قدرة النموذج على فهم وتفسير مدخلات مستخدم واسعة النطاق بدقة.
تحقق الإخراج: التحقق من استجابات الذكاء الاصطناعي التي تم إنشاؤها ضد قاعدة معرفة موثوقة لضمان صحتها وملاءمتها.
القدرة على الصمود: قياس أداء النموذج مع مدخلات غامضة أو غير مكتملة أو ملوثة.

تقييم النماذج اللغوية الكبيرة يعطي المطورين القدرة على تحديد وتحسين القيود بفعالية، بحيث يمكنهم تحسين تجربة المستخدم بشكل عام. إذا تم تقييم النموذج اللغوي الكبير بدقة، فإنه سيكون دقيقاً وقوياً بما يكفي لمواجهة تطبيقات العالم الحقيقي المختلفة، حتى تلك التي تتضمن مدخلات غامضة أو غير متوقعة.

المعايير

النماذج اللغوية الكبيرة هي واحدة من أكثر القطع التكنولوجية تعقيداً حتى الآن، ويمكن أن تعمل حتى على التطبيقات الأكثر تعقيداً. لذلك، عملية التقييم يجب أن تكون معقدة بنفس القدر، حيث تختبر عمليات التفكير والدقة الفنية.

المعيار يستخدم مجموعات بيانات ومقاييس ومهام تقييم محددة لاختبار أداء النماذج اللغوية الكبيرة، ويتيح للمقارنة بين النماذج اللغوية الكبيرة المختلفة وقياس دقتها، مما يدفع التقدم في الصناعة من خلال تحسين الأداء.

هذه بعض الجوانب الأكثر شيوعاً لأداء النماذج اللغوية الكبيرة:

المعرفة: يجب اختبار معرفة النموذج عبر مجالات مختلفة. هذا هو ما يهدف إليه معيار المعرفة. يقيم كيف يمكن للنموذج استدعاء المعلومات من مجالات مختلفة مثل الفيزياء والبرمجة والجغرافيا، إلخ.
الاستدلال المنطقي: يعني اختبار قدرة النموذج على “التفكير” خطوة بخطوة وصولاً إلى استنتاج منطقي. عادةً ما تتضمن سيناريوهات حيث يجب على النموذج اختيار الاستمرار الأكثر قبولاً أو الشرح بناءً على المعرفة اليومية والمنطق.
فهم القراءة: يجب على النماذج أن تكون ممتازة في تفسير اللغة الطبيعية وتنشئ استجابات وفقاً لذلك. الاختبار يشبه الإجابة على أسئلة بناءً على مقاطع لقياس الفهم والاستدلال وRetention التفاصيل. مثل اختبار القراءة المدرسي.
فهم الكود: هذا مطلوب لقياس مهارة النموذج في فهم وكتابة وتصحيح الكود. تقدم هذه المعايير مهام برمجة أو مشاكل يجب على النموذج حلها بدقة، غالباً ما تغطي مجموعة من لغات البرمجة والمناهج.
معرفة العالم: لتقييم إحاطة النموذج بمعرفة عامة عن العالم. عادةً ما تحتوي هذه المجموعات على أسئلة تتطلب معرفة موسوعية واسعة لتلقي الإجابة بشكل صحيح، مما يجعلها مختلفة عن معايير المعرفة المحددة والمختصة.

معايير “المعرفة”

MMLU (فهم اللغة المتعددة)

تم تصميم هذا المعيار لاختبار إحاطة النموذج اللغوي الكبير بالمعرفة الحقيقية عبر مواضيع مختلفة مثل العلوم الإنسانية والعلوم الاجتماعية والتاريخ وعلوم الكمبيوتر وحتى القانون. 57 سؤالاً و 15 ألف مهمة كلها موجهة لضمان أن يكون للنموذج قدرات منطقية رائعة. هذا يجعل MMLU أداة جيدة لتقييم معرفة النموذج اللغوي الكبير وفهمه للعديد من المواضيع.

最近 أصبح هذا المعيار أساسياً لتقييم النماذج اللغوية الكبيرة في المجالات المذكورة أعلاه. يريد المطورون دائماً تحسين نماذجهم لتفوق منافسيها في هذا المعيار، مما يجعله معياراً حقيقياً لتقييم المنطق المتقدم والمعرفة في النماذج اللغوية الكبيرة. النماذج الكبيرة من الدرجة المؤسسية أظهرت درجات مثيرة للإعجاب في هذا المعيار، بما في ذلك GPT-4-omni بنسبة 88.7٪، وClaude 3 Opus بنسبة 86.8٪، وGemini 1.5 Pro بنسبة 85.9٪، وLlama-3 70B بنسبة 82٪. النماذج الصغيرة عادةً لا تؤدي جيداً في هذا المعيار، وعادةً لا تتجاوز 60-65٪، ولكن الأداء الأخير ل Phi-3-Small-7b بنسبة 75.3٪ شيء يستحق التفكير.

然而، MMLU ليس بدون عيوب: لديها مشاكل معروفة مثل الأسئلة الغامضة، الإجابات الخاطئة، والسياق الناقص. ويظن الكثيرون أن بعض مهامها سهلة جداً لتقديم تقييم مناسب للنماذج اللغوية الكبيرة.

أود أن أوضح أن معايير مثل MMLU لا تصور تماماً السيناريوهات الحقيقية. إذا حقق النموذج اللغوي الكبير درجة رائعة في هذا، لا يعني ذلك دائماً أنه أصبح خبيراً في الموضوع. المعايير محدودة النطاق وأحياناً تعتمد على أسئلة متعددة الخيارات، والتي لا يمكن أن تعكس تماماً تعقيد السياق للتفاعلات الحقيقية. الفهم الحقيقي يتطلب معرفة الحقائق وتطبيقها بشكل ديناميكي، وهذا يتضمن التفكير النقدي وحل المشكلات والفهم السياقي. لهذه الأسباب، النماذج اللغوية الكبيرة تحتاج دائماً إلى التحسين والتحديث لضمان استمرار صلاحية المعيار وفعالية النموذج.

GPQA (معيار الأسئلة والأجوبة الموثوقة)

يقيّم هذا المعيار النماذج اللغوية الكبيرة على المنطق باستخدام مجموعة بيانات تحتوي على 448 سؤالاً فقط. تم تطويره بواسطة خبراء في المجال ويتضمن مواضيع في الأحياء والفيزياء والكيمياء.

كل سؤال يمر بعملية التحقق التالية:

يجيب خبير في نفس الموضوع على السؤال ويوفر تعليقات مفصلة.
يكتب مؤلف السؤال السؤال مرة أخرى بناءً على هذه التعليقات.
يجيب خبير ثاني على السؤال المعدل.

يمكن أن يضمن هذا العملية أن تكون الأسئلة موضوعية ودقيقة ومتحدياً للنموذج اللغوي. حتى الخبراء ذوي الخبرة يصلون إلى دقة 65٪ فقط في هذه الأسئلة، في حين أن GPT-4-omni يصل إلى 53.6٪ فقط، مما يبرز الفجوة بين الذكاء البشري والآلي.

بسبب متطلبات التأهيل العالية، تكون المجموعة البيانية صغيرة نسبياً، مما يحد من قوتها الإحصائية لمقارنة الدقة، ويتطلب تأثيرات كبيرة. الخبراء الذين أنشأوا وصدقوا هذه الأسئلة جاءوا من Upwork، لذلك قد أدخلوا تحيزات بناءً على خبرتهم والمواضيع التي غطوها.

معايير الكود

HumanEval

164 مشكلة برمجة، اختبار حقيقي لقدرات النماذج اللغوية الكبيرة في البرمجة. إنه HumanEval. تم تصميمه لاختبار القدرات البرمجية الأساسية للنماذج اللغوية الكبيرة. يستخدم مقياس pass@k لتحديد الدقة الوظيفية للكود الذي يتم توليده، والذي يخرج احتمال أن يمر واحد على الأقل من عينات الكود التي تم توليدها من قبل النموذج اللغوي الكبير من اختبارات الحالة.

في حين أن مجموعة بيانات HumanEval تتضمن تواقيع الدوال وشرح الوظائف وجسم الكود ووحدات اختبار عديدة، إلا أنها لا تتضمن مجموعة كاملة من مشاكل البرمجة في العالم الحقيقي، والتي لن تختبر بشكل كافٍ قدرة النموذج على توليد كود صحيح لمواقف متنوعة.

MBPP (برمجة بايثون الأساسية)

معيار MBPP يتكون من 1000 سؤال برمجة بايثون تم الحصول عليها من الحشود. هذه مشاكل مستوى الدخول وتتركز على المهارات البرمجية الأساسية. يستخدم نهجًا لاختبار النموذج وضبط دقيق، ويتفوق النماذج الأكبر عادةً على هذا المجموعة من البيانات. ومع ذلك،由于 مجموعة البيانات تحتوي في الغالب على برامج مستوى الدخول، لا تمثل تماماً تعقيدات وتحديات التطبيقات الحقيقية.

معايير الرياضيات

في حين أن معظم النماذج اللغوية الكبيرة جيدة في بناء استجابات معيارية، فإن المنطق الرياضي مشكلة أكبر بالنسبة لها. لماذا؟ لأنها تتطلب مهارات متعلقة بفهم السؤال والمنطق الرياضي والاستدلال والوصول إلى الإجابة الصحيحة.

طريقة “سلسلة الأفكار” (CoT) تم تصميمها لتقييم النماذج اللغوية الكبيرة على معايير الرياضيات، وتتضمن تحفيز النماذج على شرح عملية التفكير خطوة بخطوة عند حل مشكلة. هناك العديد من الفوائد لذلك. يجعل عملية التفكير أكثر وضوحاً، يساعد على تحديد العيوب في منطق النموذج، ويمكّن من تقييم أكثر دقة لمهارات حل المشكلات. من خلال تقسيم المشاكل المعقدة إلى سلسلة من الخطوات البسيطة، يمكن أن تحسن CoT أداء النموذج على معايير الرياضيات وتنطوي على رؤى أعمق في قدرات التفكير.

GSM8K: معيار رياضي شائع

أحد المعايير المعروفة لتقييم القدرات الرياضية في النماذج اللغوية الكبيرة هو مجموعة بيانات GSM8K. تتكون GSM8K من 8.5 ألف مشكلة رياضية في المدرسة الإعدادية، والتي تتطلب خطوات عديدة لحلها، وال حلول تتضمن في الغالب أداء تسلسل من الحسابات الأولية. عادةً ما تؤدي النماذج الأكبر أو تلك المحددة لمنطق رياضي أفضل على هذا المعيار، على سبيل المثال، نماذج GPT-4 تتمتع بنتيجة 96.5٪، في حين أن DeepSeekMATH-RL-7B تصل إلى 88.2٪.

في حين أن GSM8K مفيد لتقييم قدرة النموذج على التعامل مع مشاكل الرياضيات في المدرسة الإعدادية، قد لا يكتسب تماماً قدرة النموذج على حل تحديات رياضية أكثر تعقيداً وتنوعاً، وبالتالي يحد من فعاليته كمقياس شامل لتقدير القدرة الرياضية.

مجموعة بيانات الرياضيات: بديل شامل

تعالج مجموعة بيانات الرياضيات عيوب معايير مثل GSM8K. هذه المجموعة أكثر شمولاً، تغطي الحسابات الأولية والرياضيات في المدرسة الثانوية وحتى مستوى الكلية. كما يتم مقارنتها بالبشر، حيث يحقق طالب دكتوراه في علوم الحاسوب الذي لا يحب الرياضيات دقة 40٪، وطالب ميداليات ذهبية يحقق دقة 90٪.

توفر تقييماً أكثر شمولاً لقدرات النموذج اللغوي الكبير الرياضية. وهي تثبت أن النموذج ماهر في الحسابات الأساسية ومتقن مجالات معقدة مثل الجبر والهندسة والتفاضل والتكامل. ومع ذلك، يمكن أن يؤدي تعقيد وتنوع المشاكل إلى صعوبة في تحقيق دقة عالية، خاصة بالنسبة للنماذج التي لم يتم تدريبها بشكل صريح على مجموعة واسعة من المفاهيم الرياضية. بالإضافة إلى ذلك، يمكن أن يؤدي تنسيق المشاكل المختلفة في مجموعة بيانات الرياضيات إلى عدم الاتساق في أداء النموذج، مما يجعل من الصعب سحب استنتاجات حاسمة حول كفاءة النموذج الرياضية بشكل عام.

استخدام طريقة سلسلة الأفكار مع مجموعة بيانات الرياضيات يمكن أن يعزز التقييم لأنها تكشف عن قدرات التفكير خطوة بخطوة للنماذج اللغوية الكبيرة عبر طيف واسع من التحديات الرياضية. نهج مثل هذا يضمن تقييماً أكثر متانة وافراً لقدرات النموذج الرياضية الحقيقية.

معايير فهم القراءة

تقييم فهم القراءة يقيّم قدرة النموذج على فهم و처理 النصوص المعقدة، وهو أمر أساسي خاصة للتطبيقات مثل دعم العملاء وتوليد المحتوى واسترجاع المعلومات. هناك بعض المعايير المصممة لتقييم هذه المهارة، لكل منها سمات فريدة تساهم في تقييم شاملاً لقدرات النموذج.

RACE (مجموعة بيانات القراءة من الامتحانات)

معايير RACE تحتوي على ما يقرب من 28,000 مقطع و100,000 سؤال تم جمعها من الامتحانات الإنجليزية لطلاب المدرسة الإعدادية والثانوية الصينيين بين سن 12 و18. لا تقيد الأسئلة والإجابات بالاستخراج من المقاطع المعطاة، مما يجعل المهام أكثر تحدياً.

تغطي مجموعة واسعة من المواضيع وأنواع الأسئلة، مما يجعل التقييم شامل ويشتمل على أسئلة بمستويات صعوبة مختلفة. كما أن الأسئلة في RACE مصممة خصيصاً لاختبار مهارات القراءة البشرية وتم إنشاؤها بواسطة خبراء في المجال.

然而، المعيار له بعض العيوب. منذ أن تم تطويره على مواد تعليمية صينية، فإنه يحتمل أن يُدخل تحيزات ثقافية لا تعكس السياق العالمي. كما أن مستوى الصعوبة العالي في بعض الأسئلة ليس بالضرورة ممثلاً لمهام العالم الحقيقي النموذجية، لذلك يمكن أن تكون تقييمات الأداء غير دقيقة.

DROP (المنطق المنفصل على الفقرات)

مهمة أخرى هامة هي DROP (المنطق المنفصل على الفقرات)، الذي يتحدي النماذج للقيام بالمنطق المنفصل على الفقرات. يحتوي على 96,000 سؤال لاختبار قدرات المنطق للنماذج اللغوية الكبيرة، ويتم استخراج الأسئلة من ويكيبيديا و Crowdsourced من Amazon Mechanical Turk. تتطلب أسئلة DROP غالباً من النماذج اللغوية الكبيرة أداء عمليات رياضية مثل الإضافة والطرح والمقارنة بناءً على المعلومات المتناثرة في المقال.

الأسئلة تحديّة. تتطلب من النماذج اللغوية الكبيرة تحديد أرقام متعددة في المقال وإضافتها أو طرحها للحصول على الإجابة النهائية. النماذج الكبيرة مثل GPT-4 وPalm تحقق 80٪ و85٪، في حين يحقق البشر 96٪ على مجموعة بيانات DROP.

معايير الحس السليم

تقييم الحس السليم في النماذج اللغوية هو أمر مثير للاهتمام ولكنه أيضًا حاسم لأنها تقييم قدرة النموذج على إصدار أحكام واستنتاجات تتوافق مع المنطق البشري. على عكس البشر، الذين يطورون نموذجاً شاملاً للعالم من خلال الخبرات العملية، يتم تدريب النماذج اللغوية على مجموعات بيانات ضخمة دون فهم سياقي حقيقي. هذا يعني أن النماذج تواجه صعوبات في المهام التي تتطلب فهماً 직يّاً للمواقف اليومية والمنطق والمعرفة العملية، والتي هي مهمة جداً لتطبيقات الذكاء الاصطناعي القوية والموثوقة.

HellaSwag (نهايات أكثر صعوبة، سياقات أطول، وأنشطة منخفضة الشوط مع توليد معادي)

تم تطوير HellaSwag لاختبار قدرة النموذج على التنبؤ بالاستمرار الأكثر قبولاً لسيناريو معين. تم بناء هذا المعيار باستخدام الترشيح المعادي (AF)، حيث يختار التمييزات المتعاقبة إجابات خاطئة تم إنشاؤها بواسطة الآلة بشكل متكرر. هذه الطريقة تخلق مجموعة بيانات تحتوي على أمثلة سهلة للبشر ولكنها تحديّة للنماذج. في حين أن HellaSwag كان تحدياً للنماذج السابقة، فإن النماذج المتقدمة مثل GPT-4 حققت أداءً قريباً من دقة البشر، مما يشير إلى تقدم كبير في هذا المجال. ومع ذلك، هذه النتائج تشير إلى الحاجة إلى استمرار تطوير المعايير لتطابق تقدم قدرات الذكاء الاصطناعي.

أخيراً،

Irina Barskaya, PhD, Head Data Scientist at Yandex

إيرينا بارسكايا، دكتوراه في الفلسفة، هي عالمة بيانات متميزة مع أكثر من عقد من الخبرة، تشمل كل من تحليل المنتجات وتحليل التكنولوجيات المتقدمة. قادت إنشاء وتحليل ياسمينا، أول مساعد صوتي ذكاء اصطناعي مُحَلّى بالكامل للمملكة العربية السعودية، وتحمل بيانات محلية معقدة وتسمية للعربية الفصحى واللهجات السعودية. حاليًا، تترأس إيرينا تحليل الجودة في Yandex، وتدفع التقدم في تكنولوجيا الذكاء الاصطناعي.