الذكاء الاصطناعي

EUREKA: تصميم مكافآت على مستوى الإنسان من خلال برمجة نماذج اللغة الكبيرة

Published November 21, 2023

Updated April 4, 2026

Kunal Kejriwal

مع التقدم الذي أحرزته نماذج اللغة الكبيرة في السنوات الأخيرة، لا ي驚 أن هذه الإطارات تعمل جيدًا كمنظمات семантиكية لمهام اتخاذ القرارات التسلسلية عالية المستوى. ومع ذلك، لا يزال المطورون يجدون صعوبة في استخدام إمكانيات الإطارات الكاملة لنماذج اللغة الكبيرة لتعلم مهام التلاعب المعقدة منخفضة المستوى. على الرغم من كفاءتها، تتطلب نماذج اللغة الكبيرة الحالية خبرة كبيرة في المجال والموضوع لتعلم مهارات بسيطة أو بناء محفزات نصية، مما يخلق فجوة كبيرة بين أدائها ومرنات الإنسان.

لجسر هذه الفجوة، قدم المطورون من Nvidia و CalTech و UPenn وغيرهم EUREKA، خوارزمية تصميم مكافآت مدعومة بنماذج اللغة الكبيرة. تهدف EUREKA إلى استغلال القدرات المختلفة لنماذج اللغة الكبيرة، بما في ذلك كتابة الشفرة وتحسين السياق وتوليد المحتوى بدون إطلاق، لأداء تحسين غير مسبوق للرموز المكافأة. هذه الرموز المكافأة، بالاشتراك مع تعلم التعزيز، تمكن الإطارات من تعلم مهارات معقدة أو أداء مهام التلاعب.

في هذا المقال، سنستعرض إطار EUREKA من منظور التطوير، واستكشاف هيكله وآليته والنتائج التي تحققها في توليد وظائف المكافأة. هذه الوظائف، كما يزعم المطورون، تفوق تلك التي تم توليدها بواسطة البشر. سنستكشف أيضًا كيف يفتح إطار EUREKA الطريق لمقاربة جديدة لتعلم التعزيز باستخدام反馈 بشري (RLHF) من خلال تمكين التعلم بدون تدرج في السياق. هيا نبدأ.

EUREKA : مقدمة

اليوم، نماذج اللغة الكبيرة المتقدمة مثل GPT-3 و GPT-4 توفر نتائج ممتازة عندما تعمل كمنظمات семантиكية لمهام اتخاذ القرارات التسلسلية عالية المستوى، ولكن المطورون لا يزالون يبحثون عن طرق لتعزيز أدائهم عند تعلم مهام التلاعب منخفضة المستوى مثل مهارة دوران القلم. بالإضافة إلى ذلك، لاحظ المطورون أن تعلم التعزيز يمكن أن يؤدي إلى تحقيق نتائج مستدامة في ظروف مرنة، وفي مجالات أخرى، شريطة أن تكون وظائف المكافأة مصممة بعناية من قبل مصممين بشريين، وتتمكن هذه الوظائف المكافأة من توفير إشارات التعلم للسلوكيات المفضلة. عند مقارنة مهام تعلم التعزيز في العالم الحقيقي التي تقبل مكافآت نادرة، يصعب على النموذج تعلم الأنماط، وتوفر تشكيل هذه المكافآت إشارات التعلم التكاملية اللازمة. بالإضافة إلى ذلك،尽管 أهمية وظائف المكافأة، فإن تصميمها يعد مهمة صعبة، وتصميماتها غير المثالية غالبًا ما تؤدي إلى سلوكيات غير مقصودة.

لمواجهة هذه التحديات وتحقيق أقصى استفادة من رموز المكافأة هذه، تهدف EUREKA أو Evolution-driven Universal REward Kit for Agent إلى تحقيق المساهمات التالية.

تحقيق أداء على مستوى الإنسان لتصميم وظائف المكافأة.
حل مهام التلاعب بشكل فعال دون استخدام هندسة مكافأة يدوية.
توليد وظائف مكافأة أكثر انسجامًا مع البشر وأكثر أداءً من خلال تقديم نهج جديد لتعلم بدون تدرج في السياق بدلاً من نهج تعلم التعزيز التقليدي باستخدام反馈 بشري.

هناك ثلاثة اختيارات تصميم خوارزمي رئيسية قام المطورون باختيارها لتعزيز عمومية EUREKA: البحث التطوري، والبيئة كسياق، واعتبار المكافأة. أولاً، يأخذ إطار EUREKA مصدر البيئة كسياق لتوليد وظائف مكافأة قابلة للتنفيذ في إعداد بدون إطلاق. بعد ذلك، يقوم الإطار بالبحث التطوري لتحسين جودة المكافآت بشكل كبير، ويقترح دفعات من مرشحي المكافأة مع كل تكرار أو حقبة، ويعمل على تحسين الأكثر وعدًا. في المرحلة الثالثة والأخيرة، يستخدم الإطار اعتبار المكافأة لجعل تحسين المكافآت في السياق أكثر فعالية، وهو عملية في النهاية تساعد الإطار على تمكين تحرير المكافآت المستهدف والأutomated باستخدام ملخص نصي لجودة المكافآت على أساس إحصاءات تدريب السياسة. يُظهر الشكل التالي نظرة عامة موجزة عن كيفية عمل إطار EUREKA، وفي القسم القادم، سنناقش الهيكل والآلية بتفاصيل أكبر.

EUREKA : هيكل النموذج ووضع المشكلة

الهدف الرئيسي من تشكيل المكافأة هو إرجاع مكافأة مشكلة أو منقحة لمكافأة حقيقية قد تواجه صعوبات عند التحسين المباشر مثل المكافآت النادرة. بالإضافة إلى ذلك، يمكن للمصممين الوصول إلى وظائف المكافأة الحقيقية فقط من خلال استفسارات، وهذا هو السبب في أن إطار EUREKA يختار توليد المكافأة، وهو إعداد تركيب البرنامج dựa على RDP أو مشكلة تصميم المكافأة.

مشكلة تصميم المكافأة أو RDP هي زوج يحتوي على نموذج عالم مع مساحة حالة، مساحة لمكافآت، دالة انتقالية، ومساحة عمل. ثم يحدد خوارزمية التعلم مكافآت من خلال توليد سياسة تؤدي إلى عملية ماركوف التصميم، التي تنتج تطور سكالي لأي سياسة، ويمكن الوصول إليها فقط باستخدام استفسارات السياسة. الهدف الرئيسي من RDP هو إخراج مكافأة في طريقة تمكن السياسة من تحقيق أعلى درجة للاستواء. في وضع مشكلة EUREKA، قام المطورون بتحديد كل مكون في مشكلة تصميم المكافأة باستخدام الشفرة. بالإضافة إلى ذلك، لمسار معين يحدد تفاصيل المهمة، الهدف الرئيسي لمشكلة توليد المكافأة هو توليد شفرة مكافأة لتحقيق أعلى درجة للاستواء.

متابعًا، هناك ثلاثة مكونات خوارزمية أساسية في إطار EUREKA. البحث التطوري (اقتراح مكافآت وتصحيحها بشكل متكرر)، البيئة كسياق (توليد مكافآت قابلة للتنفيذ في إعداد بدون إطلاق)، ومكافأة الانعكاس (تمكين تحسين دقيق للمكافآت). يُظهر الشفرة الزائفة للخوارزمية في الشكل التالي.

البيئة كسياق

في الوقت الحالي، تحتاج إطارات نماذج اللغة الكبيرة إلى مواصفات البيئة كمدخلات لتصميم المكافآت، بينما يقترح إطار EUREKA إدخال شفرة مصدر البيئة مباشرة كسياق، دون شفرة المكافأة، مما يسمح لإطارات نماذج اللغة الكبيرة باختيار نموذج العالم كسياق. يوجد لدي إطار EUREKA ميزتان رئيسيتان. أولاً، يتم تدريب إطارات نماذج اللغة الكبيرة لأغراض البرمجة على مجموعات شفرة أصلية مكتوبة بلغات برمجة موجودة مثل C و C++ و Python و Java وغيرها، وهذا هو السبب في أنها أفضل في إنتاج مخرجات شفرة عندما يُسمح لها بكتابة الشفرة بنفس النمط والصياغة التي تم تدريبها عليها في الأصل. ثانيًا، يُظهر استخدام شفرة مصدر البيئة عادةً البيئات المشاركة семантиًا، والمتغيرات المناسبة للاستخدام في محاولة لإخراج مكافأة وفقًا للمهمة المحددة. بناءً على هذه Ideas، يُوجه إطار EUREKA نماذج اللغة الكبيرة إلى إرجاع شفرة Python قابلة للتنفيذ بشكل أفضل مع مساعدة فقط من نصائح التنسيق والتصاميم المكافأة العامة.

البحث التطوري

يشكل دمج البحث التطوري في إطار EUREKA حلًا طبيعيًا للتحديات والتأثيرات التي حدثت أثناء التنفيذ كما ذكرنا سابقًا. مع كل تكرار أو حقبة، يُنتج الإطار مخرجات مستقلة متعددة من نموذج اللغة الكبيرة، وبالنظر إلى أن جميع التوليدات هي i.i.d، يقلل بشكل كبير من احتمال أن تكون وظائف المكافأة خلال التكرارات معيبة مع زيادة عدد العينات مع كل حقبة.

في الخطوة التالية، يستخدم إطار EUREKA وظائف المكافأة القابلة للتنفيذ من التكرار السابق لأداء تحويل مكافأة في السياق، ثم يقترح مكافأة جديدة ومحسنة بناءً على反馈 نصي. عندما يُدمج إطار EUREKA مع تحسين السياق وخصائص اتباع التعليمات لكبر إطارات نماذج اللغة، يمكنه تحديد مشغل التحويل كتحفيز نصي، ويوفر طريقة لاستخدام ملخص نصي لتدريب السياسة لتعديل شفرة المكافأة الحالية.

مكافأة الانعكاس

لتحقيق تحويل المكافآت في السياق، من الضروري تقييم جودة المكافآت المولدة، ووضعها في كلمات، ويحاول إطار EUREKA ذلك باستخدام استراتيجية بسيطة لتوفير الدرجات الرقمية كتقييم لمكافأة. عندما تعمل دالة اللياقة للمهمة كمقياس شاملة للمكافأة الحقيقية، تفتقر إلى تعيين الائتمان، و无法 توفير أي معلومات قيمة حول سبب عمل وظيفة المكافأة أو عدم عملها. لذلك، في محاولة لتوفير تشخيص مكافأة أكثر دقة، يقترح الإطار استخدام反馈 أوتوماتيكي لملخص ديناميات تدريب السياسة في النص. بالإضافة إلى ذلك، في برنامج المكافأة، تُطلب من وظائف المكافأة في إطار EUREKA الكشف عن مكوناتها بشكل فردي، مما يسمح للإطار بتتبع قيم سكالية لكل مكون مكافأة فريد في نقاط تفتيش السياسة خلال مرحلة التدريب بأكملها.

على الرغم من أن إجراء وظيفة المكافأة الذي يتبعه إطار EUREKA بسيط في البناء، إلا أنه ضروري بسبب الطبيعة التخوارزمية لتحسين المكافآت. يعني ذلك أن فعالية وظيفة المكافأة تتأثر مباشرةً باختيار خوارزمية التعلم التعزيزي، ومع تغيير المعلمات، قد تؤدي المكافأة بشكل مختلف حتى مع نفس المحسّن. لذلك، يمكن لإطار EUREKA تحرير السجلات بشكل أكثر فعالية وانتقائية أثناء توليد وظائف مكافأة في توافق محسن مع خوارزمية التعلم التعزيزي.

التدريب والأساس

هناك مكونان رئيسيان للتدريب في إطار EUREKA: تعلم السياسة ومقاييس تقييم المكافأة.

تعلم السياسة

تُحسّن وظائف المكافأة النهائية لكل مهمة فردية باستخدام نفس خوارزمية التعلم التعزيزي باستخدام نفس مجموعة المعلمات التي تم ضبطها دقيقًا لجعل وظائف المكافأة المصممة من قبل البشر تعمل بشكل جيد.

مقاييس تقييم المكافأة

كما يُبلغ إطار EUREKA عن درجة المكافأة المعيارية البشرية، وهو مقياس يُ 제공 مقياسًا شاملاً لتقدير أداء الإطار مقارنةً بالمقاييس المصممة من قبل الخبراء البشر وفقًا لمقاييس المكافأة الحقيقية.

متابعًا، هناك ثلاثة أساسيات رئيسية: L2R، وHuman، وSparse.

L2R

L2R هو حل تحفيز نموذج اللغة الكبيرة ذو مرحلتين يساعد في توليد مكافآت مخططة. أولاً، يملأ نموذج اللغة الكبيرة قالبًا طبيعيًا للغة للبيئة والمهمة المحددة باللغة الطبيعية، ثم يُحول نموذج اللغة الكبيرة الثاني “وصف الحركة” إلى شفرة تكتب وظيفة مكافأة عن طريق استدعاء مجموعة من البريماتيفات الأساسية للمكافأة المكتوبة يدوياً.

Human

الأساس البشري هو وظائف المكافأة الأصلية المكتوبة بواسطة باحثي التعلم التعزيزي، وبالتالي تمثل نتائج هندسة المكافأة البشرية على مستوى غير مسبوق.

Sparse

الأساس النادر يشبه دوال اللياقة، ويُستخدم لتقييم جودة المكافآت التي يولدها الإطار.

النتائج والنتائج

لتحليل أداء إطار EUREKA، سنقيمه على معايير مختلفة بما في ذلك أدائه مقابل مكافآت بشرية، وتحسين النتائج بمرور الوقت، وتوليد مكافآت جديدة، وتمكين التحسين المستهدف، والعمل مع反馈 بشري.

EUREKA تفوق مكافآت بشرية

يوضح الشكل التالي النتائج المجمعة على مختلف المقاييس، ويمكن ملاحظة بوضوح أن إطار EUREKA يفوق أو يؤدي على نفس مستوى المكافآت على مستوى الإنسان في كل من مهام الدقة و Issac. بالمقارنة، يُقدم أساس L2R أداءً مشابهًا على مهام منخفضة الأبعاد، ولكن عندما يتعلق الأمر بمهام عالية الأبعاد، فإن الفجوة في الأداء كبيرة.

تحسين مستمر مع مرور الوقت

أحد أبرز مظاهر إطار EUREKA هو قدرته على التحسين المستمر وتحسين أدائه مع مرور الوقت مع كل تكرار، ويوضح الشكل التالي النتائج.

كما يمكن ملاحظة بوضوح أن الإطار يولد مكافآت أفضل مع كل تكرار، ويحسن وي超过 أداء المكافآت البشرية بفضل نهج البحث التطوري في السياق.

توليد مكافآت جديدة

يمكن تقييم جديدية مكافآت إطار EUREKA بحساب الارتباط بين مكافآت الإنسان و EUREKA على جميع مهام Issac. يتم رسم هذه الارتباطات على مخطط مبثر أو خريطة مقابل درجات المكافأة المعيارية البشرية، مع تمثيل كل نقطة على المخطط لمكافأة EUREKA الفردية لكل مهمة. كما يمكن ملاحظة بوضوح أن إطار EUREKA يولد في الغالب وظائف مكافأة ذات ارتباط ضعيف تفوق وظائف المكافأة البشرية.

تمكين التحسين المستهدف

لتحديد أهمية إضافة انعكاس المكافأة في反馈 المكافأة، قيم المطورون شذوذًا، وهو إطار EUREKA بدون انعكاس المكافأة يقلل من تحفيزات الرد إلى المجموعة فقط من قيم الصورة. عند تشغيل مهام Issac، لاحظ المطورون أن إطار EUREKA بدون انعكاس المكافأة شهد انخفاضًا بنسبة 29٪ في متوسط الدرجة المعيارية.

العمل مع反馈 بشري

لدمج مجموعة واسعة من المدخلات لتوليد وظائف مكافأة أكثر انسجامًا مع البشر وأكثر أداءً، يقدم إطار EUREKA بالإضافة إلى التصاميم التلقائية للمكافأة نهجًا جديدًا لتعلم بدون تدرج في السياق لتعلم التعزيز باستخدام反馈 بشري، وتم ملاحظة أمرين مهمين.

يمكن لـ EUREKA أن يستفيد ويتحسن من وظائف المكافأة البشرية.
استخدام反馈 بشري لانعكاس المكافأة يؤدي إلى سلوك متناسب.

يوضح الشكل السابق كيف يظهر إطار EUREKA تحسنًا كبيرًا في الأداء والكفاءة باستخدام تهيئة مكافأة بشرية بغض النظر عن جودة المكافآت البشرية، مما يشير إلى أن جودة المكافآت الأساسية لا تؤثر بشكل كبير على قدرات تحسين المكافأة في السياق.

يوضح الشكل السابق كيف يمكن لـ EUREKA ليس فقط إحداث سياسات أكثر انسجامًا مع البشر، ولكن أيضًا تعديل المكافآت من خلال دمج反馈 بشري.

أفكار ختامية

في هذا المقال، تحدثنا عن EUREKA، خوارزمية تصميم مدعومة بنماذج اللغة الكبيرة، التي تحاول استغلال القدرات المختلفة لنماذج اللغة الكبيرة، بما في ذلك كتابة الشفرة وتحسين السياق وتوليد المحتوى بدون إطلاق، لأداء تحسين غير مسبوق للرموز المكافأة. يمكن استخدام رمز المكافأة هذا، بالاشتراك مع تعلم التعزيز، من قبل الإطارات لتعلم مهارات معقدة أو أداء مهام التلاعب. بدون تدخل بشري أو هندسة تحفيزية خاصة بالمهمة، يوفر الإطار قدرات توليد مكافأة على مستوى الإنسان على مجموعة واسعة من المهام، و điểm قوته الرئيسية يكمن في تعلم مهام معقدة باستخدام نهج تعلم المناهج.

بشكل عام، يشير الأداء الكبير والتنوع لإطار EUREKA إلى إمكانية أن تؤدي إلى نهج قابل للتوسيع وعمومي لتصميم المكافآت، ويمكن أن تكون هذه الرؤية قابلة للتطبيق على مشاكل البحث المفتوحة الأخرى.