الذكاء الاصطناعي

DeepMind و Google Brain يهدفون إلى إنشاء طرق لتحسين كفاءة التعلم التعزيزي

Published February 19, 2020

Updated April 5, 2026

Daniel Nelson

يمكن أن تكون أنظمة التعلم التعزيزي قوية ومتينة ، وقادرة على أداء مهام معقدة بشكل استثنائي من خلال آلاف التكرارات التدريبية. في حين أن خوارزميات التعلم التعزيزي قادرة على تمكين السلوك المتقدم وأحيانًا المدهش ، فإنها تأخذ وقتًا طويلاً للتدريب وتتطلب كميات هائلة من البيانات. هذه العوامل تجعل تقنيات التعلم التعزيزي غير فعالة إلى حد ما ، و最近 قامت فرق البحث من Alphabet DeepMind و Google Brain بمحاولة إيجاد طرق أكثر كفاءة لإنشاء أنظمة التعلم التعزيزي.

كما ذكرت VentureBeat ، قام الفريق البحثي المشترك مؤخرًا بطرح طرق لجعل تدريب التعلم التعزيزي أكثر كفاءة. واحدة من التحسينات المقترحة كانت خوارزمية تسمى Adaptive Behavior Policy Sharing (ABPS) ، في حين كانت الأخرى إطارًا يسمى Universal Value Function Approximators (UVFA). يسمح ABPS لمجموعات من وكلاء الذكاء الاصطناعي بمشاركة تجاربهم المحددة بشكل تعاوني ، بينما يسمح UVFA لوكلاء الذكاء الاصطناعي بالتحقيق بشكل متزامن في سياسات الاستكشاف الموجهة.

تم تصميم ABPS لتسريع تخصيص المعاملاتハイبر عند تدريب نموذج. يجعل ABPS من السهل العثور على المعاملاتハイبر المثالية بشكل أسرع من خلال السماح لعدة وكلاء مختلفين بمعاملاتハイبر مختلفة لمشاركة تجارب سياستهم السلوكية. بشكل أكثر دقة ، يسمح ABPS لوكلاء التعلم التعزيزي باختيار الإجراءات من الإجراءات التي اعتبرتها السياسة مناسبة ، وبعد ذلك يتم منحها مكافأة وملاحظة بناءً على الحالة التالية.

يتم تدريب وكلاء التعزيز الاصطناعي مع مزيج من المعاملاتハイبر المحتملة ، مثل معدل الانخفاض ومعدل التعلم. عند تدريب نموذج ، يكون الهدف هو أن يتقارب النموذج على مزيج من المعاملاتハイبر التي توفر له الأداء الأفضل ، وفي هذه الحالة أيضًا تحسين كفاءة البيانات. تزيد الكفاءة عن طريق تدريب العديد من الوكلاء في نفس الوقت واختيار سلوك وكيل واحد فقط للتطبيق خلال الخطوة الزمنية التالية. يتم استخدام السياسة التي يمتلكها الوكيل المستهدف لتحديد الإجراءات. يتم تسجيل التحولات داخل مساحة مشتركة ، وتتم تقييم هذه المساحة بشكل مستمر حتى لا يكون من الضروري اختيار السياسة بشكل متكرر. في نهاية التدريب ، يتم اختيار مجموعة من الوكلاء ويتم اختيار الوكلاء الأفضل أداءً للنشر النهائي.

فيما يتعلق ب UVFA ، يحاول التعامل مع واحدة من المشاكل الشائعة للتعلم التعزيزي ، وهو أن وكلاء التعزيز الضعيف غالبًا لا يتعلمون المهام. يحاول UVFA حل هذه القضية من خلال جعل الوكيل يتعلم مجموعة منفصلة من سياسات الاستغلال والاستكشاف في نفس الوقت. يخلق فصل المهام إطارًا يسمح للسياسات الاستكشافية بالاستمرار في استكشاف البيئة بينما تواصل سياسات الاستغلال محاولة تحقيق المكافأة القصوى للمهمة الحالية. تعمل سياسات الاستكشاف في UVFA كهيكل أساسي سيستمر في التحسين حتى لو لم تكن هناك مكافآت طبيعية يتم اكتشافها. في مثل هذه الحالة ، يتم تقريب دالة تتوافق مع المكافآت الذاتية ، مما يدفع الوكلاء إلى استكشاف جميع الحالات في بيئة ، حتى لو عادوا إلى حالات مألوفة.

كما أوضح VentureBeat ، عندما يكون إطار UVFA قيد التنفيذ ، يتم تزويد المكافآت الذاتية للنظام بشكل مباشر إلى الوكيل. يقوم الوكيل بتعقب تمثيل جميع الإدخالات (مثل المكافآت ، الإجراءات ، والحالة) خلال حلقة معينة. النتيجة هي أن المكافأة تظل محفوظة مع مرور الوقت ، وسياسة الوكيل على الأقل مستنيرة بها في جميع الأوقات.

يتم إنجاز ذلك باستخدام “الجديد الحصري” و “الجديد مدى الحياة” وحدة. وظيفة الوحدة الأولى هي الاحتفاظ بالذاكرة الحصريّة الحالية وتحويل النتائج الحالية إلى التمثيل المذكور أعلاه ، مما يسمح للوكيل بتحديد مكافأة ذاتية حصريّة لكل خطوة من خطوات التدريب. بعد ذلك ، يتم إضافة الحالة المرتبطة بالملاحظة الحالية إلى الذاكرة. في غضون ذلك ، وحدة الجدة مدى الحياة مسؤولة عن التأثير على كيفية استكشاف الوكيل على مدار العديد من الحلقات.

وفقًا لفريق Alphabet/Google ، أظهرت تقنيات التدريب الجديدة بالفعل إمكانية تحسين كبير أثناء تدريب نظام التعلم التعزيزي. تمكنت UVFA من ضعف أداء بعض الوكلاء الأساسيين الذين لعبوا ألعاب Atari المختلفة. في غضون ذلك ، تمكنت ABPS من تحسين الأداء على بعض من نفس ألعاب Atari ، مما قلل من التباين بين أفضل الوكلاء أداءً بنسبة تقارب 25٪. تمكنت الخوارزمية المدربة بواسطة UVFA من تحقيق درجة عالية في Pitfall بمفردها ، دون أي ميزات مصممة من قبل الإنسان.