الذكاء الاصطناعي
ديب مايند وغوغل برين يهدفان إلى إنشاء طرق لتحسين كفاءة التعلم التعزيزي

نظم التعلم التعزيزي يمكن أن تكون قوية ومتينة، قادرة على أداء مهام معقدة للغاية من خلال آلاف التكرارات من التدريب. في حين أن خوارزميات التعلم التعزيزي قادرة على تمكين سلوك متقدم وأحيانًا مفاجئ، فإنها تأخذ وقتًا طويلاً للتدريب وتتطلب كميات هائلة من البيانات. هذه العوامل تجعل تقنيات التعلم التعزيزي غير فعالة إلى حد ما، وحديثًا اجتهدت فرق البحث من ألفابيت ديب مايند وغوغل برين في العثور على طرق أكثر فعالية لإنشاء أنظمة التعلم التعزيزي.
وفقًا لما ذكره VentureBeat، اقترح الفريق البحثي المشترك مؤخرًا طرقًا لجعل تدريب التعلم التعزيزي أكثر فعالية. واحدة من التحسينات المقترحة كانت خوارزمية تسمى Adaptive Behavior Policy Sharing (ABPS)، بينما كانت الأخرى إطارًا يسمى Universal Value Function Approximators (UVFA). يسمح ABPS لمجموعات من وكلاء الذكاء الاصطناعي بمشاركة تجاربهم المحددة بشكل ديناميكي، بينما يسمح UVFA لوكلاء الذكاء الاصطناعي بالتحقيق بشكل متزامن في سياسات الاستكشاف الموجهة.
يتمثل هدف ABPS في تسريع تعديل المعاملات عند تدريب نموذج. يجعل ABPS من السهل العثور على المعاملات المثالية بشكل أسرع من خلال السماح لعدة وكلاء مختلفين بمعاملات مختلفة بمشاركة تجارب سياسة السلوك. بشكل أكثر دقة، يسمح ABPS لوكلاء التعلم التعزيزي باختيار الإجراءات من الإجراءات التي اعتبرتها السياسة مناسبة، وبعد ذلك يتم منحهم مكافأة وملاحظة بناءً على الحالة التالية.
يتم تدريب وكلاء التعلم التعزيزي باستخدام مزيج من المعاملات المحتملة، مثل معدل الانخفاض ومعدل التعلم. عند تدريب نموذج، يكون الهدف هو أن يتقارب النموذج على مزيج المعاملات الذي يعطيه الأداء الأفضل، وفي هذه الحالة أيضًا يحسن كفاءة البيانات. تزيد الكفاءة من خلال تدريب العديد من الوكلاء في وقت واحد واختيار سلوك وكيل واحد فقط للتطبيق خلال الخطوة الزمنية التالية. يتم استخدام السياسة التي يمتلكها الوكيل المستهدف لعينة الإجراءات. يتم تسجيل التحولات داخل مساحة مشتركة، وتتم تقييم هذه المساحة باستمرار بحيث لا يتعين على اختيار السياسة أن يحدث بانتظام. في نهاية التدريب، يتم اختيار مجموعة من الوكلاء ويتم اختيار الوكلاء الأفضل أداءً للنشر النهائي.
فيما يتعلق ب UVFA، يحاول التعامل مع واحدة من المشاكل الشائعة للتعلم التعزيزي، وهو أن وكلاء التعزيز الضعيف غالبًا ما لا يتعلمون المهام. يحاول UVFA حل هذه القضية من خلال جعل الوكيل يتعلم مجموعة منفصلة من سياسات الاستغلال والاستكشاف في نفس الوقت. يخلق فصل المهام إطارًا يسمح لسياسات الاستكشاف بالاستمرار في استكشاف البيئة بينما تستمر سياسات الاستغلال في محاولة تحقيق المكافأة القصوى للمهمة الحالية. تعمل سياسات الاستكشاف في UVFA كهيكل أساسي سيستمر في التحسين حتى لو لم تكن هناك مكافآت طبيعية يتم اكتشافها. في这种 الحالة، يتم تقريب دالة تتوافق مع المكافآت الذاتية، مما يدفع الوكلاء إلى استكشاف جميع الحالات في البيئة، حتى لو عادوا إلى حالات مألوفة.
كما أوضح VentureBeat، عندما يكون إطار UVFA قيد التشغيل، يتم إعطاء المكافآت الذاتية للنظام مباشرة إلى الوكيل كمدخلات. يقوم الوكيل بتعقب تمثيل لجميع المدخلات (مثل المكافآت، الإجراءات، والحالة) خلال حلقة معينة. النتيجة هي أن المكافأة تتم الحفاظ عليها مع مرور الوقت، وسياسة الوكيل على الأقل إلى حد ما مستنيرة بها في جميع الأوقات.
يتم إنجاز هذا من خلال استخدام “الجديد الحصري” و “الجديد مدى الحياة” وحدة. وظيفة الوحدة الأولى هي الاحتفاظ بالذاكرة الحصريّة الحالية وربط الاكتشافات الحالية بالتمثيل المذكور أعلاه، مما يسمح للوكيل بتحديد مكافأة داخلية حصريّة لكل خطوة من التدريب. بعد ذلك، يتم إضافة الحالة المرتبطة بالملاحظة الحالية إلى الذاكرة. في غضون ذلك، وحدة الجديد مدى الحياة مسؤولة عن التأثير على كيفية استكشاف الوكيل بمرور الوقت.
وفقًا لأفرقة ألفابيت/غوغل، أظهرت تقنيات التدريب الجديدة بالفعل إمكانية تحسين كبير أثناء تدريب نظام التعلم التعزيزي. كان UVFA قادرًا على ضعف أداء بعض الوكلاء الأساسيين الذين لعبوا مختلف ألعاب Atari. في غضون ذلك، كان ABPS قادرًا على تحسين الأداء على بعض من نفس ألعاب Atari، مما يقلل من التباين بين أفضل الوكلاء الأداء بحوالي 25٪. كان خوارزمية UVFA المدربة قادرًا على تحقيق درجة عالية في Pitfall بمفردها، دون أي ميزات مصممة من قبل الإنسان.












