الذكاء الاصطناعي

تهدف DeepMind و Google Brain إلى إنشاء طرق لتحسين كفاءة التعلم المعزز

تحديث on 9 كانون الأول، 2022

يمكن أن تكون أنظمة التعلم المعزز قوية وقوية وقادرة على تنفيذ مهام معقدة للغاية من خلال آلاف التكرارات من التدريب. في حين أن خوارزميات التعلم المعزز قادرة على تمكين سلوك متطور ومفاجئ في بعض الأحيان ، فإنها تستغرق وقتًا طويلاً للتدريب وتتطلب كميات هائلة من البيانات. هذه العوامل تجعل تقنيات التعلم المعزز غير فعالة إلى حد ما ، وقد سعت فرق البحث مؤخرًا من Alphabet DeepMind و Google Brain لإيجاد طرق أكثر كفاءة لإنشاء أنظمة التعلم المعزز.

كما ذكرت من قبل VentureBeat، اقترحت مجموعة البحث المشتركة مؤخرًا طرقًا لجعل التدريب على التعلم المعزز أكثر كفاءة. كان أحد التحسينات المقترحة عبارة عن خوارزمية يطلق عليها اسم مشاركة سياسة السلوك التكيفي (ABPS) ، بينما كان الآخر عبارة عن إطار عمل يسمى مقربات وظيفة القيمة العالمية (UVFA). يتيح ABPS لمجموعات من وكلاء الذكاء الاصطناعي مشاركة تجاربهم المختارة بشكل تكيفي ، بينما تسمح UVFA لهؤلاء الذكاء الاصطناعي بالتحقيق في سياسات الاستكشاف الموجه في وقت واحد.

يهدف ABPS إلى تسريع تخصيص المعلمات الفائقة عند تدريب نموذج. تجعل ABPS العثور على المعلمات التشعبية المثلى أسرع من خلال السماح للعديد من العوامل المختلفة ذات المعلمات التشعبية المختلفة بمشاركة خبراتهم في سياسة السلوك. لكي نكون أكثر دقة ، يتيح ABPS لوكلاء التعلم المعزز تحديد الإجراءات من تلك الإجراءات التي تعتبرها السياسة جيدة وبعد ذلك يتم منحها مكافأة وملاحظة بناءً على الحالة التالية.

يتم تدريب عوامل تقوية الذكاء الاصطناعي بمجموعات مختلفة من المعلمات الفائقة المحتملة ، مثل معدل الانحلال ومعدل التعلم. عند تدريب نموذج ، يكون الهدف هو أن يتقارب النموذج مع مجموعة المعلمات الفائقة التي تمنحه أفضل أداء ، وفي هذه الحالة تلك التي تعمل أيضًا على تحسين كفاءة البيانات. يتم زيادة الكفاءة من خلال تدريب العديد من الوكلاء في وقت واحد واختيار سلوك وكيل واحد فقط ليتم نشره خلال الخطوة الزمنية التالية. يتم استخدام السياسة التي استخدمها الوكيل المستهدف لأخذ عينات من الإجراءات. ثم يتم تسجيل الانتقالات داخل مساحة مشتركة ، ويتم تقييم هذه المساحة باستمرار حتى لا يتم اختيار السياسة بشكل متكرر. في نهاية التدريب ، يتم اختيار مجموعة من الوكلاء واختيار أفضل الوكلاء للخضوع للنشر النهائي.

فيما يتعلق بالأشعة فوق البنفسجية UVFA ، فإنه يحاول التعامل مع إحدى المشكلات الشائعة للتعلم المعزز ، والتي غالبًا ما لا تتعلم العوامل المعززة بشكل ضعيف المهام. تحاول UVFA حل المشكلة من خلال جعل الوكيل يتعلم مجموعة منفصلة من سياسات الاستغلال والاستكشاف في نفس الوقت. يؤدي فصل المهام إلى إنشاء إطار عمل يسمح للسياسات الاستكشافية بمواصلة استكشاف البيئة بينما تستمر سياسات الاستغلال في محاولة تعظيم المكافأة للمهمة الحالية. تعمل السياسات الاستكشافية لـ UVFA بمثابة بنية أساسية ستستمر في التحسن حتى لو لم يتم العثور على مكافآت طبيعية. في مثل هذه الحالة ، يتم تقريب الوظيفة التي تتوافق مع المكافآت الجوهرية ، مما يدفع العملاء إلى استكشاف جميع الحالات في بيئة ما ، حتى لو عادوا غالبًا إلى حالات مألوفة.

كما أوضح VentureBeat، عندما يكون إطار عمل UVFA قيد التشغيل ، يتم منح المكافآت الجوهرية للنظام مباشرةً إلى العامل كمدخلات. يقوم الوكيل بعد ذلك بتتبع تمثيل جميع المدخلات (مثل المكافآت ، والعمل ، والحالة) خلال حلقة معينة. والنتيجة هي أن المكافأة يتم الاحتفاظ بها بمرور الوقت وأن سياسة الوكيل تكون على الأقل إلى حد ما على علم بها في جميع الأوقات.

يتم تحقيق ذلك من خلال استخدام "حداثة عرضية" ووحدة نمطية "حداثة مدى الحياة". تتمثل وظيفة الوحدة الأولى في الاحتفاظ بالذاكرة الحالية العرضية وتعيين النتائج الحالية للتمثيل المذكور سابقًا ، والسماح للعامل بتحديد مكافأة عرضية جوهرية لكل خطوة من خطوات التدريب. بعد ذلك ، يتم إضافة الحالة المرتبطة بالملاحظة الحالية إلى الذاكرة. وفي الوقت نفسه ، فإن وحدة الجدة مدى الحياة مسؤولة عن التأثير على عدد المرات التي يستكشف فيها الوكيل على مدار العديد من الحلقات.

وفقًا لفرق Alphabet / Google ، أثبتت تقنيات التدريب الجديدة بالفعل إمكانية التحسين الجوهري أثناء تدريب نظام التعلم المعزز. تمكنت UVFA من مضاعفة أداء بعض الوكلاء الأساسيين الذين لعبوا ألعاب Atari المختلفة. وفي الوقت نفسه ، تمكنت ABPS من زيادة الأداء في بعض ألعاب Atari نفسها ، مما قلل التباين بين الوكلاء الأفضل أداءً بحوالي 25٪. تمكنت خوارزمية UVFA المدربة من تحقيق درجة عالية في Pitfall من تلقاء نفسها ، حيث تفتقر إلى أي ميزات هندسية للعروض البشرية.