الذكاء الاصطناعي

تقارير ديب مايند عن طريقة جديدة لتدريب التعلم التعزيزي آمن

نُشر في 14 ديسمبر 2019

تم التحديث في 25 مايو 2026

بواسطة

Daniel Nelson

التعلم التعزيزي هو طريق واعد لتطوير الذكاء الاصطناعي، مما ينتج عنه ذكاء اصطناعي يمكنه التعامل مع مهام معقدة للغاية. يتم استخدام خوارزميات التعلم التعزيزي في إنشاء أنظمة الروبوتات المتنقلة وسيارات الأجرة بدون سائق وغيرها من التطبيقات. ومع ذلك، بسبب الطريقة التي يتم بها تدريب التعلم التعزيزي، يمكن أن تظهر سلوكيات غريبة وغير متوقعة في بعض الأحيان. يمكن أن تكون هذه السلوكيات خطيرة، ويطلق عليها باحثو الذكاء الاصطناعي مصطلح “مشكلة الاستكشاف الآمن”، حيث يصبح الذكاء الاصطناعي عالقًا في استكشاف حالات غير آمنة.

最近، نشر مختبر أبحاث الذكاء الاصطناعي في جوجل ديب مايند ورقة مقترحة طريقة جديدة للتعامل مع مشكلة الاستكشاف الآمن وتدريب التعلم التعزيزي بطريقة أكثر أمانًا. الطريقة المقترحة من ديب مايند تصحح أيضًا مشكلة اختراق المكافآت أو الثغرات في معايير المكافأة.

تستخدم طريقة ديب مايند الجديدة نظامين مختلفين لموجه سلوك الذكاء الاصطناعي في الحالات التي يمكن أن ت出现 فيها سلوكيات غير آمنة. النظامان المستخدمان في تقنية ديب مايند هما نموذج توليدي ونموذج ديناميكي متقدم. يتم تدريب كلا النموذجين على مجموعة متنوعة من البيانات، مثل عروض الخبراء في مجال السلامة ومسارات المركبات العشوائية. يتم وضع علامات على البيانات من قبل مشرف مع قيم مكافأة محددة، وسيتمكن وكيل الذكاء الاصطناعي من اكتساب أنماط السلوك التي تمكنه من جمع المكافأة الأكبر. كما تم وضع علامات على الحالات غير الآمنة، و بمجرد أن يتمكن النموذج من التنبؤ بنجاح بالمكافآت والحالات غير الآمنة، يتم نشره للقيام بالactions المستهدفة.

يفسر فريق البحث في الورقة أن الفكرة هي إنشاء سلوكيات ممكنة من الصفر، وتقترح السلوكيات المرغوبة، وجعل هذه السيناريوهات افتراضية تكون أكثر إفادة في نفس الوقت مع تجنب التدخل المباشر في بيئة التعلم. يطلق فريق ديب مايند على هذا النهج اسم ReQueST، أو合成 استعلام المكافأة عبر تحسين المسار.

يمكن أن يؤدي ReQueST إلى أربعة أنواع مختلفة من السلوك. يحاول النوع الأول من السلوك تحقيق أقصى قدر من عدم اليقين بشأن نماذج المكافأة الجماعية. في حين يحاول السلوك الثاني والثالث تقليل وتحقيق أقصى قدر من المكافآت المتوقعة. يتم تقليل المكافآت المتوقعة من أجل قيادة اكتشاف السلوكيات التي قد يكون النموذج يتنبأ بها بشكل غير صحيح. من ناحية أخرى، يتم تحقيق أقصى قدر من المكافآت المتوقعة من أجل قيادة العلامات السلوكية التي تمتلك أعلى قيمة معلومات. وأخيرًا، يحاول النوع الرابع من السلوك تحقيق أقصى قدر من جديد المسارات، من أجل أن يستمر النموذج في الاستكشاف بغض النظر عن المكافآت المتوقعة.

بمجرد أن يصل النموذج إلى مستوى جمع المكافآت المطلوب، يتم استخدام وكيل التخطيط لاتخاذ القرارات بناءً على المكافآت المكتسبة. يسمح نظام التحكم التنبؤي بالنموذج للوكلاء أن يتعلموا تجنب الحالات غير الآمنة باستخدام النموذج الديناميكي والتنبؤ بالنتائج المحتملة، على عكس سلوك الخوارزميات التي تتعلم من خلال التجربة والخطأ فقط.

كما ذكر في VentureBeat، يعتقد باحثو ديب مايند أن مشروعهم هو أول نظام تعلم تعزيزي يمكنه التعلم بطريقة آمنة ومراقبة:

“إلى حد معرفتنا، ReQueST هو أول خوارزمية نمذجة مكافأة تتعلم بشكل آمن حول الحالات غير الآمنة وتنمو لتدريب نماذج مكافأة الشبكات العصبية في بيئات ذات حالات مستمرة عالية الأبعاد. حتى الآن، لقد أظهرنا فقط فعالية ReQueST في مجالات محاكاة ذات ديناميات بسيطة. واحد من اتجاهات العمل المستقبلية هو اختبار ReQueST في مجالات ثلاثية الأبعاد ذات فيزياء أكثر واقعية ووكلاء آخرين يتصرفون في البيئة”

Daniel Nelson

مدون وبرمجي متخصص في مواضيع Machine Learning و Deep Learning. يأمل دانيال في مساعدة الآخرين على استخدام قوة الذكاء الاصطناعي من أجل الخير الاجتماعي.

Unite.AI

تقارير ديب مايند عن طريقة جديدة لتدريب التعلم التعزيزي آمن

You may like