رطم ما هو التعلم العميق المعزز؟ - اتحدوا
اتصل بنا للحصول على مزيد من المعلومات
دروس متقدمة في الذكاء الاصطناعي:

منظمة العفو الدولية 101

ما هو التعلم العميق المعزز؟

mm
تحديث on

ما هو التعلم العميق المعزز؟

إلى جانب التعلم الآلي غير الخاضع للرقابة والتعلم الخاضع للإشراف، هناك شكل شائع آخر لإنشاء الذكاء الاصطناعي وهو التعلم المعزز. أبعد من التعلم التعزيزي المنتظم، التعلم المعزز العميق يمكن أن يؤدي إلى نتائج مثيرة للإعجاب، وذلك بفضل حقيقة أنه يجمع بين أفضل جوانب التعلم العميق والتعلم المعزز. دعونا نلقي نظرة على كيفية عمل التعلم المعزز العميق.

قبل أن نغوص في التعلم المعزز العميق ، قد يكون من الجيد تحديث أنفسنا بشأن مدى انتظامنا تعزيز التعلم يعمل. في التعلم المعزز ، تم تصميم الخوارزميات الموجهة نحو الهدف من خلال عملية التجربة والخطأ ، وتحسين الإجراء الذي يؤدي إلى أفضل نتيجة / الإجراء الذي يكتسب أكبر قدر من "المكافأة". عندما يتم تدريب خوارزميات التعلم المعزز ، يتم منحهم "مكافآت" أو "عقوبات" تؤثر على الإجراءات التي سيتخذونها في المستقبل. تحاول الخوارزميات العثور على مجموعة من الإجراءات التي من شأنها تزويد النظام بأكبر قدر من المكافآت ، وتحقيق التوازن بين المكافآت الفورية والمستقبلية.

تعد خوارزميات التعلم المعزز قوية للغاية لأنه يمكن تطبيقها على أي مهمة تقريبًا ، وتكون قادرة على التعلم بمرونة وديناميكية من بيئة واكتشاف الإجراءات الممكنة.

نظرة عامة على التعلم المعزز العميق

الصورة: Megajuice عبر Wikimedia Commons، CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

عندما يتعلق الأمر بالتعلم المعزز العميق ، فعادة ما يتم تمثيل البيئة بالصور. الصورة هي التقاط البيئة في نقطة زمنية معينة. يجب على الوكيل تحليل الصور واستخراج المعلومات ذات الصلة منها ، باستخدام المعلومات للإبلاغ عن الإجراء الذي يجب عليه اتخاذه. عادة ما يتم تنفيذ التعلم المعزز العميق بإحدى طريقتين مختلفتين: التعلم القائم على القيمة والتعلم القائم على السياسة.

تستفيد تقنيات التعلم القائم على القيمة من الخوارزميات والبنى مثل الشبكات العصبية التلافيفية و شبكات ديب كيو. تعمل هذه الخوارزميات عن طريق تحويل الصورة إلى التدرج الرمادي واقتصاص الأجزاء غير الضرورية من الصورة. بعد ذلك ، تخضع الصورة لعمليات تلافيف وتجميع مختلفة ، مما يؤدي إلى استخراج الأجزاء الأكثر صلة بالصورة. ثم تُستخدم الأجزاء المهمة من الصورة لحساب قيمة Q للإجراءات المختلفة التي يمكن أن يتخذها الوكيل. تُستخدم قيم Q لتحديد أفضل مسار عمل للعامل. بعد حساب قيم Q الأولية ، يتم تنفيذ backpropagation من أجل تحديد قيم Q الأكثر دقة.

تُستخدم الأساليب المستندة إلى السياسة عندما يكون عدد الإجراءات الممكنة التي يمكن أن يتخذها الوكيل مرتفعًا للغاية ، وهذا هو الحال عادةً في سيناريوهات العالم الحقيقي. تتطلب مثل هذه المواقف نهجًا مختلفًا لأن حساب قيم Q لجميع الإجراءات الفردية ليس عمليًا. تعمل المناهج المستندة إلى السياسة دون حساب قيم الوظائف للإجراءات الفردية. بدلاً من ذلك ، يتبنون السياسات من خلال تعلم السياسة بشكل مباشر ، غالبًا من خلال تقنيات تسمى تدرجات السياسة.

تعمل تدرجات السياسة من خلال تلقي حالة وحساب احتمالات الإجراءات بناءً على تجارب الوكيل السابقة. ثم يتم تحديد الإجراء الأكثر احتمالا. تتكرر هذه العملية حتى نهاية فترة التقييم ويتم منح المكافآت للوكيل. بعد التعامل مع المكافآت مع الوكيل ، يتم تحديث معلمات الشبكة باستخدام backpropagation.

ما هو Q-Learning؟

لأن Q- التعلم يمثل جزءًا كبيرًا من عملية التعلم المعزز العميق ، فلنأخذ بعض الوقت لفهم كيفية عمل نظام Q-Learning حقًا.

عملية قرار ماركوف

عملية اتخاذ القرار ماركوف. الصورة: waldoalvarez عبر Pixabay ، رخصة Pixbay (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

لكي ينفذ وكيل الذكاء الاصطناعي سلسلة من المهام ويصل إلى هدف ما ، يجب أن يكون الوكيل قادرًا على التعامل مع سلسلة من الحالات والأحداث. سيبدأ الوكيل في حالة واحدة ويجب أن يتخذ سلسلة من الإجراءات للوصول إلى الحالة النهائية ، ويمكن أن يكون هناك عدد هائل من الحالات الموجودة بين حالة البداية والنهاية. يعد تخزين المعلومات المتعلقة بكل حالة أمرًا غير عملي أو مستحيل ، لذلك يجب على النظام أن يجد طريقة للاحتفاظ بمعلومات الحالة الأكثر صلة. يتم تحقيق ذلك من خلال استخدام ملف عملية اتخاذ القرار ماركوف، والذي يحافظ فقط على المعلومات المتعلقة بالحالة الحالية والحالة السابقة. تتبع كل ولاية خاصية Markov ، والتي تتعقب كيفية تغير الوكيل من الحالة السابقة إلى الحالة الحالية.

Q- التعلم العميق

بمجرد وصول النموذج إلى معلومات حول حالات بيئة التعلم ، يمكن حساب قيم Q. قيم Q هي إجمالي المكافأة الممنوحة للوكيل في نهاية سلسلة من الإجراءات.

يتم حساب قيم Q بسلسلة من المكافآت. هناك مكافأة فورية ، محسوبة على الوضع الحالي واعتمادًا على الإجراء الحالي. يتم أيضًا حساب قيمة Q للحالة اللاحقة ، جنبًا إلى جنب مع قيمة Q للحالة بعد ذلك ، وما إلى ذلك حتى يتم حساب جميع قيم Q للحالات المختلفة. هناك أيضًا معلمة Gamma تُستخدم للتحكم في مقدار وزن المكافآت المستقبلية على تصرفات الوكيل. يتم حساب السياسات عادةً عن طريق التهيئة العشوائية لقيم Q والسماح للنموذج بالتقارب نحو قيم Q المثلى على مدار التدريب.

شبكة Q العميقة

واحدة من المشاكل الأساسية التي تنطوي على استخدام Q-Learning من أجل التعلم المعزز هو أن حجم الذاكرة المطلوبة لتخزين البيانات يتسع بسرعة مع زيادة عدد الحالات. تحل Deep Q Networks هذه المشكلة من خلال الجمع بين نماذج الشبكة العصبية وقيم Q ، مما يتيح للوكيل التعلم من التجربة وتقديم تخمينات معقولة حول أفضل الإجراءات التي يجب اتخاذها. باستخدام Q-Learning العميق ، يتم تقدير وظائف Q-value باستخدام الشبكات العصبية. تأخذ الشبكة العصبية الحالة كبيانات إدخال ، وتخرج الشبكة قيمة Q لجميع الإجراءات الممكنة المختلفة التي قد يتخذها الوكيل.

يتم إنجاز التعلم العميق Q-Learning من خلال تخزين جميع التجارب السابقة في الذاكرة ، وحساب الحد الأقصى من المخرجات لشبكة Q ، ثم استخدام دالة الخسارة لحساب الفرق بين القيم الحالية وأعلى القيم النظرية الممكنة.

التعلم المعزز العميق مقابل التعلم العميق

أحد الاختلافات المهمة بين التعلم المعزز العميق والتعلم العميق المنتظم هو أنه في حالة السابق ، تتغير المدخلات باستمرار ، وهذا ليس هو الحال في التعلم العميق التقليدي. كيف يمكن أن يفسر نموذج التعلم المدخلات والمخرجات التي تتغير باستمرار؟

بشكل أساسي ، لحساب الاختلاف بين القيم المتوقعة والقيم المستهدفة ، يمكن استخدام شبكتين عصبيتين بدلاً من واحدة. تقدر إحدى الشبكات القيم المستهدفة ، بينما تكون الشبكة الأخرى مسؤولة عن التنبؤات. يتم تحديث معلمات الشبكة المستهدفة كما يتعلم النموذج ، بعد مرور عدد مختار من التكرارات التدريبية. ثم يتم ضم مخرجات الشبكات المعنية معًا لتحديد الاختلاف.

التعلم القائم على السياسة

التعلم القائم على السياسة تعمل المناهج بشكل مختلف عن النهج القائمة على القيمة Q. بينما تُنشئ مناهج Q-value دالة قيمة تتنبأ بمكافآت الحالات والإجراءات ، تحدد الأساليب المستندة إلى السياسة سياسة من شأنها تعيين الحالات للإجراءات. بمعنى آخر ، يتم تحسين وظيفة السياسة التي تختار الإجراءات بشكل مباشر دون النظر إلى وظيفة القيمة.

تدرجات السياسة

تندرج سياسة التعلم المعزز العميق في واحدة من فئتين: العشوائية أو الحتمية. السياسة الحتمية هي السياسة التي يتم فيها تعيين الدول للإجراءات ، مما يعني أنه عندما يتم إعطاء السياسة معلومات حول حالة ما ، يتم إرجاع إجراء. وفي الوقت نفسه ، تعيد السياسات العشوائية توزيعًا احتماليًا للإجراءات بدلاً من إجراء واحد منفصل.

تُستخدم السياسات الحتمية عندما لا يكون هناك شك بشأن نتائج الإجراءات التي يمكن اتخاذها. بمعنى آخر ، عندما تكون البيئة نفسها حتمية. في المقابل ، تعتبر مخرجات السياسة العشوائية مناسبة للبيئات التي تكون فيها نتيجة الإجراءات غير مؤكدة. عادة ، تتضمن سيناريوهات التعلم المعزز درجة معينة من عدم اليقين لذلك يتم استخدام السياسات العشوائية.

تتميز مناهج التدرج في السياسة ببعض المزايا التي تتفوق على مناهج Q-Learning ، بالإضافة إلى بعض العيوب. من حيث المزايا ، تتلاقى الأساليب المستندة إلى السياسة على المعلمات المثلى بشكل أسرع وأكثر موثوقية. يمكن فقط اتباع تدرج السياسة حتى يتم تحديد أفضل المعلمات ، بينما مع الأساليب القائمة على القيمة ، يمكن أن تؤدي التغييرات الصغيرة في قيم الإجراءات المقدرة إلى تغييرات كبيرة في الإجراءات والمعلمات المرتبطة بها.

تعمل تدرجات السياسة بشكل أفضل مع مساحات العمل عالية الأبعاد أيضًا. عندما يكون هناك عدد كبير للغاية من الإجراءات التي يمكن اتخاذها ، يصبح التعلم العميق غير عملي لأنه يجب تخصيص درجة لكل إجراء ممكن لجميع الخطوات الزمنية ، والتي قد تكون مستحيلة من الناحية الحسابية. ومع ذلك ، مع الأساليب القائمة على السياسة ، يتم تعديل المعلمات بمرور الوقت ويتقلص عدد أفضل المعلمات الممكنة بسرعة مع تقارب النموذج.

إن التدرجات السياسية قادرة أيضًا على تنفيذ سياسات عشوائية ، على عكس السياسات القائمة على القيمة. نظرًا لأن السياسات العشوائية تنتج توزيعًا احتماليًا ، فلا يلزم تنفيذ مقايضة الاستكشاف / الاستغلال.

فيما يتعلق بالعيوب ، فإن العيب الرئيسي لتدرجات السياسة هو أنها يمكن أن تتعثر أثناء البحث عن المعلمات المثلى ، مع التركيز فقط على مجموعة محلية ضيقة من القيم المثلى بدلاً من القيم العالمية المثلى.

وظيفة نتيجة السياسة

السياسات المستخدمة لتحسين هدف أداء النموذج لتعظيم وظيفة النتيجة - ي (θ). إذا كان J (θ) مقياسًا لمدى جودة سياستنا في تحقيق الهدف المنشود ، يمكننا العثور على قيم "θ"هذا يعطينا أفضل سياسة. أولاً ، نحتاج إلى حساب مكافأة السياسة المتوقعة. نحن نقدر مكافأة السياسة حتى يكون لدينا هدف ، شيء يجب تحسينه. وظيفة نقاط السياسة هي الطريقة التي نحسب بها مكافأة السياسة المتوقعة ، وهناك وظائف مختلفة لنقاط السياسة شائعة الاستخدام ، مثل: قيم البداية للبيئات العرضية ، ومتوسط ​​قيمة البيئات المستمرة ، ومتوسط ​​المكافأة لكل خطوة زمنية.

صعود تدرج السياسة

يهدف صعود التدرج إلى تحريك المعلمات حتى تكون في المكان الذي تكون فيه الدرجة الأعلى. الصورة: المجال العام (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

بعد استخدام وظيفة نتيجة السياسة المطلوبة ، وحساب مكافأة السياسة المتوقعة ، يمكننا العثور على قيمة للمعامل "θ"مما يزيد من وظيفة النتيجة. من أجل تعظيم وظيفة النتيجة J (θ) ، وهي تقنية تسمى "صعود التدرج" يتم استخدامه. يشبه الصعود المتدرج من حيث المفهوم النزول المتدرج في التعلم العميق، لكننا نعمل على تحسين الزيادة الأكثر حدة بدلاً من النقصان. وذلك لأن درجتنا ليست "خطأ"، كما هو الحال في العديد من مشاكل التعلم العميق. درجاتنا هي شيء نريد تعظيمه. ويستخدم تعبير يسمى "نظرية تدرج السياسة" لتقدير التدرج فيما يتعلق بالسياسة "θ".

ملخص التعلم المعزز العميق

باختصار ، يجمع التعلم المعزز العميق بين جوانب التعلم المعزز والشبكات العصبية العميقة. يتم التعلم المعزز العميق بتقنيتين مختلفتين: التعلم العميق Q وتدرجات السياسة.

تهدف أساليب التعلم العميق في Q إلى التنبؤ بالمكافآت التي ستتبع إجراءات معينة يتم اتخاذها في حالة معينة ، بينما تهدف مناهج التدرج في السياسة إلى تحسين مساحة العمل ، والتنبؤ بالإجراءات نفسها. النهج القائمة على السياسات للتعلم المعزز العميق هي إما حتمية أو عشوائية في طبيعتها. السياسات الحتمية ترسم الدول مباشرة إلى الإجراءات بينما تنتج السياسات العشوائية توزيعات احتمالية للإجراءات.

Blogger والمبرمج مع تخصصات في تعلم آلة و تعلم عميق المواضيع. يأمل دانيال في مساعدة الآخرين على استخدام قوة الذكاء الاصطناعي من أجل الصالح الاجتماعي.