الذكاء الاصطناعي 101
ما هو التعلم التعزيزي العميق؟

ما هو التعلم التعزيزي العميق؟
إلى جانب التعلم غير الموجه والتعلم الموجه، هناك شكل شائع آخر من أشكال إنشاء الذكاء الاصطناعي وهو التعلم التعزيزي. بخلاف التعلم التعزيزي العادي، التعلم التعزيزي العميق يمكن أن يؤدي إلى نتائج مذهلة، نظرًا لحقيقة أنه يجمع بين أفضل جوانب التعلم العميق والتعلم التعزيزي. دعونا نلقي نظرة على كيفية عمل التعلم التعزيزي العميق بدقة.
قبل أن نغوص في التعلم التعزيزي العميق، قد يكون من الجيد أن نعيد تعريف كيفية عمل التعلم التعزيزي العادي. في التعلم التعزيزي، يتم تصميم الخوارزميات الهادفة من خلال عملية من التجربة والخطأ، مع توجيهها لتحقيق الإجراء الذي يؤدي إلى أفضل نتيجة / الإجراء الذي يحقق أكبر “مكافأة”. عندما يتم تدريب خوارزميات التعلم التعزيزي، يتم إعطاؤها “مكافآت” أو “عقوبات” التي تؤثر على الإجراءات التي سيتخذونها في المستقبل. تحاول الخوارزميات العثور على مجموعة من الإجراءات التي ستمنح النظام أكبر مكافأة، مع توازن بين المكافآت الفورية والمستقبلية.
تعتبر خوارزميات التعلم التعزيزي قوية جدًا لأنها يمكن تطبيقها على hầuلى أي مهمة، حيث يمكنها التعلم بمرنة وديناميكية من البيئة واكتشاف الإجراءات الممكنة.
نظرة عامة على التعلم التعزيزي العميق

صورة: Megajuice via Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)
عندما يتعلق الأمر بالتعلم التعزيزي العميق، يتم تمثيل البيئة عادةً bằng صور. الصورة هي لقطة للبيئة في نقطة زمنية معينة. يجب على الوكيل تحليل الصور واستخراج المعلومات ذات الصلة منها، باستخدام المعلومات لتحديد الإجراء الذي يجب اتخاذه. يتم تنفيذ التعلم التعزيزي العميق عادةً باستخدام واحدة من تقنيتين مختلفتين: التعلم القائم على القيمة والتعلم القائم على السياسة.
تقنيات التعلم القائم على القيمة تستخدم خوارزميات وهياكل مثل شبكات التعلم العميق وشبكات Q العميقة. تعمل هذه الخوارزميات عن طريق تحويل الصورة إلى صورة بالأسود والأبيض وقطع الأجزاء غير الضرورية من الصورة. بعد ذلك، تخضع الصورة لعمليات التجميع والتعريض، واستخراج الأجزاء الأكثر أهمية من الصورة. يتم استخدام الأجزاء المهمة من الصورة لحساب قيمة Q للإجراءات المختلفة التي يمكن للوكيل اتخاذها. يتم استخدام قيم Q لتحديد أفضل مسار للإجراء. بعد حساب قيم Q الأولية، يتم تنفيذ الت_PROPAGATION الخلفية من أجل تحديد قيم Q الأكثر دقة.
تستخدم أساليب السياسة عندما يكون عدد الإجراءات الممكنة التي يمكن للوكيل اتخاذها كبيرًا جدًا، وهو ما يحدث عادةً في السيناريوهات الواقعية. تتطلب هذه الحالات نهجًا مختلفًا لأن حساب قيم Q لجميع الإجراءات الفردية ليس عمليًا. تعمل أساليب السياسة دون حساب قيم الوظيفة للإجراءات الفردية. بدلاً من ذلك، يتم تبني السياسات من خلال تعلم السياسة بشكل مباشر، غالبًا من خلال تقنيات تسمى Policy Gradients.
تعمل Policy Gradients عن طريق استقبال حالة وحساب الاحتمالات للإجراءات بناءً على تجارب الوكيل السابقة. يتم تحديد الإجراء الأكثر احتمالاً. يتم تكرار هذا العملية حتى نهاية فترة التقييم وتوزيع المكافآت على الوكيل. بعد توزيع المكافآت على الوكيل، يتم تحديث معاملات الشبكة باستخدام الت_PROPAGATION الخلفية.
ما هو Q-Learning؟
نظرًا لأن Q-Learning هو جزء كبير من عملية التعلم التعزيزي العميق، دعونا نلقي نظرة على كيفية عمل نظام Q-Learning.
عملية اتخاذ القرار ماركوف

عملية اتخاذ القرار ماركوف. صورة: waldoalvarez via Pixabay, Pixbay License (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)
من أجل أن يقوم وكيل الذكاء الاصطناعي بمسلسل من المهام ويتحقق من هدف، يجب على الوكيل أن يكون قادرًا على التعامل مع تسلسل من الحالات والأحداث. سوف يبدأ الوكيل في حالة معينة ويجب أن يتخذ سلسلة من الإجراءات للوصول إلى حالة نهاية، ويمكن أن يكون هناك عدد هائل من الحالات بين الحالات الأولى والنهائية. يحفظ النظام المعلومات حول كل حالة غير عملي أو مستحيل، لذلك يجب على النظام أن يجد طريقة للاحتفاظ بمعلومات الحالة الأكثر أهمية فقط. يتم تحقيق ذلك من خلال استخدام عملية اتخاذ القرار ماركوف، التي تحفظ المعلومات حول الحالة الحالية والسابقة فقط. كل حالة تتبع خاصية ماركوف، التي تتبع كيفية تغيير الوكيل من الحالة السابقة إلى الحالة الحالية.
Q-Learning العميق
مرة واحدة يحصل النموذج على المعلومات حول حالات بيئة التعلم، يمكن حساب قيم Q. قيم Q هي المكافأة الإجمالية التي تُمنح للوكيل في نهاية سلسلة من الإجراءات.
تُحسب قيم Q باستخدام سلسلة من المكافآت. هناك مكافأة فورية، تُحسب في الحالة الحالية واعتمادًا على الإجراء الحالي. تُحسب أيضًا قيمة Q للحالة التالية، وقيمة Q للحالة التي تليها، وهكذا حتى تُحسب جميع قيم Q للحالات المختلفة. هناك أيضًا معامل غاما يُستخدم لتحكم في مقدار الوزن الذي تتمتع به المكافآت المستقبلية على إجراءات الوكيل. تُحسب السياسات عادةً عن طريق تهيئة عشوائية لقيم Q وترك النموذج يتقارب نحو قيم Q المثلى على مدار التدريب.
شبكات Q العميقة
أحد المشاكل الأساسية المتعلقة باستخدام Q-Learning للتعلم التعزيزي هو أن كمية الذاكرة المطلوبة لتخزين البيانات تزيد بسرعة مع زيادة عدد الحالات. تحل شبكات Q العميقة هذه المشكلة عن طريق دمج نماذج الشبكات العصبية مع قيم Q، مما يسمح للوكيل بالتعلم من الخبرة وصنع تخمينات معقولة حول أفضل الإجراءات اتخاذها. مع Q-Learning العميق، تُحسب وظائف قيمة Q باستخدام الشبكات العصبية. تأخذ الشبكة العصبية الحالة كمدخلات، وتُخرج قيمة Q لجميع الإجراءات الممكنة التي يمكن للوكيل اتخاذها.
يتم تنفيذ Q-Learning العميق عن طريق تخزين جميع الخبرات السابقة في الذاكرة، وحساب أقصى مخرجات لشبكة Q، ثم استخدام دالة خسارة لحساب الفرق بين القيم الحالية والقيم النظرية الأعلى.
التعلم التعزيزي العميق مقابل التعلم العميق
إحدى الفروق المهمة بين التعلم التعزيزي العميق والتعلم العميق العادي هي أن المدخلات في حالة التعلم التعزيزي العميق تتغير باستمرار، وهو ما لا يحدث في التعلم العميق التقليدي. كيف يمكن للنموذج التعلمي أن يأخذ في الاعتبار المدخلات والمخرجات التي تتغير باستمرار؟
ببساطة، لتحقيق ذلك، يمكن استخدام شبكتين عصبويتين بدلاً من واحدة. شبكة واحدة تُحسب القيم الهدف، بينما تكون الشبكة الأخرى مسؤولة عن التنبؤات. يتم تحديث معاملات الشبكة الهدف أثناء تعلم النموذج، بعد مرور عدد معين من دورات التدريب. ثم يتم ربط مخرجات الشبكتين معًا لتحديد الفرق.
التعلم القائم على السياسة
التعلم القائم على السياسة يعمل بشكل مختلف عن نهج قيمة Q. بينما يُنشئ نهج قيمة Q وظيفة قيمة تتنبأ بالمكافآت للحالات والإجراءات، تحدد أساليب السياسة سياسة ستُحول الحالات إلى إجراءات. بمعنى آخر، يتم تحسين وظيفة السياسة التي تختار الإجراءات بشكل مباشر، دون اعتبار لوظيفة القيمة.
Policy Gradients
تُصنف سياسة التعلم التعزيزي العميق إلى فئتين: سياسة عشوائية أو سياسة حتمية. السياسة الحتمية هي سياسة تُحول الحالات إلى إجراءات، مما يعني أن عندما تُمنح السياسة معلومات حول حالة، تُرجع إجراءً. في المقابل، تُرجع السياسات العشوائية توزيع احتمالي للإجراءات بدلاً من إجراء فردي.
تُستخدم السياسات الحتمية عندما لا يوجد شك في نتائج الإجراءات التي يمكن اتخاذها. بمعنى آخر، عندما تكون البيئة نفسها حتمية. في المقابل، تكون مخرجات السياسات العشوائية مناسبة للبيئات التي تكون فيها نتيجة الإجراءات غير مؤكدة. عادةً ما تتضمن سيناريوهات التعلم التعزيزي بعض الدرجة من عدم اليقين، لذلك تُستخدم السياسات العشوائية.
تتمتع أساليب Policy Gradients ببعض المزايا على أساليب Q-Learning، بالإضافة إلى بعض العيوب. فيما يتعلق بالمزايا، تتقارب أساليب السياسة بسرعة على المعاملات المثلى. يمكن اتباع تدرج السياسة حتى يتم تحديد أفضل المعاملات، بينما مع أساليب القيمة، يمكن أن تؤدي التغييرات الصغيرة في قيم الإجراءات المقدرة إلى تغييرات كبيرة في الإجراءات ومعاملاتها.
تعمل Policy Gradients بشكل أفضل للمجالات الإجرائية ذات الأبعاد العالية. عندما يكون هناك عدد هائل من الإجراءات الممكنة التي يمكن اتخاذها، يصبح التعلم العميق غير عملي لأن عليه تعيين درجة لكل إجراء ممكن لجميع الخطوات الزمنية، وهو ما قد يكون مستحيلًا من الناحية الحاسوبية. ومع ذلك، مع أساليب السياسة، تُعدل المعاملات بمرور الوقت، وتنخفض عدد المعاملات المثلى بسرعة أثناء تقارب النموذج.
Policy Gradients قادرة أيضًا على تنفيذ سياسات عشوائية، على عكس سياسات القيمة. لأن السياسات العشوائية تنتج توزيع احتمالي، لا يلزم تنفيذ تعادل بين الاستكشاف والاستغلال.
فيما يتعلق بالعيوب، العيب الرئيسي لPolicy Gradients هو أنهم يمكن أن يتعثروا أثناء البحث عن المعاملات المثلى، ويتابعون فقط مجموعة ضيقة ومحلية من القيم المثلى بدلاً من القيم المثلى العالمية.
دالة تقييم السياسة
تهدف السياسات المستخدمة لتحسين أداء النموذج لتحقيق أقصى استفادة من دالة التقييم – J(θ). إذا كانت J(θ) مقياسًا لجودة سياستنا لتحقيق الهدف المرغوب، يمكننا العثور على قيم “θ” التي تمنحنا أفضل سياسة. أولاً، يجب علينا حساب مكافأة السياسة المتوقعة. نحسب مكافأة السياسة حتى نتمكن من تحقيق هدف، شيئًا لتحسينه. دالة تقييم السياسة هي كيف نحسب مكافأة السياسة المتوقعة، وهناك دوال تقييم سياسة شائعة تستخدم، مثل: قيم البداية للبيئات الحلقية، القيمة المتوسطة للبيئات المستمرة، ومكافأة المتوسط لكل خطوة زمنية.
صعود تدرج السياسة

يهدف صعود التدرج إلى تحريك المعاملات حتى تكون في المكان الذي يكون فيه الدرج أعلى. صورة: المجال العام (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)
بعد استخدام دالة تقييم السياسة المطلوبة، و حساب مكافأة السياسة المتوقعة، يمكننا العثور على قيمة لمعامل “θ” التي تزيد من دالة التقييم. لتحقيق ذلك، يتم استخدام تقنية تسمى “صعود التدرج”. يُشبه صعود التدرج في概念ه هبوط التدرج في التعلم العميق، لكننا نُحسن لتحقيق أكبر زيادة. هذا لأن درجنا ليس “خطأ”، مثل العديد من مشاكل التعلم العميق. درجنا هو شيء نريد تحسينه. يتم استخدام تعبير يسمى مبرهنة تدرج السياسة لتقدير التدرج بالنسبة إلى سياسة “θ”.
ملخص التعلم التعزيزي العميق
في الخلاصة، يجمع التعلم التعزيزي العميق بين جوانب التعلم التعزيزي والشبكات العصبية العميقة. يتم تنفيذ التعلم التعزيزي العميق باستخدام تقنيتين مختلفتين: Q-Learning العميق وتدرج السياسة.
تهدف أساليب Q-Learning إلى توقع المكافآت التي سوف تتبع الإجراءات في حالة معينة، بينما تهدف أساليب تدرج السياسة إلى تحسين مجال الإجراء، وتوقع الإجراءات نفسها. تكون أساليب السياسة في التعلم التعزيزي العميق إما حتمية أو عشوائية. تُحول السياسات الحتمية الحالات مباشرة إلى إجراءات، بينما تُنتج السياسات العشوائية توزيعات احتمالية للإجراءات.












