الذكاء الاصطناعي 101
ما هو التعلم التعزيزي؟

ما هو التعلم التعزيزي؟
ببساطة، التعلم التعزيزي هو تقنية تعلم الآلة تتضمن تدريب وكيل ذكاء اصطناعي من خلال تكرار الإجراءات والمكافآت المرتبطة بها. يجرّب وكيل التعلم التعزيزي في بيئة، ويقوم بإجراءات ويكافأ عند اتخاذ الإجراءات الصحيحة. مع مرور الوقت، يتعلم الوكيل اتخاذ الإجراءات التي ستعظيم مكافأته. هذا تعريف سريع للتعلم التعزيزي، ولكن النظر الأقرب إلى المفاهيم التي تقف وراء التعلم التعزيزي سيساعدك على الحصول على فهم أفضل وأكثر直ورة له.
الاسم “التعلم التعزيزي” مستوحى من مفهوم التعزيز في علم النفس. لهذا السبب، دعنا نأخذ لحظة لفهم مفهوم التعزيز النفسي. في المعنى النفسي، يشير مصطلح التعزيز إلى شيء يزيد من احتمال حدوث استجابة أو إجراء معين. هذا مفهوم التعزيز هو فكرة مركزية في نظرية التكييف العضوي، التي اقترحها في البداية عالم النفس ب.ف. سكينر. في هذا السياق، التعزيز هو أي شيء يزيد من تكرار سلوك معين. إذا فكرنا في مكافآت ممكنة للبشر، يمكن أن تكون هذه الأشياء مثل الثناء، أو زيادة في العمل، أو الحلوى، أو الأنشطة الممتعة.
في المعنى التقليدي، النفسي، هناك نوعان من التعزيز. هناك تعزيز إيجابي وتعزيز سلبي. التعزيز الإيجابي هو إضافة شيء لزيادة سلوك، مثل إعطاء كلبك علاجاً عندما يكون على سلوك جيد. التعزيز السلبي يتضمن إزالة محفز لتحفيز سلوك، مثل إيقاف الأصوات الصاخبة لجعل قط متردد يخرج.
التعزيز الإيجابي والسلبي
يزيد التعزيز الإيجابي من تكرار سلوك، بينما يقلل التعزيز السلبي من تكرار سلوك. بشكل عام، التعزيز الإيجابي هو النوع الأكثر شيوعاً من التعزيز المستخدم في التعلم التعزيزي، لأنه يساعد النماذج على تعظيم الأداء على مهمة معينة. ليس ذلك فحسب، ولكن التعزيز الإيجابي يؤدي إلى تغييرات أكثر استدامة، تغييرات يمكن أن تصبح أنماطاً متسقة وتبقى لفترات طويلة.
في المقابل، بينما يزيد التعزيز السلبي أيضاً من احتمال حدوث سلوك، إلا أنه يستخدم لضمان الحفاظ على معيار أداء أدنى، وليس لتحقيق أداء نموذجي أقصى. التعزيز السلبي في التعلم التعزيزي يمكن أن يساعد على منع نموذج من اتخاذ إجراءات غير مرغوب فيها، ولكنه لا يمكنه جعل نموذج يكتشف إجراءات مرغوب فيها.
تدريب وكيل التعلم التعزيزي
عندما يُدرّب وكيل التعلم التعزيزي، توجد أربعة مكونات أو حالات أو حالات تستخدم في التدريب: الحالات الأولية (الحالة 0)، الحالة الجديدة (الحالة 1)، الإجراءات، والمكافآت.
تخيل أننا ندرّب وكيل تعلم تعزيزي للعب لعبة منصات حيث هدف الذكاء الاصطناعي هو الوصول إلى نهاية المستوى بالتحرك إلى اليمين عبر الشاشة. الحالة الأولية للعبة يتم سحبها من البيئة، مما يعني أن الإطار الأول من اللعبة يتم تحليله وإعطاؤه إلى النموذج. بناءً على هذه المعلومات، يجب على النموذج أن يقرر إجراءً.
خلال المراحل الأولية من التدريب، تكون هذه الإجراءات عشوائية، ولكن عندما يتم تعزيز النموذج، تصبح إجراءات معينة أكثر شيوعاً. بعد اتخاذ الإجراء، يتم تحديث بيئة اللعبة وإنشاء حالة أو إطار جديد. إذا أدى الإجراء الذي قام به الوكيل إلى نتائج مرغوب فيها، دعنا نقول في هذه الحالة أن الوكيل لا يزال على قيد الحياة ولم يُصاب بأي عدو، يتم منح بعض المكافآت للوكيل ويتعلم أن يكرر نفس الإجراء في المستقبل.
المهام المتقطعة مقابل المهام المستمرة
يمكن أن توضع مهام التعلم التعزيزي عادة في واحدة من فئتين مختلفتين: المهام المتقطعة والمهام المستمرة.
المهام المتقطعة ستقوم بتشغيل حلقة التعلم/التدريب وتحسين أدائها حتى تتم شروط نهاية معينة ويتوقف التدريب. في لعبة، قد يكون هذا الوصول إلى نهاية المستوى أو السقوط في خطر مثل الأسلاك الشائكة. في المقابل، المهام المستمرة لا تملك شروط انتهاء، وتستمر في التدريب إلى الأبد حتى يختار المهندس إيقاف التدريب.
مونتي كارلو مقابل الفرق الزمني
هناك طريقتان رئيسيتان لتعلم، أو تدريب، وكيل التعلم التعزيزي. في منهج مونتي كارلو، يتم تسليم المكافآت إلى الوكيل (يتم تحديث نتيجته) فقط في نهاية حلقة التدريب. بعبارة أخرى، فقط عندما يتم ضرب شرط الانتهاء، يتعلم النموذج كيف أدى بشكل جيد. يمكنه тогда استخدام هذه المعلومات لتحديث النموذج، وعندما يتم启动 الجولة التالية من التدريب، سيتعامل وفقاً للمعلومات الجديدة.
طريقة الفرق الزمني تختلف عن منهج مونتي كارلو في أن تقدير القيمة، أو تقدير النتيجة، يتم تحديثه خلال حلقة التدريب. بمجرد تقدم النموذج إلى الخطوة الزمنية التالية، يتم تحديث القيم.
الاستكشاف مقابل الاستغلال
تدريب وكيل التعلم التعزيزي هو عمل توازن، يتضمن توازن بين مترين مختلفين: الاستكشاف والاستغلال.
الاستكشاف هو فعل جمع المزيد من المعلومات عن البيئة المحيطة، بينما الاستغلال هو استخدام المعلومات المعروفة بالفعل عن البيئة لتحقيق مكافآت. إذا كان الوكيل يستكشف فقط ولا يستغل البيئة أبداً، فإن الإجراءات المرغوب فيها لن تتم أبداً. من ناحية أخرى، إذا كان الوكيل يستغل فقط ولا يستكشف أبداً، فإن الوكيل سيتعلم فقط كيفية تنفيذ إجراء واحد ولا يكتشف استراتيجيات أخرى لتحقيق مكافآت. لذلك، توازن الاستكشاف والاستغلال هو أمر حاسم عند إنشاء وكيل تعلم تعزيزي.
حالات استخدام التعلم التعزيزي
يمكن استخدام التعلم التعزيزي في مجموعة واسعة من الأدوار، وهو مناسب بشكل أفضل للتطبيقات التي تتطلب تلقين المهام.
تلقين المهام التي يجب أداؤها بواسطة الروبوتات الصناعية هو أحد المجالات التي يثبت فيها التعلم التعزيزي فائدة. يمكن استخدام التعلم التعزيزي لمشاكل مثل تعدين النصوص، وإنشاء نماذج قادرة على تلخيص نصوص طويلة. كما يجرّب الباحثون استخدام التعلم التعزيزي في مجال الرعاية الصحية، حيث يتعامل وكلاء التعلم التعزيزي مع مهام مثل تحسين سياسات العلاج. يمكن استخدام التعلم التعزيزي لتحسين المواد التعليمية للطلاب.
ملخص التعلم التعزيزي
التعلم التعزيزي هو طريقة قوية لبناء وكلاء ذكاء اصطناعي يمكن أن يؤدي إلى نتائج مثيرة للإعجاب وأحياناً مفاجئة. تدريب وكيل من خلال التعلم التعزيزي يمكن أن يكون معقداً وصعباً، حيث يتطلب العديد من دورات التدريب وتوازن دقيق بين ثنائية الاستكشاف/الاستغلال. ومع ذلك، إذا نجح، يمكن لوكيل تم إنشاؤه بالتعلم التعزيزي أن يؤدي مهام معقدة في مجموعة واسعة من البيئات المختلفة.












