رطم ما هو التعلم المعزز؟ - اتحدوا
اتصل بنا للحصول على مزيد من المعلومات
دروس متقدمة في الذكاء الاصطناعي:

منظمة العفو الدولية 101

ما هو التعلم المعزز؟

mm
تحديث on

ما هو التعلم المعزز؟

ببساطة، التعلم المعزز هو أسلوب للتعلم الآلي يتضمن تدريب عميل الذكاء الاصطناعي من خلال تكرار الإجراءات والمكافآت المرتبطة بها. يقوم وكيل التعلم المعزز بإجراء تجارب في بيئة ما، واتخاذ الإجراءات والحصول على المكافأة عند اتخاذ الإجراءات الصحيحة. مع مرور الوقت، الوكيل يتعلم اتخاذ الإجراءات التي من شأنها زيادة مكافأته. هذا تعريف سريع للتعلم المعزز ، ولكن إلقاء نظرة فاحصة على المفاهيم الكامنة وراء التعلم المعزز سيساعدك على اكتساب فهم أفضل وأكثر حدسية له.

مصطلح "التعلم المعزز" مقتبس من مفهوم التعزيز في علم النفس. لهذا السبب ، دعونا نتوقف لحظة لفهم المفهوم النفسي للتعزيز. بالمعنى النفسي ، يشير مصطلح التعزيز إلى شيء يزيد من احتمالية حدوث استجابة / إجراء معين. مفهوم التعزيز هذا هو فكرة مركزية لنظرية التكييف الفعال ، التي اقترحها في البداية عالم النفس BF Skinner. في هذا السياق ، التعزيز هو أي شيء يتسبب في زيادة تكرار سلوك معين. إذا فكرنا في التعزيزات المحتملة للبشر ، فيمكن أن تكون هذه أشياء مثل الثناء ، وزيادة في العمل ، والحلوى ، والأنشطة الترفيهية.

بالمعنى النفسي التقليدي ، هناك نوعان من التعزيز. هناك تعزيز إيجابي و تعزيز سلبي. التعزيز الإيجابي هو إضافة شيء ما لزيادة السلوك ، مثل إعطاء كلبك مكافأة عندما يكون حسن التصرف. يتضمن التعزيز السلبي إزالة الحافز لاستنباط سلوك ، مثل إيقاف الضوضاء العالية لإقناع قطة متقلبة.

التعزيز الإيجابي والسلبي

يزيد التعزيز الإيجابي من تكرار السلوك بينما يقلل التعزيز السلبي من التردد. بشكل عام ، التعزيز الإيجابي هو النوع الأكثر شيوعًا من التعزيزات المستخدمة في التعلم المعزز ، لأنه يساعد النماذج على زيادة الأداء في مهمة معينة. ليس هذا فقط ولكن التعزيز الإيجابي يقود النموذج إلى إجراء تغييرات أكثر استدامة ، تغييرات يمكن أن تصبح أنماطًا متسقة وتستمر لفترات طويلة من الزمن.

في المقابل ، في حين أن التعزيز السلبي يجعل السلوك أكثر احتمالا لحدوث السلوك ، فإنه يتم استخدامه للحفاظ على الحد الأدنى من معايير الأداء بدلاً من الوصول إلى أقصى أداء للنموذج. يمكن أن يساعد التعزيز السلبي في التعلم المعزز في ضمان إبقاء النموذج بعيدًا عن الإجراءات غير المرغوب فيها ، لكنه لا يمكنه فعلاً جعل النموذج يستكشف الإجراءات المطلوبة.

تدريب وكيل التعزيز

عندما يتم تدريب عامل التعلم المعزز ، هناك أربعة مكونات مختلفة or الولايات المستخدمة في التدريب: الحالات الأولية (الولاية 0) ، الحالة الجديدة (الحالة 1) ، الإجراءات ، والمكافآت.

تخيل أننا نقوم بتدريب عامل تعزيز على لعب لعبة فيديو بنظام أساسي حيث يكون هدف الذكاء الاصطناعي هو الوصول إلى نهاية المستوى عن طريق التحرك مباشرة عبر الشاشة. يتم رسم الحالة الأولية للعبة من البيئة ، مما يعني أن الإطار الأول للعبة يتم تحليله وإعطائه للنموذج. بناءً على هذه المعلومات ، يجب أن يتخذ النموذج قرارًا بشأن الإجراء.

خلال المراحل الأولية من التدريب ، تكون هذه الإجراءات عشوائية ولكن مع تعزيز النموذج ، ستصبح بعض الإجراءات أكثر شيوعًا. بعد اتخاذ الإجراء ، يتم تحديث بيئة اللعبة وإنشاء حالة أو إطار جديد. إذا أدى الإجراء الذي اتخذه الوكيل إلى نتيجة مرغوبة ، دعنا نقول في هذه الحالة أن العميل لا يزال على قيد الحياة ولم يتم ضربه من قبل العدو ، يتم منح بعض المكافآت للوكيل ويصبح من المرجح أن يفعل الشيء نفسه في المستقبل.

يتم تكرار هذا النظام الأساسي باستمرار ، ويحدث مرارًا وتكرارًا ، وفي كل مرة يحاول الوكيل أن يتعلم أكثر قليلاً ويعظم مكافأته.

العرضية مقابل المهام المستمرة

يمكن عادةً وضع مهام التعلم المعزز في واحدة من فئتين مختلفتين: المهام العرضية والمهام المستمرة.

ستقوم المهام العرضية بتنفيذ حلقة التعلم / التدريب وتحسين أدائها حتى يتم استيفاء بعض المعايير النهائية وإنهاء التدريب. في لعبة ما ، قد يكون هذا هو الوصول إلى نهاية المستوى أو الوقوع في خطر مثل الارتفاعات. في المقابل ، ليس للمهام المستمرة معايير إنهاء ، وتستمر بشكل أساسي في التدريب إلى الأبد حتى يختار المهندس إنهاء التدريب.

مونت كارلو مقابل الفروق الزمنية

هناك طريقتان أساسيتان للتعلم ، أو التدريب ، عامل التعلم المعزز. في نهج مونت كارلو، يتم تسليم المكافآت للوكيل (يتم تحديث نتيجته) فقط في نهاية حلقة التدريب. بعبارة أخرى ، فقط عندما يتم ضرب شرط الإنهاء ، يتعلم النموذج مدى جودة أدائه. يمكنه بعد ذلك استخدام هذه المعلومات للتحديث وعندما تبدأ الجولة التدريبية التالية ، ستستجيب وفقًا للمعلومات الجديدة.

طريقة الاختلاف الزمني تختلف عن طريقة مونت كارلو من حيث أن تقدير القيمة ، أو تقدير النتيجة ، يتم تحديثه أثناء دورة التدريب. بمجرد أن يتقدم النموذج إلى الخطوة التالية ، يتم تحديث القيم.

الاستكشاف مقابل الاستغلال

تدريب عامل التعلم المعزز هو عمل موازنة ، يتضمن موازنة مقياسين مختلفين: الاستكشاف والاستغلال.

الاستكشاف هو عملية جمع المزيد من المعلومات حول البيئة المحيطة ، بينما يستخدم الاستكشاف المعلومات المعروفة بالفعل عن البيئة لكسب نقاط المكافأة. إذا كان الوكيل يستكشف البيئة فقط ولا يستغلها أبدًا ، فلن يتم تنفيذ الإجراءات المطلوبة أبدًا. من ناحية أخرى ، إذا استغل الوكيل فقط ولم يستكشف أبدًا ، فسيتعلم الوكيل فقط تنفيذ إجراء واحد ولن يكتشف استراتيجيات أخرى ممكنة لكسب المكافآت. لذلك ، فإن الموازنة بين الاستكشاف والاستغلال أمر بالغ الأهمية عند إنشاء عامل التعلم المعزز.

حالات الاستخدام للتعلم المعزز

يمكن استخدام التعلم المعزز في مجموعة متنوعة من الأدوار ، وهو الأنسب للتطبيقات التي تتطلب المهام فيها التشغيل الآلي.

تعد أتمتة المهام التي يتعين تنفيذها بواسطة الروبوتات الصناعية أحد المجالات التي يكون التعلم المعزز فيها مفيدًا. يمكن أيضًا استخدام التعلم المعزز لمشاكل مثل التنقيب عن النص ، وإنشاء نماذج قادرة على تلخيص النصوص الطويلة. يقوم الباحثون أيضًا بتجربة استخدام التعلم المعزز في مجال الرعاية الصحية ، حيث يتعامل وكلاء التعزيز مع وظائف مثل تحسين سياسات العلاج. يمكن أيضًا استخدام التعلم المعزز لتخصيص المواد التعليمية للطلاب.

ملخص التعلم المعزز

يعد التعلم المعزز طريقة قوية لبناء عوامل الذكاء الاصطناعي التي يمكن أن تؤدي إلى نتائج مبهرة ومفاجئة في بعض الأحيان. يمكن أن يكون تدريب عامل من خلال التعلم المعزز أمرًا معقدًا وصعبًا ، حيث يتطلب الأمر العديد من التكرارات التدريبية والتوازن الدقيق بين ثنائية الاستكشاف / الاستغلال. ومع ذلك ، إذا نجح العامل الذي تم إنشاؤه باستخدام التعلم المعزز ، فيمكنه تنفيذ المهام المعقدة في ظل مجموعة متنوعة من البيئات المختلفة.

Blogger والمبرمج مع تخصصات في تعلم آلة و تعلم عميق المواضيع. يأمل دانيال في مساعدة الآخرين على استخدام قوة الذكاء الاصطناعي من أجل الصالح الاجتماعي.