الذكاء الاصطناعي

باحثو الذكاء الاصطناعي يخترعون نموذجًا للعب ألعاب الفيديو يمكنه تذكر الأحداث السابقة

Published February 27, 2021

Updated April 28, 2026

Daniel Nelson

قام فريق من الباحثين في معمل الذكاء الاصطناعي في شركة Uber مؤخرًا بإنشاء نظام من خوارزميات الذكاء الاصطناعي التي تفوقت على لاعبي البشر وغيرها من أنظمة الذكاء الاصطناعي في ألعاب الفيديو الكلاسيكية لأتاري. النموذج الذي طوّره الباحثون قادر على تذكر الاستراتيجيات الناجحة في الماضي، وإنشاء استراتيجيات جديدة بناءً على ما نجح في الماضي. يعتقد فريق البحث أن الخوارزميات التي طوّروها لها تطبيقات محتملة في مجالات تقنية أخرى مثل معالجة اللغة والروبوتات.

الطريقة التقليدية المستخدمة لإنشاء أنظمة ذكاء اصطناعي قادرة على لعب ألعاب الفيديو هي استخدام خوارزمية التعلم التعزيزي. خوارزميات التعلم التعزيزي تتعلم كيفية أداء مهمة من خلال استكشاف مجموعة من الإجراءات الممكنة، وبعد كل إجراء، يتم تزويدها بنوع من التعزيز (مكافأة أو عقوبة). مع مرور الوقت، يتعلم نموذج الذكاء الاصطناعي الإجراءات التي تؤدي إلى مكافآت أكبر، ويتعلم أداء هذه الإجراءات. للأسف، تعاني نماذج التعلم التعزيزي من مشاكل عند مواجهة نقاط بيانات غير متوافقة مع غيرها من مجموعة البيانات.

وفقًا لفريق البحث، السبب في أن نهجهم لم يُعتبر من قبل باحثي الذكاء الاصطناعي الآخرين هو أن الاستراتيجية تختلف عن نهج “الدافع الذاتي” الذي يُستخدم عادةً في التعلم التعزيزي. مشكلة نهج الدافع الذاتي هو أن النموذج قد يكون عرضة للنسيان عن المناطق المحتملة للمكافأة التي لا تزال تستحق الاستكشاف. يُطلق على هذا الظاهرة اسم “الانفصال”. ونتيجة لذلك، عندما يواجه النموذج بيانات غير متوقعة، قد ينسى المناطق التي يجب استكشافها.

وفقًا لـ TechXplore، قام فريق البحث بإنشاء نموذج تعلم أكثر مرونة وقادر على الاستجابة للبيانات غير المتوقعة. تخطى الباحثون هذه المشكلة من خلال إدخال خوارزمية قادرة على تذكر جميع الإجراءات التي قام بها إصدار سابق من النموذج عند محاولة حل مشكلة. عندما يواجه نموذج الذكاء الاصطناعي نقطة بيانات لا تتوافق مع ما تعلمه حتى الآن، يتحقق النموذج من خريطة الذاكرة. ثم يحدد النموذج الإجراءات الناجحة والفاشلة ويتخذ الإجراءات بشكل مناسب.

عند لعب لعبة فيديو، يجمع النموذج لقطات شاشة من اللعبة أثناء اللعب، ويسجل إجراءاته. تُجمَع الصور معًا بناءً على التشابه، وتشكل نقاطًا واضحة في الوقت الذي يمكن للنموذج الرجوع إليها. يمكن للخوارزمية استخدام الصور المسجلة للرجوع إلى نقطة مثيرة للاهتمام في الوقت ويواصل الاستكشاف من هناك. عندما يجد النموذج أنه يخسر، يرجع إلى لقطات الشاشة التي تم أخذها ويحاول استراتيجية مختلفة.

كما شرح بي بي سي، هناك أيضًا مشكلة التعامل مع السيناريوهات الخطرة للوكيل الذكاء الاصطناعي الذي يلعب اللعبة. إذا واجه الوكيل خطرًا يمكن أن يقتله، فإن ذلك سوف يمنعه من العودة إلى المناطق التي تستحق المزيد من الاستكشاف، وهو مشكلة يُطلق عليها اسم “الانحراف”. يعالج نموذج الذكاء الاصطناعي مشاكل الانحراف من خلال عملية منفصلة عن تلك المستخدمة لتشجيع استكشاف المناطق القديمة.

لعب نموذج البحث 55 لعبة أتاري. تُستخدم هذه الألعاب بشكل شائع لتحديد أداء نماذج الذكاء الاصطناعي، ولكن أضاف الباحثون طريقة جديدة لنموذجهم. أضاف الباحثون قواعد إضافية إلى الألعاب، وأمر النموذج بعدم الحصول فقط على أعلى درجة ممكنة ولكن محاولة الحصول على درجة أعلى كل مرة. عندما تم تحليل نتائج أداء النموذج، وجد الباحثون أن نظام الذكاء الاصطناعي الخاص بهم تفوق على أنظمة الذكاء الاصطناعي الأخرى في الألعاب حوالي 85% من الوقت. أدى النموذج أداءً جيدًا بشكل خاص في لعبة مونتيزوما ريفينج، وهي لعبة منصات حيث يتجنب اللاعب المخاطر وجمع الكنوز. حقق النموذج الرقم القياسي للاعب بشري ونجح في الحصول على درجة أعلى من أي نظام ذكاء اصطناعي آخر.

وفقًا لباحثي الذكاء الاصطناعي في شركة Uber، فإن الاستراتيجيات المستخدمة من قبل فريق البحث لها تطبيقات في مجالات مثل الروبوتات. تستفيد الروبوتات من القدرة على تذكر الإجراءات الناجحة، والإجراءات التي لم تعمل، والإجراءات التي لم تُجرَب بعد.