الذكاء الاصطناعي

يوضح وكلاء الذكاء الاصطناعي خصائص الذكاء الناشئة في إخفاء والبحث الظاهري

تحديث on 9 كانون الأول، 2022

من الحقائق المثيرة للاهتمام حول البحث في الذكاء الاصطناعي أنه يمكن في كثير من الأحيان تنفيذ الإجراءات واتباع الاستراتيجيات التي تفاجئ الباحثين الذين يصممونها. حدث هذا خلال لعبة افتراضية أختبأت مؤخرًا حيث تم وضع العديد من وكلاء الذكاء الاصطناعي في مواجهة بعضهم البعض. تفاجأ الباحثون في شركة OpenAI ، وهي شركة تعمل بالذكاء الاصطناعي مقرها سان فرانسيسكو ، عندما اكتشفوا أن وكلاء الذكاء الاصطناعي لديهم بدأت في استغلال الاستراتيجيات في عالم اللعبة الذي لم يكن الباحثون يعلمون بوجوده.

دربت شركة OpenAI مجموعة من وكلاء الذكاء الاصطناعي للعب لعبة إخفاء والبحث مع بعضهم البعض. يتم تدريب برامج الذكاء الاصطناعي على التعلم المعزز ، وهي تقنية يتم فيها استنباط السلوك المطلوب من خوارزميات الذكاء الاصطناعي من خلال تزويد الخوارزميات بالتغذية الراجعة. يبدأ الذكاء الاصطناعي من خلال اتخاذ إجراءات عشوائية ، وفي كل مرة يتخذ فيها إجراءً يقربه من هدفه ، تتم مكافأة الوكيل. يرغب الذكاء الاصطناعي في الحصول على أكبر قدر ممكن من المكافأة ، لذلك سيختبر لمعرفة الإجراءات التي تكسبه المزيد من المكافأة. من خلال التجربة والخطأ ، يمكن للذكاء الاصطناعي التمييز بين الاستراتيجيات التي ستجلبهم إلى النصر ، وتلك التي ستمنحهم أكبر قدر من المكافأة.

تعزيز التعلملقد أثبت g بالفعل نجاحًا رائعًا في تعلم قواعد الألعاب. قامت شركة OpenAI مؤخرًا بتدريب فريق من الذكاء الاصطناعي على العب لعبة MMORPG DOTA 2، وهزمت منظمة العفو الدولية فريق بطل العالم من اللاعبين البشريين العام الماضي. حدث شيء مشابه مع لعبة StarCraft عندما تم تدريب ذكاء اصطناعي على اللعبة بواسطة DeepMind. تم استخدام التعلم المعزز أيضًا لتعليم برامج الذكاء الاصطناعي كيفية لعب Pictionary مع البشر ، وتعلم تفسير الصور واستخدام المنطق الأساسي المنطقي.

في لعبة الغميضة التي أنشأها الباحثون ، تم وضع العديد من وكلاء الذكاء الاصطناعي في مواجهة بعضهم البعض. كانت النتيجة سباق تسلح من نوع ما ، حيث يريد كل وكيل التفوق في الأداء على الآخر والحصول على أكبر عدد من نقاط المكافأة. ستؤدي الإستراتيجية الجديدة التي يتبناها وكيل واحد إلى قيام خصمه بالبحث عن استراتيجية جديدة لمواجهته ، والعكس صحيح. أوضح Igor Mordatch ، الباحث في OpenAI ، لـ IEEE Spectrum أن التجربة توضح أن عملية التجربة والخطأ بين الوكلاء "كافية لتعلم الوكلاء سلوكيات مفاجئة بأنفسهم - إنها مثل الأطفال الذين يلعبون مع بعضهم البعض."

ما هي السلوكيات المدهشة بالضبط؟ كان لدى الباحثين أربع استراتيجيات أساسية توقعوا أن يتعلمها وكلاء الذكاء الاصطناعي ، وتعلموا هذه الاستراتيجيات بسرعة إلى حد ما ، وأصبحوا مؤهلين فيها بعد 25 مليون لعبة محاكاة. جرت اللعبة في بيئة ثلاثية الأبعاد مليئة بالمنحدرات والكتل والجدران. تعلم عملاء منظمة العفو الدولية مطاردة بعضهم البعض ، وتحريك الكتل لبناء الحصون التي يمكنهم الاختباء فيها ، وتحريك المنحدرات حولها. تعلم الباحثون عن الذكاء الاصطناعي سحب المنحدرات للدخول إلى حصون الخيالة ، بينما تعلم الهاكرز محاولة أخذ المنحدرات إلى حصونهم حتى لا يتمكن الباحثون من استخدامها.

ومع ذلك ، حدث شيء غير متوقع حول معيار 380 مليون لعبة. تعلم وكلاء الذكاء الاصطناعي استخدام استراتيجيتين لم يتوقعهما الباحثون. علم العملاء الباحثون أنه من خلال القفز على صندوق وإمالة / ركوب الصندوق باتجاه حصن قريب ، يمكنهم القفز إلى الحصن والعثور على المخبأ. لم يدرك الباحثون حتى أن هذا كان ممكنًا في فيزياء بيئة اللعبة. تعلم المختبئون التعامل مع هذه المشكلة عن طريق سحب الصناديق في مكانها داخل حصنهم.

في حين أن السلوك غير المتوقع للوكلاء المدربين على خوارزميات التعلم المعزز غير ضار في هذه الحالة ، إلا أنه يثير بعض المخاوف المحتملة حول كيفية تطبيق التعلم المعزز في المواقف الأخرى. أوضح عضو فريق أبحاث OpenAI ، بوين بيكر ، لـ IEEE Spectrum أن هذه السلوكيات غير المتوقعة قد تكون خطيرة. بعد كل شيء ، ماذا لو بدأت الروبوتات تتصرف بطرق غير متوقعة؟

أوضح بيكر أن "بناء هذه البيئات صعب". "سيبتكر الوكلاء هذه السلوكيات غير المتوقعة ، والتي ستكون مشكلة تتعلق بالسلامة على الطريق عندما تضعهم في بيئات أكثر تعقيدًا."

ومع ذلك ، أوضح بيكر أيضًا أن استراتيجيات التعزيز يمكن أن تؤدي إلى حلول مبتكرة للمشاكل الحالية. يمكن للأنظمة المدربة على التعلم المعزز أن تحل مجموعة واسعة من المشاكل بحلول قد لا نستطيع حتى تخيلها.