Connect with us

الروبوتات القادرة على التعلم المهام المعقدة من خلال عدة تجارب

الروبوتات

الروبوتات القادرة على التعلم المهام المعقدة من خلال عدة تجارب

mm

في أحد أحدث التطورات في مجال الروبوتات، قام باحثون في جامعة جنوب كاليفورنيا (USC) بتطوير نظام يمكن الروبوتات من خلاله التعلم من مهام معقدة من خلال عدة تجارب. وعلاوة على ذلك، يمكن أن تكون بعض التجارب غير كاملة.

تم تقديم البحث في مؤتمر التعلم الروبوتي (CoRL) في 18 نوفمبر، تحت عنوان “التعلم من التجارب باستخدام منطق الإشارات الزمنية”.

النظام

يتم قياس جودة كل تجربة بحيث يمكن للنظام التعلم من نجاحاته وفشله. على عكس الطرق الحالية، التي تتطلب ما لا يقل عن 100 تجربة لتعليم مهمة محددة، يتطلب النظام الجديد فقط بضع تجارب. بطريقة直觉ية، الطريقة التي تتعلم بها هذه الروبوتات تشبه الطريقة التي يتعلم بها البشر من بعضهم البعض. على سبيل المثال، يشاهد البشر ويتعلمون من الآخرين الذين يكملون المهام بنجاح أو بشكل غير كامل.

Aniruddh Puranic هو المؤلف الرئيسي للبحث وطالب دكتوراه في علوم الحاسوب في كلية الهندسة USC Viterbi.

“تتطلب العديد من أنظمة التعلم الآلي والتعزيزي كميات كبيرة من البيانات ومئات التجارب – تحتاج إلى إنسان ليُظهر مرة بعد مرة، وهو أمر غير ممكن”، قال Puranic.

“أيضا، لا يمتلك معظم الناس معرفة بالبرمجة لتحديد ما يحتاجه الروبوت القيام به، ولا يمكن للإنسان أن يُظهر كل ما يحتاجه الروبوت أن يعرفه”، продолжил. “ماذا لو واجه الروبوت شيئًا لم يره من قبل؟ هذا هو التحدي الرئيسي”.

استخدم الباحثون “منطق الإشارات الزمنية” أو STL لتحديد جودة التجارب، وترتيبها وفقًا لذلك وخلق مكافآت متأصلة.

هناك سببان رئيسيان لقرار الباحثين استخدام STL:

  1. من خلال التعلم من التجارب، يمكن للروبوتات التقاط العيوب أو السلوكيات غير الآمنة والإجراءات غير المرغوب فيها.
  2. يمكن أن تختلف جودة التجارب حسب المستخدم الذي يقدمها، ويمكن أن تكون بعض التجارب أفضل من غيرها في إظهار السلوك المرغوب.

من خلال تطوير النظام بهذه الطريقة، يمكن للروبوت التعلم من التجارب غير الكاملة، حتى لو لم تتماشى مع متطلبات المنطق. وبعبارة أخرى، يصل إلى استنتاجه الخاص حول الدقة أو النجاح.

Stefanos Nikolaidis هو مؤلف مشارك وأستاذ مساعد في علوم الحاسوب في USC Viterbi.

“لنفترض أن الروبوتات تتعلم من أنواع مختلفة من التجارب – يمكن أن تكون تجربة يدوية أو مقاطع فيديو أو محاكاة – إذا قمت بفعل شيء غير آمن للغاية، فإن النهج القياسي سيقوم بفعل واحد من δύο أشياء: إما أن يهملها تمامًا، أو أسوأ من ذلك، الروبوت سيتعلم الشيء الخطأ”، يقول Nikolaidis.

“في المقابل، يستخدم هذا العمل بذكاء منطقًا شائعًا في شكل منطق لفهم أجزاء التجربة الجيدة وأجزاء غير الجيدة”، يُضيف. “في جوهره، هذا هو ما يفعله البشر أيضًا”.

منطق الإشارات الزمنية

يمكن للروبوتات التفكير في النتائج الحالية والمستقبلية من خلال STL، وهو لغة رمزية رياضية تعبيرية. في السابق، اعتمد البحث على “منطق الإشارات الزمنية الخطية”.

Jyo Deshmukh هو مهندس سابق في شركة Toyota وأستاذ مساعد في علوم الحاسوب في USC.

“عندما ندخل عالم الأنظمة الإلكترونية الفيزيائية، مثل الروبوتات والسيارات ذاتية القيادة، حيث يكون الوقت حاسمًا، يصبح المنطق الزمني الخطي قليلًا من العناء، لأنها تفكر في تسلسلات من قيم صحيحة / خاطئة للمتغيرات، بينما يسمح STL التفكير في الإشارات الفيزيائية”، يقول Deshmukh.

كان فريق الباحثين مستغربًا لمستوى نجاح النظام.

“بالمقارنة مع خوارزمية متقدمة تستخدم على نطاق واسع في تطبيقات الروبوتات، يمكنك رؤية فرقًا من حيث العدد الذي يُستخدم في التجارب”، يقول Nikolaidis.

وفقًا للباحثين، يمكن أن تتعلم الأنظمة من محاكي القيادة وفي النهاية من مقاطع الفيديو. الخطوة التالية هي اختبارها على روبوتات حقيقية، حيث تم إجراء الاختبار الأولي على محاكي اللعبة. سيكون النظام مفيدًا للتطبيقات مثل تلك الموجودة في البيئات المنزلية والمستودعات ومركبات استكشاف الفضاء.

“إذا كنا نريد أن تكون الروبوتات شركاء جيدين ومساعدين للناس، فإنهم يحتاجون أولاً إلى التعلم والتكيف مع تفضيلات البشر بفعالية”، يقول Nikolaidis. “طريقةنا توفر ذلك”.

Alex McFarland هو صحفي وكاتب في مجال الذكاء الاصطناعي يستكشف أحدث التطورات في الذكاء الاصطناعي. وقد تعاون مع العديد من الشركات الناشئة في مجال الذكاء الاصطناعي والمنشورات في جميع أنحاء العالم.