اتصل بنا للحصول على مزيد من المعلومات

تعليم الروبوتات حول الأدوات ذات مجالات التألق العصبي (NeRF)

الروبوتات

تعليم الروبوتات حول الأدوات ذات مجالات التألق العصبي (NeRF)

mm

يقدم بحث جديد من جامعة ميشيغان طريقة للروبوتات لفهم آليات الأدوات ، وغيرها من الكائنات المفصلية في العالم الحقيقي ، من خلال إنشاء مجالات التألق العصبي (NeRF) هي كائنات توضح الطريقة التي تتحرك بها هذه الكائنات ، مما قد يسمح للروبوت بالتفاعل معها واستخدامها دون تهيئة مسبقة مخصصة مملة.

من خلال استخدام مراجع المصدر المعروفة للحركة الداخلية للأدوات (أو أي كائن بمرجع مناسب) ، يمكن لـ NARF22 تجميع تقريب واقعي للأداة ونطاق حركتها ونوع العملية. المصدر: https://progress.eecs.umich.edu/projects/narf/

من خلال استخدام مراجع المصدر المعروفة للحركة الداخلية للأدوات (أو أي كائن بمرجع مناسب) ، يمكن لـ NARF22 تجميع تقريب واقعي للأداة ونطاق حركتها ونوع العملية. المصدر: https://progress.eecs.umich.edu/projects/narf/

تحتاج الروبوتات التي يُطلب منها القيام بأكثر من مجرد تجنب المشاة أو أداء إجراءات مبرمجة مسبقًا (والتي من المحتمل أن تكون مجموعات البيانات غير القابلة لإعادة الاستخدام قد تم تصنيفها وتدريبها على حساب ما) تحتاج إلى هذا النوع من القدرة على التكيف إذا كانت ستعمل مع نفس المواد و الأشياء التي يجب على بقيتنا التعامل معها.

حتى الآن ، كان هناك عدد من العقبات التي تحول دون إضفاء هذا النوع من التنوع على الأنظمة الروبوتية. وتشمل هذه ندرة مجموعات البيانات القابلة للتطبيق ، والتي يتميز العديد منها بعدد محدود جدًا من الكائنات ؛ النفقات الهائلة التي ينطوي عليها إنشاء هذا النوع من النماذج ثلاثية الأبعاد الواقعية والقائمة على الشبكة والتي يمكن أن تساعد الروبوتات على تعلم الأدوات في سياق العالم الحقيقي ؛ والجودة غير الواقعية لمجموعات البيانات التي قد تكون مناسبة بالفعل للتحدي ، مما يتسبب في ظهور الكائنات مفككة عما يدركه الروبوت في العالم من حوله ، وتدريبه على البحث عن كائن يشبه الرسوم المتحركة لن يظهر أبدًا في الواقع.

لمعالجة هذا الأمر ، فإن الباحثين في ميتشيغان ، الذين ورقة بعنوان NARF22: حقول تألق مفصلية عصبية لعرض التكوين المدركلقد قاموا بتطوير خط أنابيب من مرحلتين لتوليد كائنات مفصلية تعتمد على NeRF والتي لها مظهر "العالم الحقيقي"، والتي تتضمن الحركة والقيود اللاحقة لأي كائن مفصلي معين.

على الرغم من أنه يبدو أكثر تعقيدًا ، إلا أن المرحلتين الأساسيتين لخط أنابيب NARF22 تتضمن عرض أجزاء ثابتة من الأدوات المتحركة ، ثم تجميع هذه العناصر في مجموعة بيانات ثانية يتم إبلاغها بمعلمات الحركة التي تمتلكها هذه الأجزاء ، بالنسبة لبعضها البعض. المصدر: https://arxiv.org/pdf/2210.01166.pdf

على الرغم من أنه يبدو أكثر تعقيدًا ، إلا أن المرحلتين الأساسيتين لخط أنابيب NARF22 تتضمن عرض أجزاء ثابتة من الأدوات المتحركة ، ثم تجميع هذه العناصر في مجموعة بيانات ثانية يتم إبلاغها بمعلمات الحركة التي تمتلكها هذه الأجزاء ، بالنسبة لبعضها البعض. المصدر: https://arxiv.org/pdf/2210.01166.pdf

النظام يسمى مجال تألق مفصلي عصبي - أو NARF22 ، لتمييزه عن مشروع آخر مشابه.

نارف22

يتطلب تحديد ما إذا كان جسم مجهول مفصلاً أم لا قدرًا هائلاً من المعرفة البشرية المسبقة. على سبيل المثال، إذا لم ترَ درجًا مغلقًا من قبل، فقد يبدو لك أي نوع آخر من الألواح الزخرفية - ولن تستوعب "الدرج" كجسم مفصلي ذي محور حركة واحد (إلى الأمام والخلف) إلا بعد فتحه.

لذلك ، NARF22 ليس المقصود منه أن يكون نظامًا استكشافيًا لاختيار الأشياء ومعرفة ما إذا كانت تحتوي على أجزاء متحركة قابلة للتنفيذ - سلوك شبه قرد يستلزم عددًا من السيناريوهات الكارثية المحتملة. بدلاً من ذلك ، يعتمد الإطار على المعرفة المتوفرة في تنسيق وصف الروبوت العالمي (URDF) - تنسيق XML مفتوح المصدر، واسع الاستخدام ومناسب للمهمة. يحتوي ملف URDF على معلمات حركة الكائن القابلة للاستخدام، بالإضافة إلى أوصاف وجوانب مُسمّاة أخرى لأجزاء الكائن.

في خطوط الأنابيب التقليدية، من الضروري وصف قدرات الوصلات المفصلية للكائن، وتحديد قيم الوصلات ذات الصلة. هذه ليست مهمة سهلة أو قابلة للتطوير. بدلاً من ذلك، يقوم سير عمل NaRF22 بعرض مكونات الكائن الفردية قبل "تجميع" كل مكون ثابت في تمثيل مفصل قائم على NeRF، مع معرفة معلمات الحركة التي يوفرها URDF.

في المرحلة الثانية من العملية ، يتم إنشاء عارض جديد تمامًا يشتمل على جميع الأجزاء. على الرغم من أنه قد يكون من الأسهل ببساطة تجميع الأجزاء الفردية في مرحلة مبكرة وتخطي هذه الخطوة اللاحقة ، إلا أن الباحثين لاحظوا أن النموذج النهائي - الذي تم تدريبه على وحدة معالجة الرسومات NVIDIA RTX 3080 تحت وحدة المعالجة المركزية AMD 5600X - لديه متطلبات حسابية أقل أثناء انتشار عكسي من مثل هذا التجمع المفاجئ والسابق لأوانه.

بالإضافة إلى ذلك، يعمل نموذج المرحلة الثانية بسرعة مضاعفة عن سرعة التجميع المتسلسل "القوي"، وأي تطبيقات ثانوية قد تحتاج إلى استخدام معلومات حول الأجزاء الثابتة من النموذج لن تحتاج إلى وصولها الخاص إلى معلومات URDF، لأن هذا تم دمجه بالفعل في برنامج العرض في المرحلة النهائية.

البيانات والتجارب

أجرى الباحثون عددًا من التجارب لاختبار NARF22: واحدة لتقييم العرض النوعي لتكوين كل كائن ووضعيته؛ واختبار كمي لمقارنة النتائج المقدمة بوجهات نظر مماثلة يراها الروبوتات في العالم الحقيقي؛ وعرض لتقدير التكوين وتحدي تحسين 6 درجات حرية (عمق المجال) الذي استخدم NARF22 لإجراء تحسين قائم على التدرج.

تم الحصول على بيانات التدريب من أدوات التقدم مجموعة بيانات من ورقة بحثية سابقة لعدد من مؤلفي العمل الحالي. تحتوي أدوات التقدم على حوالي ستة آلاف صورة RGB-D (أي، بما في ذلك معلومات العمق، وهي ضرورية لرؤية الروبوتات) بدقة 640×480. تضمنت المشاهد المستخدمة ثماني أدوات يدوية، مقسمة إلى أجزائها المكونة، مع نماذج شبكية ومعلومات عن خصائصها الحركية (أي طريقة حركتها، ومعايير هذه الحركة).

تتميز مجموعة بيانات أدوات التقدم بأربع أدوات مفصلية. الصور أعلاه هي عروض تستند إلى NeRF من NARF22.

تتميز مجموعة بيانات أدوات التقدم بأربع أدوات مفصلية. الصور أعلاه هي عروض تستند إلى NeRF من NARF22.

في هذه التجربة، تم تدريب نموذج نهائي قابل للتكوين باستخدام كماشة عمال الخطوط، وكماشة طويلة الأنف، ومشبك فقط (انظر الصورة أعلاه). تضمنت بيانات التدريب تكوينًا واحدًا للمشبك، وتكوينًا واحدًا لكل كماشة.

يعتمد تنفيذ NARF22 على FastNeRF، مع تعديل معلمات الإدخال للتركيز على الوضع المتسلسل والمشفّر مكانيًا للأدوات. يستخدم FastNeRF الإدراك متعدد الطبقات (MLP) المقترن بآلية أخذ العينات voxelized (voxels هي أساسًا بكسل ، ولكن بإحداثيات ثلاثية الأبعاد كاملة ، بحيث يمكن أن تعمل في مساحة ثلاثية الأبعاد).

بالنسبة للاختبار النوعي، لاحظ الباحثون أن هناك العديد من الأجزاء المسدودة في المشبك (أي العمود الفقري المركزي، والتي لا يمكن معرفتها أو تخمينها من خلال ملاحظة الجسم، ولكن فقط من خلال التفاعل معه، وأن النظام يواجه صعوبة في إنشاء هذه الهندسة "غير المعروفة".

التصورات النوعية للأدوات.

التصورات النوعية للأدوات.

على النقيض من ذلك ، كانت الكماشة قادرة على التعميم جيدًا على التكوينات الجديدة (أي امتدادات وحركات أجزائها التي تقع ضمن معلمات URDF ، ولكن لم يتم تناولها صراحة في مادة التدريب الخاصة بالنموذج.

ومع ذلك، لاحظ الباحثون أن أخطاء وضع العلامات على الكماشات أدت إلى انخفاض جودة العرض للنصائح التفصيلية للغاية للأدوات، مما أثر سلبًا على الأداء - وهي مشكلة تتعلق بمخاوف أوسع بكثير حول وضع العلامات اللوجستية والميزانية والدقة في الكمبيوتر قطاع أبحاث الرؤية، بدلاً من أي قصور إجرائي في خط أنابيب NARF22.

النتائج من اختبار دقة العرض.

النتائج من اختبار دقة العرض.

بالنسبة لاختبارات تقدير التكوين، قام الباحثون بتحسين الوضع وتقدير التكوين من وضع "جامد" أولي، متجنبين أيًا من التخزين المؤقت أو الحلول البديلة التسريعية الأخرى التي يستخدمها FastNeRF نفسه.

ثم قاموا بتدريب 17 مشهدًا مُرتبًا جيدًا من مجموعة أدوات التقدم التجريبية (التي تم الاحتفاظ بها جانبًا أثناء التدريب)، وذلك من خلال 150 تكرارًا لتحسين الانحدار التدريجي باستخدام مُحسِّن آدم. وقد أدى هذا الإجراء إلى استعادة تقدير التكوين "بشكل ممتاز"، وفقًا للباحثين.

النتائج من اختبار تقدير التكوين.

النتائج من اختبار تقدير التكوين.

 

نُشر لأول مرة في 5 أكتوبر 2022.

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai