رطم رسم خرائط للمكفوفين باستخدام التعلم الآلي - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الرعاية الصحية

رسم خرائط للمكفوفين باستخدام التعلم الآلي

mm

تم النشر

 on

يقدم بحث جديد من ألمانيا نظامًا محمولًا جديدًا مدعومًا بوحدة معالجة الرسومات لمساعدة الأشخاص ضعاف البصر على التنقل في العالم الحقيقي. يعالج النظام أحد التحديات الأساسية في أطر رؤية الكمبيوتر في الوقت الحقيقي - تحديد الزجاج والعوائق الشفافة الأخرى.

ورقة، من معهد كارلسروه للتكنولوجيا ، يوضح تفاصيل إنشاء نظام يرتديه المستخدم ، بعنوان Trans4Trans ، يتكون من زوج من النظارات الذكية المتصلة بغلاف GPU المحمول ، وهو جهاز كمبيوتر محمول خفيف الوزن بشكل فعال ، يلتقط صور RGB والعمق في 640 × 480 بكسل في دفق مستمر ، والذي يتم تشغيله بعد ذلك من خلال إطار عمل تجزئة دلالي.

أجهزة الاستشعار المحمولة في منصة Trans4Trans. المصدر: https://arxiv.org/pdf/2107.03172.pdf

أجهزة الاستشعار المحمولة في منصة Trans4Trans. المصدر: https://arxiv.org/pdf/2107.03172.pdf

يتم تعزيز قدرات التغذية المرتدة الحسية للنظام من خلال زوج من سماعات الأذن الموصلة للعظام ، والتي تصدر ردود فعل صوتية استجابة للعقبات البيئية.

تم أيضًا اختبار نظام Trans4Trans على منصة الواقع المعزز Microsoft HoloLens 2 ، مما يحقق تقسيمًا كاملاً ومتسقًا (أي التعرف) على العوائق التي يحتمل أن تكون خطرة مثل الأبواب الزجاجية.

Trans4Trans يعمل على HoloLens 2.

Trans4Trans يعمل على HoloLens 2.

معمار

يستخدم Trans4Trans نهجًا مزدوجًا ، حيث يستخدم كلا من قائم على المحولات التشفير وجهاز فك التشفير ، والاستفادة من الملكية وحدة إقران المحولات (TPM) قادر على تجميع خرائط الميزات التي تم إنشاؤها بواسطة عمليات دمج الأقسام الكثيفة ، في حين أن وحدة فك التشفير القائمة على المحولات قادرة على تحليل خرائط الميزات باستمرار من جهاز التشفير المقترن الخاص بها.

هندسة Trans4Trans.

هندسة Trans4Trans.

تتكون كل وحدة TPM من طبقة واحدة قائمة على المحولات ، وهي ضرورية لاستنزاف الموارد المنخفضة وإمكانية النقل في النظام. يحتوي مفكك التشفير على أربع مراحل متناظرة لجهاز التشفير ، مع تخصيص وحدة TPM لكل منها. يقوم النظام بتوفير الموارد من خلال دمج وظائف الطرق المتعددة في نظام متماسك ، بدلاً من نشر نموذجين منفصلين في تدفق عمل خطي.

أجهزة التبخير

تشتمل النظارات المستخدمة في النظام على مستشعر RealSense R200 RGB-D ، بينما تحتوي الماكينة المضيفة على مستشعر جيتسون AGX كزافييه NVIDIA GPU ، مصمم للأنظمة المضمنة ، ويضم 384 نواة من NVIDIA CUDA و 48 نواة Tensor.

عروض R200 إسقاط البقع ومطابقة استريو سلبية ، مما يجعلها مناسبة للبيئات الداخلية والخارجية. تعتبر وسيلة التنقيط ذات فائدة خاصة في تقييم الأسطح الشفافة ، لأنها تزيد وتوضح البيانات المرئية الواردة دون أن تتعمى مصادر الضوء الشديد. تساعد قدرات الأشعة تحت الحمراء الخاصة بالمستشعر أيضًا في الحصول على هندسة متميزة وتشكيل خرائط عمق قابلة للتنفيذ ، والتي تعتبر ضرورية لتجنب العقبات ، في سياق أهداف المشروع.

منع الحمل المعرفي الزائد للمستخدم

يحتاج النظام إلى تحقيق توازن بين تردد البيانات الكافي والمعلومات الزائدة ، حيث يحتاج مرتديها إلى أن يكون قادرًا على التمييز بين البيئة بشكل متماسك من خلال التغذية المرتدة الصوتية وردود الفعل الاهتزازية.

وبالتالي ، يحد Trans4Trans بشكل مصطنع من حجم بيانات التغذية الراجعة ، مع تعيين عتبة افتراضية واحدة إلى متر واحد ، بدلاً من إجبار المستخدم على تعلم مجموعة متنوعة من إعدادات الاهتزاز التي تتوافق مع مسافات متفاوتة من الأشياء والحواجز التي تلوح في الأفق.

اختبار Trans4Trans

تم اختبار نظام Trans4Trans على مجموعتي بيانات تتعاملان مع تجزئة الكائنات الشفافة: Trans10K-V2من جامعة هونج كونج وآخرون، والتي تحتوي على 10,428 صورة لأجسام شفافة للتحقق من الصحة والتدريب والاختبار ؛ ومجموعة بيانات Stanford2D3D ، التي تحتوي على 70,496 صورة لكائنات شفافة مختلطة ، تم التقاطها بدقة 1080 × 1080.

الصور والأقنعة المقابلة من مجموعة بيانات Trans10k. المصدر: https://arxiv.org/pdf/2101.08461.pdf

الصور والأقنعة المقابلة من مجموعة بيانات Trans10k. المصدر: https://arxiv.org/pdf/2101.08461.pdf

نظام Stanford2D3D قيد العمل. المصدر: http://buildingparser.stanford.edu/dataset.html

نظام Stanford2D3D قيد العمل. المصدر: http://buildingparser.stanford.edu/dataset.html

أثناء الاختبار ، تمكنت Trans4Trans أيضًا من تقسيم الكائنات الشفافة التي تم تصنيفها بشكل خاطئ بواسطة Trans2Seg . تم إصداره في بداية عام 2021 بواسطة نفس الباحثين ، بينما يتطلب عددًا أقل من GFLOPS لحساب الأسطح وتقسيمها.

على عكس Trans2Seq ، الذي يستخدم مشفرًا قائمًا على CNN ووحدة فك ترميز قائمة على المحولات ، لا يستخدم Trans4Trans سوى بنية وحدة فك التشفير المعتمدة على المحولات ، متفوقًا على النهج السابق وأيضًا تحسين بشكل كبير على PVT.

حققت الخوارزمية أيضًا نتائج متطورة لعدد معين من الفئات الشفافة ، بما في ذلك جرة, نافذة, باب, كوب, صندوق و زجاجة.