الذكاء الاصطناعي
تحويل LiDAR إلى صور حقيقية من خلال شبكة خصومة توليدية

في وقت سابق من هذا الأسبوع ، كانت اللقطات صدر عرض نظام الطيار الآلي من تسلا وهو يصطدم مباشرة بجانب مركبة متوقفة على طريق سريع في يونيو من عام 2021. وقد أدت حقيقة أن السيارة كانت مظلمة ويصعب تمييزها مناقشة حول قيود الاعتماد على رؤية الكمبيوتر في سيناريوهات القيادة الذاتية.

تصور اللقطات التي تم إصدارها في ديسمبر 2021 لحظة التأثير. المصدر: https://twitter.com/greentheonly/status/1473307236952940548
ورغم أن ضغط الفيديو في اللقطات المنتشرة على نطاق واسع يعطي انطباعا مبالغا فيه قليلا عن سرعة "التسلل" من جانب الشاحنة المعطلة إلى السائق في هذه الحالة، فإن مقطع فيديو عالي الجودة لنفس الحدث يوضح أن السائق الذي كان في حالة تأهب تام كان سيواجه صعوبة في الاستجابة لأي شيء باستثناء الانحراف المتأخر أو الكبح شبه الفعال.
وتضيف اللقطات إلى الجدل الدائر حول شركة تسلا. قرار إزالة أجهزة استشعار الرادار للطيار الآلي ، المعلن عنها في مايو 2021 ، وموقفها تفضيل الأنظمة القائمة على الرؤية على تقنيات تحديد موقع الصدى الأخرى ، مثل LiDAR.
بالمصادفة ، تقدم ورقة بحثية جديدة من إسرائيل هذا الأسبوع مقاربة لتمتد بين مجالات LiDAR ورؤية الكمبيوتر ، من خلال تحويل غيوم نقطة LiDAR إلى صور حقيقية باستخدام شبكة الخصومة التوليدية (GAN).

في المشروع الجديد من إسرائيل، يتم تحويل السيارات السوداء التي تم التعرف عليها في لقطات LiDAR إلى سيناريو "ضوء النهار" للتحليلات القائمة على الرؤية الحاسوبية، على غرار المسار الذي تتبعه شركة Tesla لتطوير نظام Autopilot الخاص بها. المصدر: https://arxiv.org/pdf/2112.11245.pdf
يذكر المؤلفون:
لقد تعلمت نماذجنا كيفية التنبؤ بالصور ذات المظهر الواقعي من بيانات السحابة النقطية فقط ، وحتى الصور ذات السيارات السوداء.
يصعب رصد السيارات السوداء مباشرةً من السحب النقطية نظرًا لانخفاض مستوى انعكاسيتها. قد يُستخدم هذا النهج مستقبلًا للتعرف البصري على الأجسام من خلال صور واقعية مُولّدة من السحب النقطية بتقنية الليدار.
صور حقيقية ، تدفقات صور قائمة على LiDAR
أكثر من ورقة جديدة بعنوان توليد صور واقعية من غيوم LiDAR Point مع شبكات الخصومة التوليدية، ويأتي من سبعة باحثين في ثلاث كليات أكاديمية إسرائيلية ، إلى جانب ستة باحثين من شركة Innoviz Technologies ومقرها إسرائيل.
شرع الباحثون في اكتشاف ما إذا كان يمكن إنتاج الصور الاصطناعية المستندة إلى GAN بمعدل مناسب من السحب النقطية التي تم إنشاؤها بواسطة أنظمة LiDAR ، بحيث يمكن استخدام التدفق اللاحق للصور في التعرف على الكائنات وسير عمل التجزئة الدلالية.
البيانات
الفكرة المركزية ، كما في الكثير رواية [x]> [x] مشاريع تحويل صوتي للصور، هو تدريب خوارزمية على البيانات المقترنة ، حيث يتم تدريب صور سحابة نقطة LiDAR (التي تعتمد على الضوء المنبعث من الجهاز) على إطار مطابق من الكاميرا الأمامية.
وبما أن اللقطات تم التقاطها في النهار، حيث يمكن لنظام الرؤية الحاسوبية أن يميز بسهولة أكبر مركبة سوداء بالكامل يصعب اكتشافها (مثل تلك التي اصطدمت بها سيارة تسلا في يونيو)، فإن هذا التدريب يجب أن يوفر حقيقة أساسية مركزية أكثر مقاومة للظروف المظلمة.
تم جمع البيانات باستخدام مستشعر InnovizOne LiDAR ، والذي يوفر معدل التقاط 10 إطارات في الثانية أو 15 إطارًا في الثانية ، اعتمادًا على الطراز.

تم التقاط بيانات LiDAR بواسطة جهاز Innoviz. المصدر: https://www.youtube.com/watch؟
احتوت مجموعة البيانات الناتجة على حوالي 30,000 صورة و 200,000 نقطة مجمعة ثلاثية الأبعاد. أجرى الباحثون اختبارين: أحدهما حملت فيه بيانات السحابة النقطية معلومات انعكاسية فقط ؛ والثانية ، حيث تحتوي بيانات السحابة النقطية على قناتين ، واحدة لكل منهما للانعكاسية والمسافة.
بالنسبة للتجربة الأولى ، تم تدريب GAN على 50 حقبة ، وبعدها كان التجاوز يمثل مشكلة.

الصور التي أنشأتها GAN من التجربة الأولى. على اليسار ، بيانات سحابة النقطة ؛ في الوسط ، إطارات فعلية من اللقطات التي تم التقاطها ، تُستخدم كحقيقة أساسية ؛ صحيح ، التمثيلات التركيبية التي أنشأتها شبكة الخصومة التوليدية.
تعليق المؤلفين:
مجموعة الاختبار عبارة عن تسجيل جديد تمامًا لم تره شبكات GAN قبل الاختبار. تم توقع ذلك باستخدام معلومات الانعكاس فقط من سحابة النقطة.
اخترنا عرض إطارات تحتوي على سيارات سوداء لأن رصدها باستخدام تقنية الليدار عادةً ما يكون صعبًا. ونلاحظ أن المولد تعلّم توليد سيارات سوداء، ربما من خلال معلومات سياقية، نظرًا لأن ألوان وأشكال الأجسام في الصور المتوقعة ليست متطابقة مع الصور الحقيقية.
في التجربة الثانية، درّب المؤلفون الشبكة التوليدية التنافسية على 40 حقبة بحجم دفعة واحدة، مما أدى إلى عرض مماثل لسيارات سوداء "مُمَثِّلة" مُستمدة بشكل كبير من السياق. استُخدم هذا التكوين أيضًا لتوليد الفيديو يُظهر اللقطات التي تم إنشاؤها بواسطة GAN (في الصورة العلوية ، في عينة الصورة أدناه) جنبًا إلى جنب مع لقطات الحقيقة الأرضية.
التقييم
لم تكن العملية المعتادة للتقييم والمقارنة مع أحدث ما هو موجود بالفعل ممكنة مع هذا المشروع ، بسبب طبيعته الفريدة. بدلاً من ذلك ، ابتكر الباحثون مقياسًا مخصصًا فيما يتعلق بمدى تمثيل السيارات (الأجزاء الثانوية والعابرة من لقطات المصدر) في لقطات الإخراج.
اختاروا 100 زوج من صور LiDAR/المولدة من كل مجموعة وقسموا بشكل فعال عدد صور السيارات الموجودة في لقطات المصدر إلى العدد الموجود في البيانات الاصطناعية المنتجة، مما أدى إلى إنتاج مقياس متري من 0 إلى 1.
يذكر المؤلفون:
تراوحت النتيجة في كلتا التجربتين بين 0.7 و0.8. وبالنظر إلى أن الجودة العامة للصور المتوقعة أقل من الصور الحقيقية (فمن الصعب عمومًا رصد الأجسام في الصور ذات الجودة المنخفضة)، فإن هذه النتيجة تشير إلى أن الغالبية العظمى من السيارات الموجودة في الواقع الفعلي موجودة في الصور المتوقعة.
وخلص الباحثون إلى أن اكتشاف المركبات السوداء ، والذي يمثل مشكلة لكل من الأنظمة القائمة على الرؤية الحاسوبية ونظام LiDAR ، يمكن أن يتأثر بتحديد نقص من البيانات لأقسام الصورة:
حقيقة أنه في الصور المتنبأ بها ، لا تتطابق معلومات الألوان والأشكال الدقيقة مع الحقيقة الأرضية ، تشير إلى أن التنبؤ بالسيارات السوداء مشتق في الغالب من المعلومات السياقية وليس من انعكاس LiDAR للنقاط نفسها.
"نقترح أنه بالإضافة إلى نظام LiDAR التقليدي، سيتم تشغيل نظام ثانٍ يقوم بإنشاء صور واقعية من سحابات نقاط LiDAR في نفس الوقت للتعرف البصري على الأشياء في الوقت الفعلي."
يعتزم الباحثون تطوير العمل في المستقبل بمجموعات بيانات أكبر.
الكمون ومكدس معالجة SDV المزدحم
قدّر أحد المعلقين على منشور تويتر الذي انتشر بكثرة حول حادث القيادة الآلية أنه عند السير بسرعة حوالي 75 ميلاً في الساعة (110 أقدام في الثانية)، فإن بث الفيديو الذي يعمل بمعدل 20 إطارًا في الثانية سيغطي 5.5 أقدام فقط لكل إطار. ومع ذلك، لو كانت السيارة تعمل بأحدث أجهزة وبرامج تسلا، لكان معدل الإطارات 36 إطارًا في الثانية (للكاميرا الرئيسية)، مما يجعل معدل التقييم عند 110 قدمًا في الثانية (ثلاثة أقدام لكل إطار).
إلى جانب التكلفة وبيئة العمل، تكمن مشكلة استخدام الليدار كتدفق بيانات إضافي في الحجم الهائل لـ"الازدحام" المعلوماتي لمدخلات المستشعرات في إطار معالجة SDV. وبالاقتران مع الطبيعة الحرجة للمهمة، يبدو أن هذا قد أدى إلى استبعاد الرادار والليدار من نظام القيادة الآلية، لصالح أساليب التقييم القائمة على الصور.
لذلك يبدو من غير المحتمل أن يكون النظام الذي يستخدم تقنية LiDAR - والذي من شأنه في حد ذاته أن يضيف إلى عنق الزجاجة في المعالجة على نظام Autopilot - لاستنتاج الصور الواقعية ممكنًا من وجهة نظر شركة Tesla.
مؤسس Tesla Elon Musk ليس منتقدًا شاملاً لـ LiDAR ، وهو انه يشيرإلى تستخدم سبيس إكس هذه التقنية في عمليات الالتحام، لكنها تعتبرها "غير مجدية" للمركبات ذاتية القيادة. ويقترح ماسك أن طول موجة قادر على اختراق الانسداد، مثل رادار الدقة البالغ حوالي 4 مم، سيكون أكثر فائدة.
ومع ذلك ، اعتبارًا من يونيو 2021 ، أصبحت سيارات تسلا غير مجهز بالرادار أيضًا. لا يبدو أن هناك حاليًا العديد من المشاريع المصممة لتوليد تدفقات الصور من الرادار بنفس طريقة محاولات المشروع الإسرائيلي الحالي (على الرغم من وزارة الطاقة الأمريكية) برعاية محاولة واحدة لصور GAN من مصادر الرادار في عام 2018).
نُشر لأول مرة في 23 ديسمبر 2021.












