الذكاء الاصطناعي

UrbanScene3D: مناظر مدينة مُسمّاة семантиًا لابحاث المركبات ذاتية القيادة

نُشر في 12 يوليو 2021

تم التحديث في 24 مايو 2026

بواسطة

Martin Anderson

قد طور مركز أبحاث الحوسبة البصرية في جامعة شنتشن في الصين مجموعة بيانات كبيرة الحجم لمشاهد مدينة توفر محاكيات متعددة ومُسمّاة семантиًا بشكل كامل لمجموعة من المدن الكبيرة حول العالم، كمورد لابحاث التعلم الآلي التي تُحاكي بيئات القيادة والطائرات بدون طيار وغيرها.

المسمى بـ UrbanScene3D، يحتوي المحاكي على مجموعة متنوعة من مشاهد مدينة كثيفة ومفصلة وقابلة للملاحة، مع نصوص واقعية. وقد تم إنشاء العديد من السيناريوهات بواسطة مصممين محترفين يعملون من بيانات جوية متاحة للجمهور، وتتميز بمستوى من التحسين البشري الذي يصعب أو يُكلف إنشاؤه حاليًا في أنظمة التركيب البرمجي الكامل والتقاط RGB-D القائمة على التصوير الجوي، مثل مجالات الإشعاع العصبية (NeRF).

يُعالج المشروع أحد أهم اختلالات التوازن في أبحاث الرؤية الحاسوبية – وهو نقص في مجموعات بيانات بيئات المدينة الغنية والمُسمّاة семантиًا ذات بنية نموذجية عالية الجودة، مقارنة بمستوى الوجود العالي لمعلومات التركيب والنمذجة المتعلقة بمشاهد داخلية.

يمكن لمحاكيات UrbanScene3D تقديم حقيقة أرضية لإنشاء مجموعات بيانات مشروع محدد متعلقة بالمركبات ذاتية القيادة والطائرات بدون طيار، من بين إمكانيات أخرى.

UrbanScene3D تعمل مع AirSim، وتُنتج خرائط عمق. مصدر: https://arxiv.org/pdf/2107.04286.pdf

تم إطلاق ملفات مصدر المشروع، التي تبلغ حوالي 70 جيجابايت، مجانًا لأغراض البحث والتعليم. يمكن تنفيذ التطبيق في بيئة C++ أو بايثون، ويتطلب محرك Unreal Engine 4 (موصى به 4.24). لدعم المشاريع الجوية، مثل تدريب الطائرات بدون طيار ومحاكاتها، يدعم المشروع أيضًا AirSim من مايكروسوفت.

يتميز UrbanScene3D بستة بيئات CAD محترفة تم إنشاؤها بواسطة فنانين محترفين من الصور أو من خرائط الأقمار الصناعية، إلى جانب خمس بيئات حقيقية تم إعادة بناؤها. تحتوي مشاهد CAD على إعادة بناء لمدينة نيويورك وشيكاغو وسان فرانسيسكو وشنطو وسوجو وشانغهاي. تركز البيانات المشتقة من الصور على خمس مشاهد محددة من هذه المدن، بما في ذلك مستشفى ومدارس جامعية.

المدن المتمثلة في UrbanScene3D.

كما يتم إتاحة بيانات الاستحواذ الأصلية لUrbanScene3D، والتي تتميز بصور جوية عالية الدقة بحجم 6000×4000 بكسل، وأفلام جوية 4K، إلى جانب المواضع والنمذجة ثلاثية الأبعاد المُعادة بناؤها.

COCO

صدر في عام 2014، مجموعة بيانات COCO من مايكروسوفت، والتي تضم 1.5 مليون مثيل كائن عبر 80 فئة، إلى جانب التعرف على الكائنات في السياق، وخمسة عناوين لكل صورة. لا تحتوي COCO على شبكة GT مع معلومات الموقع أو العمق.

مجموعة أيقونات مستكشف COCO. مصدر: https://arxiv.org/pdf/1405.0312.pdf

KITTI Vision Benchmark Suite

تم إنتاج KITTI بواسطة معهد كارلسروه للتكنولوجيا ومعهد تويوتا التكنولوجي في شيكاغو، ويوفر معلومات العمق، ولكن لا يوفر أقنعة المثيلات.

CityScape

صدر في عام 2016، مجموعة بيانات Cityscapes للفهم الدلالي لمشاهد المدينة الحضرية (المعروفة باسم CityScape)، ويتميز بالتقسيم الدلالي الكثيف والتقسيم الدلالي للمثيلات للأشخاص والمركبات. وبالتالي، فإن الهدف الرئيسي هو مساعدة تطوير أنظمة القيادة ذاتية القيادة والقطاعات المجاورة لمراقبة المدينة.

يتميز بثماني فئات، بما في ذلك مسطح، إنسان، مركبة، بناء، كائن، طبيعة، سماء و فراغ، ويوفر تعليقات دقيقة عبر 5000 صورة.

مصدر: https://www.cityscapes-dataset.com/examples/#fine-annotations

ApolloCar3D

أطلق في عام 2018، وهو تعاون بين عدة وحدات بحثية أكاديمية في الغرب وآسيا، بما في ذلك جامعة كاليفورنيا في سان دييغو والجامعة الوطنية الأسترالية وجامعة نورثويسترن للتقنية في شيان، الصين.

يتمحور ApolloCar3D حول أبحاث المركبات ذاتية القيادة على مستوى الأرض، ويتميز ب 5277 صورة قيادة، وأكثر من 60000 مثيل مركبة مدعومة بنماذج CAD ثلاثية الأبعاد مفصلة ومُrendered بحجم مطلق، ومُسمّاة لنقاط رئيسية دلاليًا. يُعد هذا المجموعة أكبر بأكثر من 20 مرة من KITTI، ولكن على عكس UrbanScene3D، يحتوي فقط على معلومات العمق الجزئية.

66 نقطة رئيسية مُحددة لكل مركبة مُحسّنة بواسطة CAD في مجموعة بيانات ApolloCar3D. مصدر: https://arxiv.org/pdf/1811.12222.pdf

HoliCity

يُوصف HoliCity بأنه “منصة بيانات على مستوى المدينة للتعلم الهيكلي ثلاثي الأبعاد الشامل”، وهو تعاون في عام 2021 بين جامعة كاليفورنيا في بيركلي وجامعة ستانفورد وجامعة جنوب كاليفورنيا وبيتدانس ريسيرش في بالو ألتو. يحتوي على مجموعة بيانات ثلاثية الأبعاد على مستوى المدينة بمستوى عالٍ من التفاصيل الهيكلية، ويوفر 6300 مشهد بانورامي حقيقي يغطي مساحة تزيد عن 20 كيلومترًا مربعًا.

يهدف المشروع إلى التطبيقات الواقعية مثل التموضع والواقع المعزز والخريطة وإعادة بناء المدينة. على الرغم من أنه يحتوي على نمذجة CAD، فإن مستوى التفاصيل أقل من UrbanScene3D.

مصدر: https://github.com/zhou13/holicity

يهدف المشروع إلى معالجة قيود مجموعات بيانات مشاهد المدينة الحالية، وهو الأول الذي يوفر تفاصيل نمذجة CAD عالية الجودة مع تعليمات دلاليّة ومعلومات خرائط العمق. تشمل الجهود السابقة:

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai