الذكاء الاصطناعي

Uni3D: استكشاف التمثيل الموحد ثلاثي الأبعاد بمقياس كبير

نُشر في 27 أكتوبر 2023

تم التحديث في 22 مايو 2026

بواسطة

Kunal Kejriwal

كان توسيع تمثيلات النص والمرئيات محورًا رئيسيًا للبحث في السنوات الأخيرة. أدت التطورات والبحوث التي أجريت في الماضي القريب إلى العديد من الثورات في تعلم اللغة والرؤية. ومع ذلك، على الرغم من شعبية توسيع تمثيلات النص والمرئيات، لم يتم مناقشة توسيع تمثيلات المشاهد والموضوعات ثلاثية الأبعاد بشكل كافٍ.

اليوم، سنناقش Uni3D، وهو نموذج أساسي ثلاثي الأبعاد يهدف إلى استكشاف التمثيلات الموحدة ثلاثية الأبعاد. يستخدم إطار Uni3D هيكلًا مسبقًا من ViT لتحويله إلى معلم ثلاثي الأبعاد، ويتدربب من البداية إلى النهاية لتحويل الميزات المرئية والنصية مع الميزات السحابية ثلاثية الأبعاد.

يستخدم إطار Uni3D مهام مسبقة وبنية بسيطة للاستفادة من وفرة النماذج المسبقة ثنائية الأبعاد والنمذجة الموجهة للصور والنصوص كتوجيهات وهدف، على التوالي. هذا النهج يحرر الإمكانات الكاملة للنماذج ثنائية الأبعاد والاستراتيجيات لتوسيعها إلى عالم ثلاثي الأبعاد.

في هذه المقالة، سنغوص بشكل أعمق في رؤية الكمبيوتر ثلاثية الأبعاد وإطار Uni3D، مستكشفين المفاهيم الأساسية وهيكل النموذج. لذا، دعونا نبدأ.

Uni3D وتمثيل ثلاثي الأبعاد: مقدمة

في السنوات القليلة الماضية، ظهرت رؤية الكمبيوتر كواحدة من المجالات الأكثر استثمارًا في صناعة الذكاء الاصطناعي. بعد التقدم الكبير في إطارات رؤية الكمبيوتر ثنائية الأبعاد، تحول المطورون إلى رؤية الكمبيوتر ثلاثية الأبعاد. هذا المجال، وخاصة تعلم التمثيل ثلاثي الأبعاد، يدمج جوانب من الرسومات الحاسوبية والتعلم الآلي ورؤية الكمبيوتر والرياضيات لتحسين معالجة وفهم الهندسة ثلاثية الأبعاد. أدى التطور السريع للمستشعرات ثلاثية الأبعاد مثل LiDAR، إلى جانب تطبيقاتها الواسعة في صناعة الواقع الافتراضي، إلى زيادة الاهتمام بتعلم التمثيل ثلاثي الأبعاد. تزداد تطبيقاته المحتملة يومًا بعد يوم.

على الرغم من أن الإطارات الحالية أظهرت تقدمًا ملحوظًا في هيكل النموذج ثلاثي الأبعاد وتحديد الأهداف، فإن معظمها يبحث في هيكل ثلاثي الأبعاد على مقياس صغير مع بيانات ومتغيرات ومهام محدودة. لا يزال تحدي تعلم التمثيلات ثلاثية الأبعاد القابلة للتوسيع، والتي يمكن تطبيقها على تطبيقات زمنية حقيقية في بيئات متنوعة، غير مكتشف إلى حد كبير.

بالانتقال إلى الأمام، في السنوات القليلة الماضية، ساعد توسيع النماذج اللغوية الكبيرة المسبقة في ثورة مجال معالجة اللغة الطبيعية، وأشار العمل الحديث إلى ترجمة التقدم من اللغة إلى ثنائية الأبعاد باستخدام البيانات وتوسيع النموذج، مما يفتح الطريق للمطورين لمحاولة وتكرار هذا النجاح لتعلم تمثيل ثلاثي الأبعاد يمكن توسيعه وتطبيقه على تطبيقات العالم الحقيقي.

يُعد Uni3D إطارًا مسبقًا موحدًا ثلاثي الأبعاد تم تطويره بهدف تعلم تمثيلات ثلاثية الأبعاد كبيرة النطاق يختبر حدوده على مقياس يزيد عن مليار متغير، ويتضمن أكثر من 10 ملايين صورة مقترنة مع أكثر من 70 مليون نص، وأكثر من مليون شكل ثلاثي الأبعاد. كما يظهر الجدول أدناه مقارنة بين دقة التصنيف بدون تدريب مقابل المتغيرات في إطار Uni3D. ينجح إطار Uni3D في توسيع تمثيلات ثلاثية الأبعاد من 6 ملايين إلى أكثر من مليار.

يتكون إطار Uni3D من هيكل تحويل رؤية ثنائي الأبعاد أو تحويل رؤية كمحول ثلاثي الأبعاد، يتم تدريبه من البداية إلى النهاية لتحويل الميزات المرئية والنصية مع الميزات السحابية ثلاثية الأبعاد. يستخدم إطار Uni3D مهام مسبقة وبنية بسيطة للاستفادة من وفرة النماذج المسبقة ثنائية الأبعاد والنمذجة الموجهة للصور والنصوص كتوجيهات وهدف، على التوالي، مما يسمح لإطار Uni3D بتحرير الإمكانات الكاملة للنماذج ثنائية الأبعاد والاستراتيجيات لتوسيعها إلى عالم ثلاثي الأبعاد.

توسيع النموذج من 6 ملايين إلى أكثر من مليار متغير.
توجيه ثنائي الأبعاد من خلال توجيه مرئي ذاتي.
توسيع نموذج الهدف النصي-المرئي من 150 مليون إلى أكثر من مليار متغير.

تحت الإطار الموحد المرن المقدم من Uni3D، يلاحظ المطورون تعزيزًا متسقًا في الأداء عند توسيع كل مكون. يستفيد تعلم التمثيل ثلاثي الأبعاد على نطاق واسع أيضًا من استراتيجيات التوسيع المشتركة ثنائية الأبعاد.

كما يظهر في الشكل أدناه، يظهر إطار Uni3D تحسينًا في الأداء عند مقارنته بالفنون السابقة في إعدادات قليلة وبدون تدريب. يُلاحظ أن إطار Uni3D يعود بنتيجة تصنيف بدون تدريب تزيد عن 88٪ على ModelNet، مما ي相当 بأداء العديد من طرق الإشراف الحالية.

علاوة على ذلك، يُظهر إطار Uni3D أداءً وتقنيات رائعة عند أداء مهام تمثيل ثلاثية الأبعاد الأخرى مثل تقسيم الأجزاء والفهم العالمي المفتوح. يهدف إطار Uni3D إلى سد الفجوة بين رؤية ثنائية الأبعاد وثلاثية الأبعاد من خلال توسيع نماذج أساسية ثلاثية الأبعاد باستخدام نهج مسبق موحد وبسيط لتعلم تمثيلات ثلاثية الأبعاد أكثر متانة عبر مجموعة واسعة من المهام، مما قد يساهم في تقارب رؤية ثنائية الأبعاد وثلاثية الأبعاد عبر مجموعة واسعة من الوضعيات.

Uni3D: الأعمال المرتبطة

يستمد إطار Uni3D الإلهام والتعلم من التطورات التي تم إجراؤها في تعلم التمثيل ثلاثي الأبعاد والنمذجة الأساسية، خاصة في ظل وضعيات مختلفة.

تعلم التمثيل ثلاثي الأبعاد

تستخدم طريقة تعلم التمثيل ثلاثي الأبعاد نقاط سحابية لفهم الموضوع ثلاثي الأبعاد، وقد تم استكشاف هذا المجال من قبل المطورين بشكل كبير في الآونة الأخيرة، وتم ملاحظة أن هذه النقاط السحابية يمكن تدريبها ذاتيًا باستخدام مهام تمثيل ثلاثية الأبعاد محددة، بما في ذلك نمذجة نقطة العباءة، وإعادة البناء الذاتي، والتعلم التبايني.

يُلاحظ أن هذه الطرق تعمل مع بيانات محدودة، وغالبًا لا تتحقق من التمثيلات متعددة الوضعيات إلى ثلاثية الأبعاد من ثنائية الأبعاد أو معالجة اللغة الطبيعية. ومع ذلك، أظهرت النجاحات الحديثة لإطار CLIP كفاءة عالية في تعلم المفاهيم البصرية من النص الخام باستخدام طريقة التعلم التبايني، ويسعى إلى تعلم تمثيلات ثلاثية الأبعاد من خلال تحويل الميزات المرئية والنصية ونقاط السحاب باستخدام نفس طريقة التعلم التبايني.

النماذج الأساسية

قام المطورون بتصميم نماذج أساسية لتوسيع وتوحيد التمثيلات متعددة الوضعيات. على سبيل المثال، في مجال معالجة اللغة الطبيعية، قام المطورون بتصميم إطارات يمكن توسيعها لتعلم لغات مسبقة، وهو ما يثور في صناعة معالجة اللغة الطبيعية. بالإضافة إلى ذلك، تم تحقيق تقدم في مجال رؤية ثنائية الأبعاد لأن المطورين يعملون على إطارات تستخدم تقنيات توسيع البيانات والنموذج للمساهمة في تقدم اللغة إلى نماذج ثنائية الأبعاد، على الرغم من أن هذه الإطارات صعبة في التكرار لنماذج ثلاثية الأبعاد بسبب محدودية بيانات ثلاثية الأبعاد والتحديات التي تواجهها في توحيد وتوسيع الإطارات ثلاثية الأبعاد.

من خلال التعلم من هذه المجالات العمل، قام المطورون بإنشاء إطار Uni3D، وهو أول نموذج أساسي ثلاثي الأبعاد يحتوي على أكثر من مليار متغير، يستخدم هيكلًا موحدًا من ViT أو تحويل رؤية يسمح للمطورين بتوسيع نموذج Uni3D باستخدام استراتيجيات ثلاثية الأبعاد أو لغوية لتوسيع النماذج. يأمل المطورون أن يسمح هذا النهج لإطار Uni3D بسد الفجوة بين رؤية ثنائية الأبعاد وثلاثية الأبعاد، بالإضافة إلى تسهيل تقارب متعدد الوضعيات.

Uni3D: الطريقة والهيكل

يظهر الشكل أعلاه نظرة عامة عامة على إطار Uni3D، وهو إطار مسبق موحد ثلاثي الأبعاد لتوسيع تعلم التمثيل ثلاثي الأبعاد على نطاق واسع. يستخدم المطورون أكثر من 70 مليون نص و10 ملايين صورة مقترنة مع أكثر من مليون شكل ثلاثي الأبعاد لتوسيع إطار Uni3D إلى أكثر من مليار متغير. يستخدم إطار Uni3D هيكلًا من ViT أو تحويل رؤية كمحول ثلاثي الأبعاد، يتم تدريبه من البداية إلى النهاية لتحويل البيانات المرئية والنصية مع الميزات السحابية ثلاثية الأبعاد، مما يسمح لإطار Uni3D بالحصول على الكفاءة والدقة المرغوبة عبر مجموعة واسعة من المعايير. دعونا نلقي نظرة مفصلة على عمل إطار Uni3D.

توسيع إطار Uni3D

دراسات سابقة حول تعلم تمثيل النقاط السحابية ركزت تقليديًا على تصميم هيكل نموذج معين يؤدي أداءً أفضل عبر مجموعة واسعة من التطبيقات، ويعمل على كمية محدودة من البيانات بسبب مجموعات بيانات صغيرة الحجم. ومع ذلك، حاولت الدراسات الحديثة استكشاف إمكانية استخدام التمهين القابل للتوسيع في ثلاثية الأبعاد، ولكن لم تكن هناك نتائج كبيرة بسبب محدودية بيانات ثلاثية الأبعاد. لحل مشكلة التوسيع في الإطارات ثلاثية الأبعاد، يستخدم إطار Uni3D قوة هيكل تحويل فانيللا ي似 هيكل تحويل رؤية، ويمكن حل مشاكل التوسيع باستخدام استراتيجيات توسيع موحدة ثنائية الأبعاد أو لغوية لتوسيع حجم النموذج.

توجيه Uni3D

كانت واحدة من التحديات الرئيسية التي واجهت الأعمال السابقة المتعلقة بتوسيع التمثيلات ثلاثية الأبعاد صعوبات الانحدار والتعرف الزائد الناجمة عن حجم كبير للنماذج. يُعد نهجًا فعالًا للتغلب على هذا العائق هو التدريب المسبق للنماذج ثلاثية الأبعاد الفردية باستخدام مهام تمثيل ثلاثية الأبعاد محددة، وتوجيه المعلمات المسبقة. ومع ذلك، يرافق هذا النهج تكاليف تدريب عالية، ويصعب إنشاء توجيه قوي للتعلم متعددة الوضعيات بسبب محدودية بيانات ثلاثية الأبعاد المتاحة للتدريب.

يستخدم إطار Uni3D هيكلًا من تحويل فانيللا، ي似 هيكل ViT. من خلال هذا النهج، يمكن لإطار Uni3D تبني النماذج الكبيرة المسبقة مع وضعيات أخرى لتوجيه إطار Uni3D.

التناسب المتعدد الوضعيات

يحاول إطار Uni3D تعلم التناسب المتعدد الوضعيات عبر الصور واللغة والنقاط السحابية باستخدام أنماط مشابهة لأطر OpenShape وULIP. بالإضافة إلى ذلك، من أجل ضمان مقارنة عادلة مع الطرق الأخرى، يستخدم إطار Uni3D مجموعة بيانات ثلاثية الأبعاد المجمعة من OpenShape للتدريب. تتكون هذه المجموعة من بيانات ثلاثية الأبعاد المجمعة من OpenShape من 4 مجموعات بيانات ثلاثية الأبعاد:

Objaverse.
ShapeNet.
3D-FUTURE.
ABO.

التجارب والنتائج

يتم اختبار إطار Uni3D عبر إعدادات مختلفة، وعبر مهام تصنيف مختلفة، بما في ذلك أدائه في إعدادات بدون تدريب وقليلة التدريب، ونتائج حول الفهم العالمي المفتوح، وغيرها. دعونا نلقي نظرة مفصلة على هذه النتائج.

تصنيف الشكل بدون تدريب

为了 تقييم أداء إطار Uni3D عبر مهام تصنيف الشكل بدون تدريب، يقوم المطورون بإجراء تجارب عبر ثلاث مجموعات بيانات، بما في ذلك ModelNet وScanObjNN وObjaverse-LVIS. تُعد ModelNet وScanObjNN مجموعات بيانات شائعة الاستخدام لمهام التصنيف، وتحتوي على 15 و40 فئة موضوع على التوالي، بينما يُعد Objaverse-LVIS مجموعة بيانات منقحة ومحتوى أكثر من 40,000 موضوع عبر 1,100+ فئة. تُظهر المقارنة بين الإطارات في الشكل أدناه، وكما يظهر، يتفوق إطار Uni3D بشكل كبير على الإطارات السابقة في مختلف الإعدادات.

فحص خطي قليل التدريب

في الذكاء الاصطناعي، يُعد الفحص الخطي طريقة شائعة لتقييم التمثيلات التي يتعلمها الإطار أو النموذج. لتقييم khảية فحص إطار Uni3D، يجمّد المطورون معلمات إطار Uni3D باستخدام الإعدادات الشائعة مثل OpenShape. بعد ذلك، يقومون بتدريب مصنّف خطي ل إطار Uni3D باستخدام تسميات فئة قليل التدريب. يُظهر الشكل أدناه khảية الفحص الخطي لإطارات مختلفة على مجموعة بيانات Objaverse-LVIS، ويُظهر الأداء المتوسط للنموذج عبر 10 بذور عشوائية. وكما يظهر، يتفوق إطار Uni3D على الطرق الحالية بشكل كبير في إعدادات قليل التدريب المختلفة.

الفهم العالمي المفتوح

为了 تقييم khảية إطار Uni3D لفهم الأشكال والموضوعات الحقيقية في العالم الحقيقي، يستخدم المطورون مجموعتي بيانات ScanNet وCLIP لاستكشاف أداء إطار Uni3D. يُلاحظ أن التجزئة الحقيقية المتوفرة، والغرض الرئيسي هو تحديد فئة كل موضوع في إعداد بدون تدريب. تظهر النتائج في الشكل أدناه. وكما يظهر، يُظهر إطار Uni3D نتائج استثنائية عند أداء الفهم العالمي المفتوح والتعرف. يتفوق إطار Uni3D على الإطارات الحالية بفارق كبير尽管 لم يتم تدريبه على مجموعات بيانات حقيقية.

استرجاع متعددة الوضعيات

يمكن أن يسمح إطار Uni3D باسترجاع الأشكال ثلاثية الأبعاد بشكل طبيعي إما من النصوص أو الصور. لاسترجاع الأشكال ثلاثية الأبعاد، يحسب النموذج مشابهة الكوزين بين التضمينات للأشكال ثلاثية الأبعاد والتضمينات لنص الاستعلام أو صورة الاستعلام. ثم يستخدم الإطار خوارزمية KNN أو K Nearest Neighbour لتحديد الأشكال ثلاثية الأبعاد التي تشبه الاستعلام الأكثر، وتظهر النتائج في الشكل أدناه. وكما يظهر، يُظهر إطار Uni3D استرجاع الأشكال ثلاثية الأبعاد بنجاح باستخدام صور العالم الحقيقي. يُلاحظ أيضًا أن الصور المستخدمة للتدريب فقط لغرض العرض، والفجوة بين الصور الحقيقية والصور المستخدمة للتدريب كبيرة. بالإضافة إلى ذلك، يمكن للنموذج أيضًا استقبال صورة إدخال واحدة، واسترجاع أشكال تشبه الصورة الإدخال الأكثر، باستخدام مشابهة الكوزين بين التضمين المتوسط للصورتين وتضمين الأشكال ثلاثية الأبعاد. تظهر النتائج بشكل مثير، حيث تُظهر khảية إطار Uni3D لتعلم تمثيلات ثلاثية الأبعاد متنوعة والاستجابة لإشارات ثنائية الأبعاد متعددة.

في العمود الأول، يستخدم الإطار صورة استعلام واحدة لاسترجاع الأشكال ثلاثية الأبعاد التي تشبه صورة الاستعلام. في العمود الثاني، يستخدم الإطار صورة استعلام واحدة لاسترجاع الأشكال ثلاثية الأبعاد التي تشبه صورة الاستعلام. وأخيرًا، في العمود الثالث، يستخدم الإطار نص استعلام لاسترجاع الأشكال ثلاثية الأبعاد التي تشبه نص الاستعلام.

أفكار نهائية

في هذه المقالة، تحدثنا عن إطار Uni3D، وهو إطار مسبق موحد ثلاثي الأبعاد تم تطويره بهدف تعلم تمثيلات ثلاثية الأبعاد كبيرة النطاق يختبر حدوده على مقياس يزيد عن مليار متغير، ويتضمن أكثر من 10 ملايين صورة مقترنة مع أكثر من 70 مليون نص، وأكثر من مليون شكل ثلاثي الأبعاد. يستخدم المطورون هيكلًا من تحويل فانيللا ي似 هيكل ViT، والذي يسمح لهم بتوسيع إطار Uni3D باستخدام استراتيجيات ثلاثية الأبعاد أو لغوية لتوسيع النماذج. بالإضافة إلى ذلك، يمكن لإطار Uni3D استغلال مجموعة واسعة من الإطارات ثنائية الأبعاد والاستراتيجيات ثنائية الأبعاد في عالم ثلاثي الأبعاد. أظهرت النتائج التجريبية بالفعل الإمكانات الكبيرة لإطار Uni3D، حيث يُرجع إطار Uni3D نتائج دقيقة وكفية عبر مجموعة واسعة من الإعدادات، ويتفوق على الإطارات الحالية.

Kunal Kejriwal

مهندس بالمهنة، كاتب بالقلب. كونال هو كاتب تقني مع حب عميق وفهم لتقنيات الذكاء الاصطناعي والتعلم الآلي، مخصص لتبسيط المفاهيم المعقدة في هذه المجالات من خلال توثيقه الممتع والمعلوماتي.