اتصل بنا للحصول على مزيد من المعلومات

Uni3D: استكشاف التمثيل ثلاثي الأبعاد الموحد على نطاق واسع

الذكاء الاصطناعي

Uni3D: استكشاف التمثيل ثلاثي الأبعاد الموحد على نطاق واسع

mm

لقد كان توسيع نطاق تمثيل النصوص والمرئيات محورًا رئيسيًا للبحث في السنوات الأخيرة. أدت التطورات والأبحاث التي أجريت في الماضي القريب إلى ثورات عديدة في تعلم اللغة والرؤية. ومع ذلك، على الرغم من شعبية تحجيم النص والتمثيلات المرئية، لم تتم مناقشة تحجيم التمثيلات للمشاهد والكائنات ثلاثية الأبعاد بشكل كافٍ.

سنناقش اليوم Uni3D، وهو نموذج أساسي ثلاثي الأبعاد يهدف إلى استكشاف تمثيلات ثلاثية الأبعاد موحدة. يستخدم إطار عمل Uni3D إطار عمل ViT ثنائي الأبعاد، مُدرب مسبقًا من طرف إلى طرف، لمحاذاة ميزات نص الصورة مع ميزات السحابة النقطية ثلاثية الأبعاد المقابلة لها.

يستخدم إطار عمل Uni3D مهام ذريعة وبنية بسيطة للاستفادة من وفرة النماذج ثنائية الأبعاد المدربة مسبقًا والنماذج المحاذية لنص الصورة كعمليات تهيئة وأهداف، على التوالي. يطلق هذا النهج العنان للإمكانات الكاملة للنماذج والاستراتيجيات ثنائية الأبعاد لتوسيع نطاقها إلى العالم ثلاثي الأبعاد.

في هذه المقالة، سوف نتعمق أكثر في رؤية الكمبيوتر ثلاثية الأبعاد وإطار عمل Uni3D، ونستكشف المفاهيم الأساسية وبنية النموذج. لذلك، دعونا نبدأ.

Uni3D وتعلم التمثيل ثلاثي الأبعاد: مقدمة

في السنوات القليلة الماضية، برزت رؤية الكمبيوتر كواحدة من أكثر المجالات استثمارًا بكثافة في صناعة الذكاء الاصطناعي. بعد التقدم الكبير في أطر رؤية الكمبيوتر ثنائية الأبعاد، حول المطورون تركيزهم إلى رؤية الكمبيوتر ثلاثية الأبعاد. يدمج هذا المجال، وخاصة تعلم التمثيل ثلاثي الأبعاد، جوانب رسومات الكمبيوتر والتعلم الآلي ورؤية الكمبيوتر والرياضيات لأتمتة معالجة وفهم الهندسة ثلاثية الأبعاد. أدى التطور السريع لأجهزة الاستشعار ثلاثية الأبعاد مثل LiDAR، إلى جانب تطبيقاتها واسعة النطاق في صناعة الواقع المعزز/الواقع الافتراضي، إلى زيادة الاهتمام بتعلم التمثيل ثلاثي الأبعاد. تستمر تطبيقاتها المحتملة في النمو يوميًا.

على الرغم من أن الأطر الحالية قد أظهرت تقدمًا ملحوظًا في هندسة النماذج ثلاثية الأبعاد، والنمذجة الموجهة نحو المهام، وأهداف التعلم، فإن معظمها يستكشف الهندسة ثلاثية الأبعاد على نطاق صغير نسبيًا مع بيانات ومعلمات وسيناريوهات مهمة محدودة. إن التحدي المتمثل في تعلم تمثيلات ثلاثية الأبعاد قابلة للتطوير، والتي يمكن بعد ذلك تطبيقها على التطبيقات في الوقت الحقيقي في بيئات متنوعة، لا يزال غير مستكشف إلى حد كبير.

التحرك على طول، في السنوات القليلة الماضية، والتحجيم نماذج اللغات الكبيرة التي تم تدريبها مسبقًا ساعدت في إحداث ثورة في مجال معالجة اللغة الطبيعية، وقد أشارت الأعمال الأخيرة إلى ترجمة التقدم إلى ثنائي الأبعاد من اللغة باستخدام البيانات وتوسيع نطاق النماذج مما يفسح المجال للمطورين لمحاولة إعادة هذا النجاح لتعلم تمثيل ثلاثي الأبعاد التي يمكن تحجيمها ونقلها إلى التطبيقات في العالم الحقيقي. 

Uni3D هو إطار عمل ثلاثي الأبعاد قابل للتطوير وموحد تم تطويره بهدف تعلم تمثيلات ثلاثية الأبعاد واسعة النطاق تختبر حدودها على نطاق أكثر من مليار معلمة، وأكثر من 3 ملايين صورة مقترنة بأكثر من 3 مليون نص، وأكثر من مليون شكل ثلاثي الأبعاد. . يقارن الشكل أدناه دقة الإطلاق الصفرية مع المعلمات الموجودة في إطار عمل Uni10D. يعمل إطار عمل Uni70D بنجاح على توسيع نطاق التمثيلات ثلاثية الأبعاد من 3 ملايين إلى أكثر من مليار. 

يتكون إطار عمل Uni3D من 2D ViT أو محول الرؤية باعتباره برنامج التشفير ثلاثي الأبعاد الذي يتم تدريبه مسبقًا من طرف إلى طرف لمحاذاة الميزات المحاذاة لنص الصورة مع ميزات السحابة النقطية ثلاثية الأبعاد. يستخدم إطار عمل Uni3D مهام الذريعة والهندسة المعمارية البسيطة للاستفادة من وفرة النماذج ثنائية الأبعاد المدربة مسبقًا والنماذج المحاذية لنصوص الصور كتهيئة وأهداف على التوالي، وبالتالي إطلاق العنان للإمكانات الكاملة للنماذج ثنائية الأبعاد، واستراتيجيات توسيع نطاقها إلى العالم ثلاثي الأبعاد. يتم قياس المرونة وقابلية التوسع لإطار عمل Uni3D من حيث

  1. تحجيم النموذج من 6M إلى أكثر من مليار معلمة. 
  2. تهيئة ثنائية الأبعاد للنص الخاضع للإشراف المرئي التعلم تحت الإشراف الذاتي
  3. يتم تحجيم النموذج المستهدف للصور النصية من 150 مليونًا إلى أكثر من مليار معلمة. 

ضمن الإطار المرن والموحد الذي تقدمه Uni3D، يلاحظ المطورون زيادة متماسكة في الأداء عندما يتعلق الأمر بتوسيع نطاق كل مكون. يستفيد التعلم التمثيلي ثلاثي الأبعاد واسع النطاق أيضًا بشكل كبير من الاستراتيجيات ثنائية الأبعاد القابلة للمشاركة وتوسيع النطاق. 

كما هو موضح في الشكل أدناه، يعرض إطار عمل Uni3D تعزيزًا في الأداء عند مقارنته بالفن السابق في إعدادات اللقطات القليلة والصفر. تجدر الإشارة إلى أن إطار عمل Uni3D يُرجع درجة دقة تصنيف صفرية تزيد عن 88% على ModelNet، وهو ما يتساوى مع أداء العديد من أساليب الإشراف الحديثة. 

علاوة على ذلك، يوفر إطار عمل Uni3D أيضًا دقة وأداء من الدرجة الأولى عند تنفيذ مهام تمثيلية ثلاثية الأبعاد أخرى مثل تجزئة الأجزاء وفهم العالم المفتوح. يهدف إطار عمل Uni3D إلى سد الفجوة بين الرؤية ثنائية الأبعاد والرؤية ثلاثية الأبعاد من خلال توسيع نطاق النماذج الأساسية ثلاثية الأبعاد باستخدام نهج تدريب مسبق موحد وبسيط لتعلم تمثيلات ثلاثية الأبعاد أكثر قوة عبر مجموعة واسعة من المهام، مما قد يساعد في النهاية في تقارب ثنائي الأبعاد والرؤية ثلاثية الأبعاد عبر مجموعة واسعة من الطرائق.

Uni3D: الأعمال ذات الصلة

يستمد إطار عمل Uni3D الإلهام، ويتعلم من التطورات التي تم إجراؤها بواسطة تعلم التمثيل ثلاثي الأبعاد السابق، والنماذج التأسيسية خاصة في ظل طرائق مختلفة. 

تعلم التمثيل ثلاثي الأبعاد

تستخدم طريقة تعلم التمثيل ثلاثي الأبعاد نقاطًا سحابية لفهم ثلاثي الأبعاد للكائن، وقد تم استكشاف هذا المجال من قبل المطورين كثيرًا في الماضي القريب، وقد لوحظ أنه يمكن تدريب هذه النقاط السحابية مسبقًا تحت الإشراف الذاتي باستخدام استخدامات محددة مهام الذريعة ثلاثية الأبعاد بما في ذلك نمذجة نقطة القناع وإعادة البناء الذاتي والتعلم المتباين. 

ومن الجدير بالذكر أن هذه الأساليب تعمل مع بيانات محدودة، وغالبًا ما لا تقوم بالتحقيق في التمثيلات متعددة الوسائط إلى ثلاثية الأبعاد من ثنائية الأبعاد أو البرمجة اللغوية العصبية. ومع ذلك، فإن النجاح الأخير لإطار عمل CLIP الذي يعود بكفاءة عالية في تعلم المفاهيم المرئية من النص الخام باستخدام طريقة التعلم المتباين، ويسعى أيضًا إلى تعلم التمثيلات ثلاثية الأبعاد من خلال محاذاة ميزات الصورة والنص والنقطة السحابية باستخدام نفس طريقة التعلم المتباين. 

نماذج المؤسسة

لقد عمل المطورون بشكل شامل على تصميم نماذج أساسية لتوسيع نطاق التمثيلات متعددة الوسائط وتوحيدها. على سبيل المثال، في مجال البرمجة اللغوية العصبية، كان المطورون يعملون على أطر عمل يمكنها توسيع نطاق نماذج اللغة المدربة مسبقًا، وهو يحدث ثورة بطيئة في صناعة البرمجة اللغوية العصبية. علاوة على ذلك، يمكن ملاحظة التقدم في مجال الرؤية ثنائية الأبعاد أيضًا لأن المطورين يعملون على أطر عمل تستخدم تقنيات قياس البيانات والنماذج للمساعدة في تقدم اللغة إلى النماذج ثنائية الأبعاد، على الرغم من صعوبة تكرار هذه الأطر للنماذج ثلاثية الأبعاد بسبب محدودية توفر البيانات ثلاثية الأبعاد، والتحديات التي تمت مواجهتها عند توحيد وتوسيع نطاق الأطر ثلاثية الأبعاد. 

من خلال التعلم من مجالي العمل المذكورين أعلاه، أنشأ المطورون إطار عمل Uni3D، أول نموذج أساسي ثلاثي الأبعاد يحتوي على أكثر من مليار معلمة تستخدم بنية ViT أو Vision Transformer الموحدة التي تسمح للمطورين بتوسيع نطاق نموذج Uni3D باستخدام إستراتيجيات موحدة ثلاثية الأبعاد أو البرمجة اللغوية العصبية لتوسيع نطاق النماذج. يأمل المطورون أن تسمح هذه الطريقة لإطار عمل Uni3D بسد الفجوة التي تفصل حاليًا بين الرؤية ثنائية الأبعاد وثلاثية الأبعاد إلى جانب تسهيل التقارب متعدد الوسائط

Uni3D: الطريقة والهندسة المعمارية

توضح الصورة أعلاه نظرة عامة على إطار عمل Uni3D، وهو إطار ثلاثي الأبعاد قابل للتطوير وموحد للتدريب المسبق لتعلم التمثيل ثلاثي الأبعاد على نطاق واسع. يستخدم المطورون أكثر من 3 مليون نص و3 ملايين صورة مقترنة بأكثر من مليون شكل ثلاثي الأبعاد لتوسيع نطاق إطار عمل Uni70D إلى أكثر من مليار معلمة. يستخدم إطار عمل Uni10D 3D ViT أو Vision Transformer كبرنامج تشفير ثلاثي الأبعاد يتم بعد ذلك تدريبه من البداية إلى النهاية لمحاذاة بيانات الصورة النصية مع ميزات النقطة السحابية ثلاثية الأبعاد، مما يسمح لإطار عمل Uni3D بتقديم الكفاءة والدقة المطلوبة عبر مجموعة واسعة من المعايير. دعونا الآن نلقي نظرة تفصيلية على عمل إطار عمل Uni3D. 

توسيع نطاق إطار Uni3D

ركزت الدراسات السابقة حول تعلم تمثيل النقاط السحابية تقليديًا بشكل كبير على تصميم بنيات نماذج معينة توفر أداءً أفضل عبر مجموعة واسعة من التطبيقات، وتعمل على كمية محدودة من البيانات بفضل مجموعات البيانات صغيرة الحجم. ومع ذلك، فقد حاولت الدراسات الحديثة استكشاف إمكانية استخدام التدريب المسبق القابل للتطوير ثلاثي الأبعاد ولكن لم تكن هناك نتائج كبيرة بفضل توفر البيانات ثلاثية الأبعاد المحدودة. لحل مشكلة قابلية التوسع للأطر ثلاثية الأبعاد، يستفيد إطار عمل Uni3D من قوة بنية محول الفانيليا التي تعكس تقريبًا محول الرؤية، ويمكنه حل مشكلات القياس باستخدام إستراتيجيات توسيع النطاق الموحدة ثنائية الأبعاد أو البرمجة اللغوية العصبية لتوسيع حجم النموذج. 

ركزت الدراسات السابقة حول تعلم تمثيل النقاط السحابية تقليديًا بشكل كبير على تصميم بنيات نماذج معينة توفر أداءً أفضل عبر مجموعة واسعة من التطبيقات، وتعمل على كمية محدودة من البيانات بفضل مجموعات البيانات صغيرة الحجم. ومع ذلك، فقد حاولت الدراسات الحديثة استكشاف إمكانية استخدام التدريب المسبق القابل للتطوير ثلاثي الأبعاد ولكن لم تكن هناك نتائج كبيرة بفضل توفر البيانات ثلاثية الأبعاد المحدودة. لحل مشكلة قابلية التوسع للأطر ثلاثية الأبعاد، يستفيد إطار عمل Uni3D من قوة بنية محول الفانيليا التي تعكس تقريبًا محول الرؤية، ويمكنه حل مشكلات القياس باستخدام إستراتيجيات توسيع النطاق الموحدة ثنائية الأبعاد أو البرمجة اللغوية العصبية لتوسيع حجم النموذج. 

تهيئة Uni3D

هناك تحدٍ رئيسي آخر واجهته الأعمال السابقة يتعلق بقياس التمثيلات ثلاثية الأبعاد، والصعوبات في التقارب، والتركيب الزائد التي كانت نتيجة للحجم الكبير للنماذج. يتمثل النهج الفعال للتغلب على هذه العقبة في التدريب المسبق للأعمدة الأساسية ثلاثية الأبعاد الفردية باستخدام مهام ذريعة ثلاثية الأبعاد محددة، وتهيئة المعلمات المدربة مسبقًا. ومع ذلك، فإن هذا النهج مصحوب بتكاليف تدريب عالية، ومن الصعب أيضًا إنشاء تهيئة قوية للتعلم متعدد الوسائط بفضل الكمية المحدودة من البيانات ثلاثية الأبعاد المتاحة لأغراض التدريب. 

يستفيد إطار عمل Uni3D من محول الفانيليا، الذي يشبه هيكله إلى حد كبير ViT. باستخدام هذا النهج، يمكن لإطار عمل Uni3D بشكل طبيعي أن يتبنى النماذج الكبيرة المدربة مسبقًا مع طرق أخرى لتهيئة إطار عمل Uni3D. 

محاذاة الوسائط المتعددة

يحاول إطار عمل Uni3D تعلم محاذاة النماذج المتعددة عبر الصور واللغة والسحب النقطية من خلال الاستفادة من نماذج مشابهة لأطر عمل OpenShape وULIP. علاوة على ذلك، ولضمان إجراء مقارنة عادلة مع الطرق الأخرى، يستخدم إطار عمل Uni3D مجموعة البيانات ثلاثية الأبعاد المجمعة بواسطة OpenShape لأغراض التدريب. تتكون مجموعة البيانات المجمعة بواسطة OpenShape من 3 مجموعات بيانات ثلاثية الأبعاد: 

  1. أوبجافيرس. 
  2. شيب نت. 
  3. المستقبل ثلاثي الأبعاد. 
  4. أبو. 

التجارب والنتائج

يتم اختبار إطار عمل Uni3D عبر إعدادات مختلفة، وعبر مهام تصنيف متنوعة بما في ذلك أدائه في إعدادات الطلقة الصفرية وإعدادات اللقطات القليلة، والنتائج حول فهم العالم المفتوح، والمزيد. دعونا نلقي نظرة مفصلة على هذه النتائج.

تصنيف شكل صفر النار

لتقييم أداء إطار عمل Uni3D عبر مهام تصنيف الأشكال ذات اللقطة الصفرية، يقوم المطورون بإجراء تجارب عبر ثلاثة معايير بما في ذلك مجموعات البيانات المعيارية ModelNet وScanObjNN وObjaverse-LVIS. ModelNet وScanObjNN عبارة عن مجموعات بيانات تستخدم على نطاق واسع لمهام التصنيف، وتتكون من 15 و40 فئة كائنات على التوالي، في حين أن معيار Objaverse-LVIS عبارة عن مجموعة بيانات منقحة ومشروحة تتكون من أكثر من 40,000 كائن عبر أكثر من 1,100 فئة. يتم توضيح المقارنة بين الأطر في الصورة أدناه، وكما هو واضح، فإن إطار عمل Uni3D يتفوق بشكل كبير على أحدث الأطر السابقة عبر إعدادات مختلفة. 

قليل من النار الخطية التحقيق

في الذكاء الاصطناعي، يعتبر Linear Probing طريقة شائعة تستخدم لتقييم التمثيلات التي يتعلمها إطار العمل أو النموذج. لتقييم قدرة Uni3D على الفحص الخطي، يقوم المطورون بتجميد معلمات إطار عمل Uni3D باستخدام الإعدادات الشائعة مثل OpenShape. بعد ذلك، قام المطورون بتدريب مصنف خطي لـ Uni3D باستخدام تسميات فئة قليلة اللقطات. يوضح الشكل أدناه قدرة الفحص الخطي لأطر مختلفة في مجموعة بيانات Objaverse-LVIS، ويوضح متوسط ​​أداء النموذج عبر 10 بذور عشوائية. كما هو واضح، يتفوق إطار عمل Uni3D على الأساليب الحالية بشكل ملحوظ في ظل إعدادات اللقطات القليلة المختلفة. 

فهم العالم المفتوح

لتقييم قدرة إطار عمل Uni3D على فهم الأشكال والكائنات الواقعية في الوقت الفعلي، يستخدم المطورون مجموعات بيانات ScanNet وCLIP لاستكشاف أداء Uni3D. تجدر الإشارة إلى أن التجزئة الفورية للحقيقة الأرضية متاحة، والدافع الأساسي هو التعرف على فئة اللحظة الفردية لكل مشهد في إعداد اللقطة الصفرية. وتظهر النتائج في الصورة أدناه. كما هو واضح، يقدم إطار عمل Uni3D نتائج استثنائية عند أداء الفهم والاعتراف بالعالم الحقيقي. يتفوق إطار عمل Uni3D على الأطر الحالية بهامش كبير على الرغم من عدم التدريب مطلقًا على مجموعات البيانات الواقعية. 

الاسترجاع عبر الوسائط

يمكن أن تسمح التمثيلات متعددة الوسائط التي تعلمها إطار عمل Uni3D للإطار باسترداد الأشكال ثلاثية الأبعاد بشكل طبيعي سواء من النصوص أو الصور. لاسترداد الأشكال ثلاثية الأبعاد، يحسب النموذج تشابه جيب التمام بين تضمينات الأشكال ثلاثية الأبعاد، وتضمينات مطالبة نص الاستعلام أو صورة الاستعلام. يستخدم إطار العمل بعد ذلك خوارزمية KNN أو K Nearest Neighbor لإنشاء أشكال ثلاثية الأبعاد تشبه الاستعلام أكثر، وتظهر النتائج في الشكل أدناه. كما هو واضح، يستخدم إطار عمل Uni3D بنجاح صور العالم الحقيقي لاسترداد الأشكال ثلاثية الأبعاد. علاوة على ذلك، تجدر الإشارة إلى أن الصور التدريبية مخصصة لأغراض العرض فقط، وأن الفجوة بين صور العالم الحقيقي وصور التدريب كبيرة. بالإضافة إلى ذلك، يأخذ النموذج أيضًا صورتين مدخلتين، ويسترد أشكالًا مشابهة لكلتا الصورتين المدخلتين باستخدام تشابه جيب التمام بين متوسطات التضمين لكل من الصورتين، والأشكال ثلاثية الأبعاد المضمنة. النتائج مثيرة للاهتمام لأنها تثبت قدرة Uni3D على تعلم تمثيلات ثلاثية الأبعاد متنوعة وإدراك إشارات ثنائية الأبعاد متعددة. 

في العمود الأول، يستخدم إطار العمل صورتي استعلام لإرجاع الأشكال ثلاثية الأبعاد الأكثر تشابهًا مع صور الاستعلام. في العمود الثاني، يستخدم الإطار صورتين مدخلتين لاسترداد الأشكال ثلاثية الأبعاد التي تشبه الصورتين المدخلتين. أخيرًا، في العمود الأخير، يستخدم النموذج نصوص الاستعلام، ويعيد الأشكال ثلاثية الأبعاد التي تشبه الاستعلام النصي إلى الحد الأقصى. 

الخلاصة

في هذه المقالة، تحدثنا عن Uni3D، وهو إطار عمل ثلاثي الأبعاد قابل للتطوير وموحد تم تطويره بهدف تعلم تمثيلات ثلاثية الأبعاد واسعة النطاق تختبر حدودها على مقياس يزيد عن مليار معلمة، وأكثر من 3 ملايين صورة مقترنة بأكثر من 3 مليون صورة. النصوص، وأكثر من مليون شكل ثلاثي الأبعاد. قام مطورو الإطار بتضمين محول فانيليا ببنيته المكافئة لـ ViTs مما يسمح لهم بتوسيع نطاق إطار عمل Uni10D باستخدام استراتيجيات القياس الموحدة ثنائية الأبعاد أو البرمجة اللغوية العصبية. علاوة على ذلك، يمكن لإطار عمل Uni70D الاستفادة من مجموعة واسعة من أطر العمل ثنائية الأبعاد المدربة مسبقًا والاستراتيجيات ثنائية الأبعاد للعالم ثلاثي الأبعاد. لقد أظهرت النتائج التجريبية بالفعل الإمكانات الهائلة لإطار عمل Uni3D حيث يقوم إطار عمل Uni3D بإرجاع نتائج دقيقة وفعالة عبر مجموعة واسعة من الإعدادات، ويتفوق على أطر العمل الحديثة الحالية. 

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.