الذكاء الاصطناعي
كيف تتم عملية إعادة الإعمار ثلاثية الأبعاد ذات العرض الفردي؟

تقليديًا، أظهرت نماذج إعادة بناء الكائنات أحادية العرض المبنية على الشبكات العصبية التلافيفية أداءً رائعًا في مهام إعادة البناء. في السنوات الأخيرة، برزت عملية إعادة البناء ثلاثية الأبعاد ذات العرض الفردي كموضوع بحث شائع في مجتمع الذكاء الاصطناعي. بغض النظر عن المنهجية المحددة المستخدمة، فإن جميع نماذج إعادة الإعمار ثلاثية الأبعاد ذات العرض الفردي تشترك في النهج المشترك المتمثل في دمج شبكة التشفير وفك التشفير في إطارها. تقوم هذه الشبكة بإجراء تفكير معقد حول البنية ثلاثية الأبعاد في مساحة الإخراج.
في هذه المقالة، سنستكشف كيفية عمل إعادة الإعمار ثلاثية الأبعاد ذات العرض الفردي في الوقت الفعلي والتحديات الحالية التي تواجهها هذه الأطر في مهام إعادة الإعمار. سنناقش مختلف المكونات والأساليب الرئيسية التي تستخدمها نماذج إعادة الإعمار ثلاثية الأبعاد ذات العرض الفردي ونستكشف الاستراتيجيات التي يمكن أن تعزز أداء هذه الأطر. بالإضافة إلى ذلك، سنقوم بتحليل النتائج التي تنتجها أطر العمل الحديثة التي تستخدم أساليب التشفير وفك التشفير. دعونا نتعمق.
إعادة بناء كائن ثلاثي الأبعاد ذو عرض فردي
تتضمن إعادة بناء الكائن ثلاثي الأبعاد من منظور واحد إنشاء نموذج ثلاثي الأبعاد لكائن من وجهة نظر واحدة، أو بعبارات أبسط، من صورة واحدة. على سبيل المثال، يعد استنتاج البنية ثلاثية الأبعاد لجسم ما، مثل دراجة نارية من صورة، عملية معقدة. فهو يجمع بين المعرفة بالترتيب الهيكلي للأجزاء وإشارات الصور ذات المستوى المنخفض والمعلومات الدلالية عالية المستوى. ويشمل هذا الطيف جانبين رئيسيين: إعادة الإعمار و اعتراف. تكتشف عملية إعادة البناء البنية ثلاثية الأبعاد للصورة المدخلة باستخدام إشارات مثل التظليل والملمس والمؤثرات المرئية. في المقابل، تقوم عملية التعرف بتصنيف الصورة المدخلة واسترداد نموذج ثلاثي الأبعاد مناسب من قاعدة البيانات.
قد تختلف نماذج إعادة بناء الكائنات ثلاثية الأبعاد الحالية ذات العرض الفردي في الهندسة المعمارية، ولكنها موحدة من خلال تضمين بنية التشفير وفك التشفير في إطارها. في هذه البنية، يقوم جهاز التشفير بتعيين صورة الإدخال إلى تمثيل كامن، بينما يقوم جهاز فك التشفير بإجراء استنتاجات معقدة حول البنية ثلاثية الأبعاد لمساحة الإخراج. لتنفيذ هذه المهمة بنجاح، يجب أن تقوم الشبكة بدمج المعلومات عالية المستوى ومنخفضة المستوى. بالإضافة إلى ذلك، تعتمد العديد من أساليب التشفير وفك التشفير الحديثة على التعرف على مهام إعادة الإعمار ثلاثية الأبعاد ذات العرض الفردي، مما يحد من قدرات إعادة الإعمار الخاصة بها. علاوة على ذلك، يمكن تجاوز أداء الشبكات العصبية التلافيفية الحديثة في إعادة بناء الكائنات ثلاثية الأبعاد ذات العرض الفردي دون استنتاج بنية الكائن ثلاثي الأبعاد بشكل صريح. ومع ذلك، فإن هيمنة الاعتراف في الشبكات التلافيفية في مهام إعادة بناء الكائنات أحادية العرض تتأثر بالإجراءات التجريبية المختلفة، بما في ذلك بروتوكولات التقييم وتكوين مجموعة البيانات. هذه العوامل تمكن إطار العمل من إيجاد حل مختصر، في هذه الحالة، التعرف على الصور.
تقليديًا، تقترب أطر إعادة بناء الكائنات ثلاثية الأبعاد ذات العرض الفردي من مهام إعادة الإعمار باستخدام أسلوب التظليل، حيث يعمل الملمس وإزالة التركيز البؤري كمناظر غريبة لمهام إعادة الإعمار. وبما أن هذه التقنيات تستخدم إشارة عمق واحدة، فهي قادرة على توفير المنطق للأجزاء المرئية من السطح. علاوة على ذلك، الكثير من أطر إعادة الإعمار ثلاثية الأبعاد ذات عرض واحد استخدم إشارات متعددة إلى جانب المعرفة الهيكلية لتقدير العمق من صورة أحادية واحدة، وهو مزيج يسمح لهذه الأطر بالتنبؤ بعمق الأسطح المرئية. تنشر أطر تقدير العمق الأحدث هياكل الشبكة العصبية التلافيفية لاستخراج العمق في صورة أحادية العين.
ومع ذلك، من أجل إعادة البناء ثلاثي الأبعاد بشكل فعال، لا يتعين على النماذج التفكير في البنية ثلاثية الأبعاد للأشياء المرئية في الصورة فحسب، بل تحتاج أيضًا إلى هلوسة الأجزاء غير المرئية في الصورة باستخدام بعض الأسبقية المستفادة من البيانات. ولتحقيق ذلك، تنشر غالبية النماذج حاليًا هياكل شبكة عصبية تلافيفية مدربة لتعيين صور ثنائية الأبعاد إلى أشكال ثلاثية الأبعاد باستخدام الإشراف المباشر ثلاثي الأبعاد، في حين نشرت الكثير من الأطر الأخرى تمثيلات قائمة على فوكسل للأشكال ثلاثية الأبعاد، واستخدمت تمثيلًا كامنًا لـ إنشاء تلافيفات ثلاثية الأبعاد. تقوم أطر معينة أيضًا بتقسيم مساحة الإخراج بشكل هرمي لتعزيز الكفاءة الحسابية والذاكرة التي تمكن النموذج من التنبؤ بالأشكال ثلاثية الأبعاد ذات الدقة الأعلى. تركز الأبحاث الحديثة على استخدام أشكال أضعف من الإشراف لتنبؤات الأشكال ثلاثية الأبعاد ذات العرض الفردي باستخدام الشبكات العصبية التلافيفية، إما مقارنة الأشكال المتوقعة وتنبؤاتها بالحقيقة الأرضية لتدريب تراجعات الشكل أو استخدام إشارات تعليمية متعددة لتدريب الأشكال المتوسطة التي تساعد النموذج على التنبؤ. التشوهات. سبب آخر وراء التقدم المحدود في إعادة البناء ثلاثي الأبعاد للعرض الفردي هو الكمية المحدودة من بيانات التدريب المتاحة للمهمة.
يعد المضي قدمًا في عملية إعادة البناء ثلاثية الأبعاد ذات العرض الفردي مهمة معقدة لأنها لا تفسر البيانات المرئية هندسيًا فحسب، بل أيضًا دلاليًا. على الرغم من أنها ليست مختلفة تمامًا، إلا أنها تمتد إلى أطياف مختلفة بدءًا من إعادة البناء الهندسي وحتى التعرف على الدلالات. مهام إعادة البناء هي التفكير لكل بكسل في البنية ثلاثية الأبعاد للكائن في الصورة. لا تتطلب مهام إعادة البناء فهمًا دلاليًا لمحتوى الصورة، ويمكن تحقيق ذلك باستخدام إشارات الصورة ذات المستوى المنخفض بما في ذلك الملمس واللون والتظليل والظلال والمنظور والتركيز. من ناحية أخرى، يعد التعرف حالة متطرفة لاستخدام دلالات الصور لأن مهام التعرف تستخدم كائنات ومبالغ كاملة لتصنيف الكائن في الإدخال، واسترداد الشكل المقابل من قاعدة البيانات. على الرغم من أن مهام التعرف يمكن أن توفر تفكيرًا قويًا حول أجزاء الكائن غير المرئية في الصور، إلا أن الحل الدلالي يكون ممكنًا فقط إذا كان من الممكن تفسيره بواسطة كائن موجود في قاعدة البيانات.
على الرغم من أن مهام التعرف وإعادة البناء قد تختلف عن بعضها البعض بشكل كبير، إلا أن كلاهما يميل إلى تجاهل المعلومات القيمة الموجودة في الصورة المدخلة. يُنصح باستخدام هاتين المهمتين في انسجام مع بعضهما البعض للحصول على أفضل النتائج الممكنة، وأشكال ثلاثية الأبعاد دقيقة لإعادة بناء الكائن، أي لمهام إعادة البناء ثلاثية الأبعاد ذات العرض الفردي الأمثل، يجب أن يستخدم النموذج المعرفة الهيكلية، وإشارات الصورة منخفضة المستوى، وفهم رفيع المستوى للكائن.
إعادة الإعمار ثلاثي الأبعاد ذو العرض الفردي: الإعداد التقليدي
لشرح الإعداد التقليدي وتحليل إعداد إطار إعادة الإعمار ثلاثي الأبعاد ذو العرض الواحد، سننشر إعدادًا قياسيًا لتقدير الشكل ثلاثي الأبعاد باستخدام عرض أو صورة واحدة للكائن. مجموعة البيانات المستخدمة لأغراض التدريب هي مجموعة بيانات ShapeNet، وتقوم بتقييم الأداء عبر 3 فئة تسمح للنموذج بفهم كيف يحدد عدد الفئات في مجموعة البيانات أداء تقدير الشكل للنموذج.
تستخدم غالبية الشبكات العصبية التلافيفية الحديثة صورة واحدة للتنبؤ بنماذج ثلاثية الأبعاد عالية الدقة، ويمكن تصنيف هذه الأطر على أساس تمثيل مخرجاتها: خرائط العمق، والسحب النقطية، وشبكات فوكسل. يستخدم النموذج شبكات توليد OGN أو Octree كطريقة تمثيلية تفوقت تاريخيًا على نهج شبكة فوكسل، و/أو يمكن أن تغطي تمثيلات المخرجات السائدة. على النقيض من الأساليب الحالية التي تستخدم تمثيلات المخرجات، يسمح نهج OGN للنموذج بالتنبؤ بالأشكال عالية الدقة، ويستخدم الثمانيات لتمثيل المساحة المشغولة بكفاءة.
خطوط الأساس
ولتقييم النتائج، ينشر النموذج خطين أساسيين يعتبران المشكلة مجرد مهمة التعرف. يعتمد خط الأساس الأول على التجميع بينما يقوم خط الأساس الثاني باسترجاع قاعدة البيانات.
التكتل
في خط الأساس التجميعي، يستخدم النموذج خوارزمية K-Means لتجميع أو تجميع أشكال التدريب في فئات فرعية K، ويقوم بتشغيل الخوارزمية على 32*32*32 فوكسيلاتيونز مسطحة في ناقل. بعد تحديد تعيينات المجموعة، يعود النموذج إلى العمل مع النماذج ذات الدقة الأعلى. يقوم النموذج بعد ذلك بحساب الشكل المتوسط داخل كل مجموعة، ووضع حدود للأشكال المتوسطة حيث يتم حساب القيمة المثلى عن طريق تعظيم متوسط IoU أو التقاطع عبر الاتحاد عبر النماذج. وبما أن النموذج يعرف العلاقة بين الأشكال ثلاثية الأبعاد والصور الموجودة ضمن بيانات التدريب، فيمكن للنموذج بسهولة مطابقة الصورة مع المجموعة المقابلة لها.
استرجاع
يتعلم خط الأساس للاسترجاع كيفية تضمين الأشكال والصور في مساحة مشتركة. يأخذ النموذج في الاعتبار التشابه الزوجي لأشكال المصفوفة ثلاثية الأبعاد في مجموعة التدريب لإنشاء مساحة التضمين. يحقق النموذج ذلك باستخدام أسلوب القياس متعدد الأبعاد مع أسلوب رسم خرائط Sammon لضغط كل صف في المصفوفة إلى واصف منخفض الأبعاد. علاوة على ذلك، لحساب التشابه بين شكلين عشوائيين، يستخدم النموذج واصف المجال الضوئي. بالإضافة إلى ذلك، يقوم النموذج بتدريب شبكة عصبية تلافيفية لتعيين الصور إلى واصف لتضمين الصور في الفضاء.
تحليل الأداء
تتبع نماذج إعادة الإعمار ثلاثية الأبعاد أحادية العرض استراتيجيات مختلفة ونتيجة لذلك تتفوق على النماذج الأخرى في بعض المجالات بينما تفشل في مجالات أخرى. لمقارنة أطر العمل المختلفة وتقييم أدائها، لدينا مقاييس مختلفة، أحدها هو متوسط درجة IoU.

كما هو واضح في الصورة أعلاه، على الرغم من وجود بنيات مختلفة، فإن نماذج إعادة البناء ثلاثية الأبعاد الحديثة تقدم أداءً مشابهًا تقريبًا. ومع ذلك، فمن المثير للاهتمام أن نلاحظ أنه على الرغم من كونه طريقة التعرف البحتة، فإن إطار الاسترجاع يتفوق على النماذج الأخرى من حيث متوسط ومتوسط درجات IoU. يقدم إطار العمل التجميعي نتائج قوية تتفوق على أطر عمل AtlasNet وOGN وMatryoshka. ومع ذلك، فإن النتيجة غير المتوقعة لهذا التحليل تظل هي تفوق Oracle NN على جميع الأساليب الأخرى على الرغم من استخدام بنية استرجاع مثالية. على الرغم من أن حساب متوسط درجة IoU يساعد في المقارنة، إلا أنه لا يوفر صورة كاملة نظرًا لأن التباين في النتائج مرتفع بغض النظر عن النموذج.
مقاييس التقييم المشتركة
غالبًا ما تستخدم نماذج إعادة الإعمار ثلاثية الأبعاد ذات العرض الفردي مقاييس تقييم مختلفة لتحليل أدائها في مجموعة واسعة من المهام. فيما يلي بعض مقاييس التقييم شائعة الاستخدام.
تقاطع الاتحاد
متوسط التقاطع على الاتحاد هو مقياس شائع الاستخدام كمقياس كمي ليكون بمثابة معيار لقياس نماذج إعادة الإعمار ثلاثية الأبعاد ذات عرض واحد. على الرغم من أن IoU يوفر بعض المعلومات عن أداء النموذج، إلا أنه لا يعتبر المقياس الوحيد لتقييم الطريقة لأنه يشير إلى جودة الشكل الذي تنبأ به النموذج فقط إذا كانت القيم عالية بما فيه الكفاية مع ملاحظة وجود تناقض كبير بين درجات منخفضة ومتوسطة المدى لاثنين من الأشكال المحددة.
مسافة الشطب
يتم تحديد مسافة الشطب على السحب النقطية، وقد تم تصميمها بطريقة يمكن تطبيقها على تمثيلات ثلاثية الأبعاد مختلفة بشكل مرضي. ومع ذلك، فإن مقياس تقييم مسافة الشطب حساس للغاية للقيم المتطرفة مما يجعله مقياسًا إشكاليًا لتقييم أداء النموذج، حيث تحدد مسافة القيمة المتطرفة من الشكل المرجعي جودة التوليد بشكل كبير.
F- النتيجة
يعد F-Score مقياس تقييم شائع يستخدم بشكل نشط من قبل غالبية نماذج إعادة البناء ثلاثية الأبعاد متعددة العرض. يتم تعريف مقياس F-Score على أنه الوسط التوافقي بين الاستدعاء والدقة، ويقوم بتقييم المسافة بين أسطح الكائنات بشكل صريح. تحسب الدقة النسبة المئوية للنقاط المعاد بناؤها والتي تقع ضمن مسافة محددة مسبقًا من الحقيقة الأرضية، لقياس دقة إعادة البناء. من ناحية أخرى، يقوم الاستدعاء بحساب النسبة المئوية للنقاط على أرض الواقع الواقعة ضمن مسافة محددة مسبقًا لإعادة الإعمار لقياس مدى اكتمال إعادة الإعمار. علاوة على ذلك، من خلال تغيير حد المسافة، يمكن للمطورين التحكم في دقة مقياس F-Score.
التحليل لكل فئة
لا يمكن أن يكون التشابه في الأداء الذي تقدمه الأطر المذكورة أعلاه نتيجة للطرق التي تعمل على مجموعة فرعية مختلفة من الفئات، ويوضح الشكل التالي الأداء النسبي المتسق عبر الفئات المختلفة مع تحقيق خط الأساس لاسترجاع Oracle NN أفضل نتيجة لها جميعًا، وكلها طرق ملاحظة التباين العالي لجميع الفئات.

علاوة على ذلك، فإن عدد عينات التدريب المتاحة للفصل الدراسي قد يدفع المرء إلى افتراض أنها تؤثر على أداء كل فصل دراسي. ومع ذلك، كما هو موضح في الشكل التالي، فإن عدد عينات التدريب المتاحة للفصل لا يؤثر على أداء كل فصل، ولا يرتبط عدد العينات في الفصل ومتوسط درجة IoU الخاصة به.

التحليل النوعي
النتائج الكمية التي تمت مناقشتها في القسم أعلاه مدعومة بنتائج نوعية كما هو موضح في الصورة التالية.

بالنسبة لغالبية الفئات، لا يوجد فرق كبير بين خط الأساس للتجميع والتنبؤات التي تم إجراؤها بواسطة الأساليب القائمة على وحدة فك التشفير. يفشل أسلوب التجميع في تقديم النتائج عندما تكون المسافة بين العينة وشكل المجموعة المتوسط عالية، أو في المواقف التي لا يستطيع فيها الشكل المتوسط نفسه وصف المجموعة بشكل جيد بما فيه الكفاية. من ناحية أخرى، توفر الأطر التي تستخدم الأساليب القائمة على وحدة فك التشفير وهندسة الاسترجاع النتائج الأكثر دقة وجاذبية لأنها قادرة على تضمين التفاصيل الدقيقة في النموذج ثلاثي الأبعاد الذي تم إنشاؤه.
إعادة الإعمار ثلاثية الأبعاد ذات عرض فردي: الأفكار النهائية
في هذه المقالة، تحدثنا عن إعادة بناء الكائنات ثلاثية الأبعاد ذات العرض الفردي، وتحدثنا عن كيفية عملها، وتحدثنا عن خطين أساسيين: الاسترجاع والتصنيف، مع تفوق نهج خط الأساس للاسترجاع على أحدث النماذج الحالية. وأخيرا، على الرغم من إعادة بناء كائن ثلاثي الأبعاد ذو عرض فردي يعد أحد أهم المواضيع وأكثرها بحثًا في مجتمع الذكاء الاصطناعي، وعلى الرغم من التقدم الكبير في السنوات القليلة الماضية، إلا أن إعادة بناء الكائنات ثلاثية الأبعاد ذات العرض الفردي لا تزال بعيدة عن أن تكون مثالية مع وجود حواجز كبيرة يجب التغلب عليها في السنوات القادمة.












