زاوية أندرسون

إصلاح الفهم المحدود لنماذج الانتشار للمرايا والانعكاسات

تم النشر 28 نيسان 2025

مارتن أندرسون

منذ أن بدأت الذكاء الاصطناعي التوليدي في جذب الاهتمام العام، تعمق اهتمام مجال أبحاث الرؤية الحاسوبية بتطوير نماذج الذكاء الاصطناعي القادرة على فهم القوانين الفيزيائية وتكرارها؛ ومع ذلك، فإن التحدي المتمثل في تعليم أنظمة التعلم الآلي لمحاكاة الظواهر مثل الجاذبية والفيزياء هو التحدي الأكبر. ديناميكيات السوائل لقد كان محورًا مهمًا لجهود البحث على الأقل السنوات الخمس الماضية.

منذ نماذج الانتشار الكامنة (LDMs) أصبحت تهيمن على مشهد الذكاء الاصطناعي التوليدي في عام 2022، وقد أجرى الباحثون تركز بشكل متزايد حول قدرة بنية LDM المحدودة على فهم الظواهر الفيزيائية وإعادة إنتاجها. وقد اكتسبت هذه القضية أهميةً متزايدةً مع التطوير الرائد لنموذج الفيديو التوليدي من OpenAI. سورا ، والإصدار الأخير الأكثر أهمية (ويمكن القول أنه الأكثر أهمية) من برنامج مفتوح المصدر الفيديو عارضات ازياء فيديو هونيوان و وان 2.1.

التفكير بشكل سيء

ركزت معظم الأبحاث الهادفة إلى تحسين فهم نظرية الحركة الجزيئية (LDM) للفيزياء على مجالات مثل محاكاة المشية، وفيزياء الجسيمات، وجوانب أخرى من الحركة النيوتونية. وقد جذبت هذه المجالات الانتباه لأن عدم الدقة في السلوكيات الفيزيائية الأساسية من شأنه أن يُقوّض فورًا مصداقية الفيديوهات المُولّدة بالذكاء الاصطناعي.

ومع ذلك، يركز قطاع صغير ولكنه متنامٍ من الأبحاث على إحدى أكبر نقاط ضعف LDM - وهي عدم القدرة النسبية لإنتاج دقيق تأملات.

من ورقة بحثية نُشرت في يناير ٢٠٢٥ بعنوان "انعكاس الواقع: تمكين نماذج الانتشار من إنتاج انعكاسات مرآة دقيقة"، أمثلة على "فشل الانعكاس" مقارنةً بنهج الباحثين. المصدر: https://arxiv.org/pdf/2025

من ورقة بحثية صدرت في يناير 2025 بعنوان "عكس الواقع: تمكين نماذج الانتشار من إنتاج انعكاسات مرآة دقيقة"، أمثلة على "فشل الانعكاس" مقابل نهج الباحثين نفسه. المصدر: https://arxiv.org/pdf/2409.14677

كانت هذه المشكلة أيضًا تحديًا خلال عصر CGI ولا تزال كذلك في مجال ألعاب الفيديو، حيث راي تتبع تُحاكي الخوارزميات مسار الضوء أثناء تفاعله مع الأسطح. يحسب تتبع الأشعة كيفية ارتداد أشعة الضوء الافتراضية عن الأجسام أو مرورها عبرها، مما يُنتج انعكاسات وانكسارات وظلالًا واقعية.

ومع ذلك، نظرًا لأن كل ارتداد إضافي يزيد بشكل كبير من التكلفة الحسابية، فيجب على تطبيقات الوقت الفعلي الموازنة بين زمن الوصول والدقة من خلال الحد من عدد ارتدادات أشعة الضوء المسموح بها.

تمثيل لشعاع ضوء محسوب افتراضيًا في سيناريو تقليدي قائم على تقنية ثلاثية الأبعاد (أي CGI)، باستخدام تقنيات ومبادئ تم تطويرها لأول مرة في ستينيات القرن العشرين، والتي بلغت ذروتها بين عامي 3 و1960 (الفترة بين فيلمي Tron [1982] وJurassic Park [93]. المصدر: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

تمثيل شعاع ضوء محسوب افتراضيًا في سيناريو تقليدي قائم على تقنية ثلاثية الأبعاد (أي CGI)، باستخدام تقنيات ومبادئ تم تطويرها لأول مرة في ستينيات القرن العشرين، والتي بلغت ذروتها بين عامي 3 و1960 (الفترة بين فيلم "ترون" [1982] وفيلم "جوراسيك بارك" [93]. المصدر: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

على سبيل المثال، قد يتضمن تصوير إبريق شاي من الكروم أمام مرآة عملية تتبع أشعة، حيث تنعكس أشعة الضوء بشكل متكرر بين الأسطح العاكسة، مما يُنشئ حلقة شبه لا نهائية دون فائدة عملية تُذكر للصورة النهائية. في معظم الحالات، يتجاوز عمق انعكاس ارتدادين أو ثلاثة ما يُمكن للمشاهد إدراكه. ينتج عن ارتداد واحد مرآة سوداء، إذ يجب أن يُكمل الضوء رحلتين على الأقل ليُكوّن انعكاسًا مرئيًا.

يؤدي كل ارتداد إضافي إلى زيادة التكلفة الحسابية بشكل حاد، مما يؤدي غالبًا إلى مضاعفة أوقات العرض، مما يجعل التعامل مع الانعكاسات أسرع واحدة من أهم الفرص لتحسين جودة عرض تتبع الأشعة.

من الطبيعي أن تحدث الانعكاسات، وهي ضرورية للواقعية الفوتوغرافية، في سيناريوهات أقل وضوحًا - مثل السطح العاكس لشارع المدينة أو ساحة المعركة بعد المطر؛ أو انعكاس الشارع المقابل في واجهة متجر أو مدخل زجاجي؛ أو في أكواب الشخصيات المصورة، حيث قد يكون من المطلوب ظهور الأشياء والبيئات.

انعكاس مزدوج محاكي تم تحقيقه من خلال التركيب التقليدي لمشهد مميز في فيلم "الماتريكس" (1999).

مشاكل الصورة

ولهذا السبب، كانت الأطر التي كانت شائعة قبل ظهور نماذج الانتشار، مثل مجالات التألق العصبي (NeRF)، وبعض المنافسين الأحدث مثل رش غاوسي لقد حافظوا على نضالاتهم الخاصة لتنفيذ التأملات بطريقة طبيعية.

استخدم REF²-نيرف اقترح مشروع (في الصورة أدناه) طريقة نمذجة قائمة على NeRF للمشاهد التي تحتوي على علبة زجاجية. في هذه الطريقة، تمت نمذجة الانكسار والانعكاس باستخدام عناصر تعتمد على منظور المشاهد ولا تعتمد عليه. مكّن هذا النهج الباحثين من تقدير الأسطح التي حدث فيها الانكسار، وتحديدًا الأسطح الزجاجية، ومكّن من فصل ونمذجة كلٍّ من مكونات الضوء المباشر والمنعكس.

أمثلة من ورقة Ref2Nerf. المصدر: https://arxiv.org/pdf/2311.17116

تتضمن حلول الانعكاس الأخرى التي تواجه NeRF خلال السنوات الأربع أو الخمس الماضية ما يلي: نيرفرين, انعكاس الواقع، وMeta's 2024 حقول الإشعاع العصبي الواعية للانعكاس المستوي تنفيذ المشاريع .

بالنسبة لـ GSplat، أوراق مثل مرآة-3DGS, التناثر الغاوسي العاكسو مرجع غاوسي وقد قدموا حلولاً فيما يتعلق بمشكلة الانعكاس، في حين أن عام 2023 مشروع نيرو واقترح طريقة مخصصة لدمج الصفات الانعكاسية في التمثيلات العصبية.

ميرور فيرس

يُمكن القول إن جعل نموذج الانتشار يراعي منطق الانعكاس أصعب من استخدام مناهج هيكلية صريحة وغير دلالية، مثل Gaussian Splatting وNeRF. في نماذج الانتشار، من المرجح أن تُدمج قاعدة من هذا النوع بشكل موثوق فقط إذا احتوت بيانات التدريب على العديد من الأمثلة المتنوعة عبر مجموعة واسعة من السيناريوهات، مما يجعلها تعتمد بشكل كبير على توزيع وجودة مجموعة البيانات الأصلية.

تقليديا، فإن إضافة سلوكيات معينة من هذا النوع هي من اختصاص لورا أو ال الكون المثالى ولكن هذه ليست حلولاً مثالية، حيث يميل LoRA إلى تحريف الناتج نحو بيانات التدريب الخاصة به، حتى بدون مطالبة، في حين أن التعديلات الدقيقة - بالإضافة إلى كونها مكلفة - يمكن أن تشق نموذجًا رئيسيًا بعيدًا بشكل لا رجعة فيه عن التيار الرئيسي، وتولد مجموعة من الأدوات المخصصة ذات الصلة التي لن تعمل أبدًا مع أي أخرى سلالة النموذج، بما في ذلك النموذج الأصلي.

بشكل عام، يتطلب تحسين نماذج الانتشار أن تولي بيانات التدريب اهتمامًا أكبر لفيزياء الانعكاس. ومع ذلك، هناك العديد من المجالات الأخرى التي تحتاج أيضًا إلى اهتمام خاص مماثل. في سياق مجموعات البيانات الضخمة، حيث يكون التنظيم المخصص مكلفًا وصعبًا، فإن معالجة كل نقطة ضعف بهذه الطريقة أمر غير عملي.

ومع ذلك، تظهر حلول لمشكلة انعكاس LDM بين الحين والآخر. ومن بين هذه الجهود الحديثة، من الهند، ميرور فيرس مشروع يقدم مجموعة بيانات محسنة وطريقة تدريب قادرة على تحسين أحدث التقنيات في هذا التحدي الخاص في مجال أبحاث الانتشار.

في أقصى اليمين، تُقارن نتائج MirrorVerse بمنهجين سابقين (عمودان مركزيان). المصدر: https://arxiv.org/pdf/2504.15397

في أقصى اليمين، النتائج من MirrorVerse مقارنة بطريقتين سابقتين (عمودين مركزيين). المصدر: https://arxiv.org/pdf/2504.15397

كما نرى في المثال أعلاه (الصورة المميزة في ملف PDF للدراسة الجديدة)، فإن MirrorVerse يتحسن في العروض الأخيرة التي تعالج نفس المشكلة، لكنه بعيد عن الكمال.

في الصورة العلوية اليمنى، نرى أن الجرار الخزفية تقع إلى اليمين قليلاً من المكان الذي ينبغي أن تكون فيه، وفي الصورة أدناه، والتي من الناحية الفنية لا ينبغي أن تتضمن انعكاسًا للكأس على الإطلاق، تم إدخال انعكاس غير دقيق في المنطقة اليمنى، ضد منطق الزوايا العاكسة الطبيعية.

لذلك سوف نلقي نظرة على الطريقة الجديدة ليس لأنها قد تمثل أحدث التقنيات في الانعكاس القائم على الانتشار، ولكن أيضًا لتوضيح المدى الذي قد يثبت فيه أن هذه الطريقة مشكلة مستعصية على نماذج الانتشار الكامن، الثابتة والمرئية على حد سواء، نظرًا لأن أمثلة البيانات المطلوبة للانعكاس من المرجح أن تتشابك مع إجراءات وسيناريوهات معينة.

لذلك فإن هذه الوظيفة الخاصة لـ LDMs قد تستمر في التخلف عن المناهج الخاصة بالهيكل مثل NeRF و GSplat و CGI التقليدية.

استخدم ورقة جديدة بعنوان MirrorVerse: دفع نماذج الانتشار لتعكس العالم بشكل واقعي، ويأتي من ثلاثة باحثين من مختبر الرؤية والذكاء الاصطناعي، ومعهد العلوم الهندي في بنغالور، ومعهد سامسونج للبحث والتطوير في بنغالور. تحتوي الورقة البحثية على صفحة المشروع المرتبطة، وكذلك أ مجموعة بيانات في Hugging Face، مع الكود المصدر صدر في جيثب.

الأسلوب

ويشير الباحثون منذ البداية إلى الصعوبة التي تواجهها النماذج مثل الانتشار المستقر و تدفق لدينا التزام باحترام المطالبات القائمة على التأمل، وتوضيح القضية بمهارة:

من الورقة: أظهرت نماذج تحويل النص إلى صورة الحديثة، SD3.5 وFlux، تحديات كبيرة في إنتاج انعكاسات متسقة ودقيقة هندسيًا عند مطالبتها بإنشاء انعكاسات في المشهد.

من الورقة: تُظهر نماذج تحويل النص إلى صورة الحديثة، SD3.5 وFlux، تحديات كبيرة في إنتاج انعكاسات متسقة ودقيقة هندسيًا عند مطالبتها بإنشائها في مشهد ما.

وقد طور الباحثون ميرور فيوجن 2.0، وهو نموذج توليدي قائم على الانتشار يهدف إلى تحسين الواقعية البصرية والدقة الهندسية لانعكاسات المرآة في الصور المركبة. استند تدريب النموذج إلى مجموعة بيانات جديدة أعدها الباحثون بعنوان ميرور جين 2، مصممة لمعالجة تعميم نقاط الضعف التي لوحظت في الأساليب السابقة.

يقوم MirrorGen2 بتوسيع المنهجيات السابقة من خلال تقديم وضع عشوائي للأشياء, دورات عشوائيةو تأريض الكائن الصريح، بهدف ضمان بقاء الانعكاسات معقولة عبر مجموعة أوسع من أوضاع ومواضع الأشياء بالنسبة لسطح المرآة.

مخطط لتوليد البيانات الاصطناعية في MirrorVerse: طبّق خط أنابيب توليد مجموعة البيانات زيادات رئيسية من خلال تحديد مواقع الكائنات وتدويرها وتثبيتها عشوائيًا داخل المشهد باستخدام مُحدِّد المواقع ثلاثي الأبعاد. كما تُقرَن الكائنات في مجموعات متسقة دلاليًا لمحاكاة العلاقات المكانية المعقدة والانسدادات، مما يسمح لمجموعة البيانات بالتقاط تفاعلات أكثر واقعية في المشاهد متعددة الكائنات.

لتعزيز قدرة النموذج على التعامل مع الترتيبات المكانية المعقدة، يشتمل خط أنابيب MirrorGen2 على يقترن مشاهد الأشياء، مما يتيح للنظام تمثيل الانسدادات والتفاعلات بين العناصر المتعددة في الإعدادات العاكسة بشكل أفضل.

تقول الورقة:

يتم إقران الفئات يدويًا لضمان الترابط الدلالي - على سبيل المثال، إقران كرسي بطاولة. أثناء العرض، وبعد تحديد موضع الكائن الرئيسي وتدويره، يتم أخذ عينات من كائن إضافي من الفئة المقترنة وترتيبه لمنع التداخل، مما يضمن مناطق مكانية مميزة داخل المشهد.

فيما يتعلق بالتأريض الصريح للكائنات، فقد تأكد المؤلفون هنا من أن الكائنات المولدة كانت "مثبتة" على الأرض في البيانات الاصطناعية الناتجة، بدلاً من "التحليق" بشكل غير مناسب، وهو ما قد يحدث عندما يتم إنشاء البيانات الاصطناعية على نطاق واسع، أو باستخدام طرق آلية للغاية.

وبما أن ابتكار مجموعة البيانات يشكل عنصراً أساسياً في حداثة هذه الورقة البحثية، فسوف ننتقل إلى هذا القسم من التغطية في وقت أبكر من المعتاد.

البيانات والاختبارات

سينميرور في 2

تم تصميم مجموعة بيانات SynMirrorV2 الخاصة بالباحثين لتحسين تنوع وواقعية بيانات تدريب انعكاس المرآة، والتي تتميز بأشياء ثلاثية الأبعاد تم الحصول عليها من أوبجافيرس و أشياء أمازون بيركلي (ABO) مجموعات البيانات، مع تحسين هذه الاختيارات لاحقًا من خلال كائن ثلاثي الأبعاد، بالإضافة إلى عملية التصفية من V1 مشروع MirrorFusionللتخلص من الأصول منخفضة الجودة. وقد أدى ذلك إلى تحسين مجموعة الأصول لتشمل 66,062 عنصرًا.

أمثلة من مجموعة بيانات Objaverse، استُخدمت في إنشاء مجموعة البيانات المُنسّقة للنظام الجديد. المصدر: https://arxiv.org/pdf/2212.08051

أمثلة من مجموعة بيانات Objaverse، المستخدمة في إنشاء مجموعة البيانات المنسقة للنظام الجديد. المصدر: https://arxiv.org/pdf/2212.08051

يتضمن بناء المشهد وضع هذه الأشياء على أرضيات محكمة من CC-القوام وخلفيات HDRI من بوليهافن مستودع صور مُحَوَّلة بالحاسوب، باستخدام مرايا جدارية كاملة أو مستطيلة طويلة. وُحِّدت الإضاءة بإضاءة منطقة موضوعة فوق الأجسام وخلفها، بزاوية 45 درجة. صُمِّمت الأجسام لتناسب حجم مكعب الوحدة، ووُضِعَت باستخدام تقاطع مُحوسَب مُسبقًا بين المرآة وكاميرا الرؤية. قطع ناقصة، ضمان الرؤية.

تم تطبيق الدورات العشوائية حول المحور y، وتم استخدام تقنية التأريض لمنع "القطع الأثرية العائمة".

لمحاكاة مشاهد أكثر تعقيدًا، تضمنت مجموعة البيانات أيضًا كائنات متعددة مرتبة وفقًا لأزواج متماسكة دلاليًا بناءً على فئات ABO. وُضعت كائنات ثانوية لتجنب التداخل، مما أدى إلى إنشاء 3,140 مشهدًا متعدد الكائنات مصممًا لالتقاط انغلاقات متنوعة وعلاقات عمق.

أمثلة على المشاهد المقدمة من مجموعة بيانات المؤلفين التي تحتوي على عدة كائنات (أكثر من اثنين)، مع الرسوم التوضيحية لتجزئة الكائنات وتصورات خريطة العمق كما هو موضح أدناه.

أمثلة على المشاهد المرسومة من مجموعة بيانات المؤلفين التي تحتوي على عدة كائنات (أكثر من اثنين)، مع الرسوم التوضيحية لتجزئة الكائنات وتصورات خريطة العمق كما هو موضح أدناه.

عملية التدريب

وبإدراك أن الواقعية التركيبية وحدها لا تكفي للتعميم القوي للبيانات في العالم الحقيقي، قام الباحثون بتطوير عملية تعليمية مكونة من ثلاث مراحل لتدريب MirrorFusion 2.0.

في المرحلة الأولى، قام المؤلفون بتهيئة الأوزان لكل من فرعي التكييف والتوليد باستخدام الانتشار المستقر v1.5 نقطة تفتيش، وضبط النموذج على التدريب على الكائن الفردي انقسم من مجموعة بيانات SynMirrorV2. على عكس ما ذكر أعلاه انعكاس الواقع المشروع، لم يفعل الباحثون تجمد فرع التوليد. ثم قاموا بتدريب النموذج لـ 40,000 تكرار.

في المرحلة الثانية، تم ضبط النموذج لإجراء 2 تكرار إضافي، على تقسيم التدريب متعدد الكائنات في SynMirrorV10,000، من أجل تعليم النظام كيفية التعامل مع الانسدادات والترتيبات المكانية الأكثر تعقيدًا الموجودة في المشاهد الواقعية.

أخيرًا، في المرحلة الثالثة، تم إجراء 3 تكرار إضافي للضبط الدقيق باستخدام بيانات العالم الحقيقي من مجموعة بيانات MSD، باستخدام خرائط العمق التي تم إنشاؤها بواسطة ماتربورت 3D مقدر العمق أحادي العين.

أمثلة من مجموعة بيانات MSD، مع تحليل مشاهد واقعية في خرائط العمق والتجزئة. المصدر: https://arxiv.org/pdf/1908.09101

أمثلة من مجموعة بيانات MSD، مع تحليل مشاهد من العالم الحقيقي إلى خرائط العمق والتجزئة. المصدر: https://arxiv.org/pdf/1908.09101

أثناء التدريب، تم حذف المطالبات النصية لمدة 20 بالمائة من وقت التدريب من أجل تشجيع النموذج على الاستخدام الأمثل لمعلومات العمق المتاحة (أي النهج "المقنع").

تم التدريب على أربع وحدات معالجة رسومية NVIDIA A100 لجميع المراحل (لم يتم توفير مواصفات ذاكرة الفيديو (VRAM)، مع أنها كانت 40 أو 80 جيجابايت لكل بطاقة). معدل تعلم 1e^-5 تم استخدامه على حجم دفعة مكون من 4 لكل وحدة معالجة رسومية، تحت آدم دبليو محسن.

لقد عمل مخطط التدريب هذا على زيادة صعوبة المهام المقدمة للنموذج تدريجيًا، بدءًا من المشاهد الاصطناعية الأكثر بساطة والتقدم نحو تركيبات أكثر تحديًا، بهدف تطوير قابلية النقل القوية في العالم الحقيقي.

الاختبار

قام المؤلفون بتقييم MirrorFusion 2.0 مقارنة بالإصدار السابق المتطور MirrorFusion، والذي كان بمثابة خط الأساس، وأجروا تجارب على مجموعة بيانات MirrorBenchV2، والتي تغطي مشاهد الكائنات الفردية والمتعددة.

تم إجراء اختبارات نوعية إضافية على عينات من مجموعة بيانات MSD، و الكائنات الممسوحة ضوئيًا من Google مجموعة بيانات (GSO).

استخدم التقييم 2,991 صورة لجسم واحد من فئات مرئية وغير مرئية، و300 مشهد لجسمين من ABO. تم قياس الأداء باستخدام نسبة الإشارة إلى الضوضاء القصوى (نسبة الخطر إلى الخطر) مؤشر التشابه البنيوي (SSIM)؛ و تشابه رقعة الصورة الإدراكية المكتسبة (LPIPS) لتقييم جودة الانعكاس على منطقة المرآة المقنعة. تشابه CLIP تم استخدامه لتقييم محاذاة النص مع مطالبات الإدخال.

في الاختبارات الكمية، أنتج المؤلفون صورًا باستخدام أربع بذور لموضوع محدد، واختاروا الصورة الناتجة ذات أفضل نتيجة في اختبار SSIM. يظهر أدناه جدولان لنتائج الاختبارات الكمية.

على اليسار، نتائج كمية لجودة توليد انعكاس كائن واحد عند تقسيم كائن واحد في MirrorBenchV2. تفوق MirrorFusion 2.0 على خط الأساس، مع عرض أفضل النتائج بخط عريض. على اليمين، نتائج كمية لجودة توليد انعكاس كائنات متعددة عند تقسيم كائنات متعددة في MirrorBenchV2. تفوق MirrorFusion 2.0 المُدرّب باستخدام كائنات متعددة على الإصدار المُدرّب بدونها، مع عرض أفضل النتائج بخط عريض.

تعليق المؤلفين:

'[أظهرت النتائج] أن طريقتنا تتفوق على الطريقة الأساسية وأن الضبط الدقيق على كائنات متعددة يحسن النتائج في المشاهد المعقدة.'

معظم النتائج، وتلك التي أكد عليها المؤلفون، تتعلق بالاختبار النوعي. ونظرًا لحجم هذه الرسوم التوضيحية، لا يمكننا سوى إعادة إنتاج جزئي لأمثلة البحث.

مقارنة على MirrorBenchV2: فشل خط الأساس في الحفاظ على الانعكاسات الدقيقة والاتساق المكاني، مما يظهر اتجاهًا غير صحيح للكرسي وانعكاسات مشوهة لأشياء متعددة، في حين (يزعم المؤلفون) أن MirrorFusion 2.0 يعرض الكرسي والأرائك بشكل صحيح، مع وضع دقيق واتجاه وبنية.

من بين هذه النتائج الذاتية، يرى الباحثون أن النموذج الأساسي فشل في تقديم دقة في تحديد اتجاه الأجسام والعلاقات المكانية في الانعكاسات، مما أدى غالبًا إلى ظهور عيوب مثل الدوران غير الصحيح والأجسام العائمة. ويؤكد الباحثون أن MirrorFusion 2.0، المُدرّب على SynMirrorV2، يحافظ على الاتجاه الصحيح للأجسام وموقعها في المشاهد ذات الجسم الواحد والأجسام المتعددة، مما ينتج عنه انعكاسات أكثر واقعية وتماسكًا.

ونرى أدناه نتائج نوعية لمجموعة بيانات GSO المذكورة أعلاه:

مقارنة بمجموعة بيانات GSO. أخطأ خط الأساس في تمثيل بنية الجسم، وأنتج انعكاسات مشوهة وغير مكتملة، بينما يؤكد المؤلفون أن MirrorFusion 2.0 يحافظ على التكامل المكاني، ويُنتج هندسة وألوانًا وتفاصيل دقيقة، حتى على الأجسام خارج التوزيع.

مقارنة بمجموعة بيانات GSO. يُشوّه خط الأساس بنية الجسم، ويُنتج انعكاسات غير مكتملة ومشوّهة، بينما يُؤكد المؤلفون أن MirrorFusion 2.0 يحافظ على التكامل المكاني، ويُنتج هندسة وألوانًا وتفاصيل دقيقة، حتى على الأجسام غير الموزعة.

وهنا تعليق المؤلفين:

يُولّد MirrorFusion 2.0 انعكاسات أكثر دقة وواقعية. على سبيل المثال، في الشكل 5 (أ - أعلاه)، يعكس MirrorFusion 2.0 مقابض الأدراج (المُظللة باللون الأخضر) بشكل صحيح، بينما يُنتج النموذج الأساسي انعكاسًا غير مُقنع (مُظللًا باللون الأحمر).

'وبالمثل، بالنسبة لـ "الكوب الأبيض والأصفر" في الشكل 5 (ب)، توفر MirrorFusion 2.0 هندسة مقنعة مع الحد الأدنى من التحف الفنية، على عكس الخط الأساسي، الذي يفشل في التقاط هندسة الكائن ومظهره بدقة.'

تم إجراء الاختبار النوعي النهائي ضد مجموعة بيانات MSD الحقيقية المذكورة أعلاه (النتائج الجزئية موضحة أدناه):

نتائج مشاهد واقعية تُقارن بين MirrorFusion وMirrorFusion 2.0 وMirrorFusion 2.0، مُعدّلة بدقة على مجموعة بيانات MSD. يؤكد المؤلفون أن MirrorFusion 2.0 يُظهر تفاصيل المشاهد المعقدة بدقة أكبر، بما في ذلك الأجسام المزدحمة على طاولة، ووجود مرايا متعددة داخل بيئة ثلاثية الأبعاد. لا تُعرض هنا سوى نتائج جزئية، نظرًا لأبعاد النتائج الواردة في الورقة البحثية الأصلية، والتي نحيل القارئ إليها للحصول على نتائج كاملة ودقة أفضل.

هنا، لاحظ المؤلفون أنه على الرغم من أداء MirrorFusion 2.0 الجيد على بيانات MirrorBenchV2 وGSO، إلا أنه واجه صعوبة في البداية مع مشاهد واقعية معقدة في مجموعة بيانات MSD. أدى ضبط النموذج بدقة على مجموعة فرعية من MSD إلى تحسين قدرته على التعامل مع البيئات المزدحمة والمرايا المتعددة، مما أدى إلى انعكاسات أكثر تماسكًا وتفصيلاً على تقسيم الاختبار المُستبعد.

بالإضافة إلى ذلك، تم إجراء دراسة للمستخدمين، حيث أفادت التقارير أن 84% من المستخدمين يفضلون الأجيال من MirrorFusion 2.0 على الطريقة الأساسية.

نتائج دراسة المستخدم.

وبما أن تفاصيل دراسة المستخدم قد تم تخصيصها لملحق الورقة، فإننا نحيل القارئ إلى ذلك الملحق لمعرفة تفاصيل الدراسة.

خاتمة

على الرغم من أن العديد من النتائج المعروضة في الورقة البحثية تُمثل تحسينات مبهرة على أحدث التقنيات، إلا أن أحدث التقنيات في هذا المسعى تحديدًا مُنخفضة للغاية لدرجة أن حتى الحل التجميعي غير المُقنع يُمكن أن ينجح بأقل جهد. البنية الأساسية لنموذج الانتشار تُعيق التعلم الموثوق وإثبات الفيزياء المُتسقة، لذا فإن المشكلة مُطروحة بشكل خاطئ، ويبدو أنها لا تُؤدي إلى حل مُتقن.

علاوة على ذلك، تُعدّ إضافة البيانات إلى النماذج الحالية الطريقةَ القياسيةَ لمعالجة أوجه القصور في أداء نموذج LDM، مع جميع العيوب المذكورة سابقًا. من المنطقي افتراض أنه إذا أولت مجموعات البيانات المستقبلية عالية النطاق اهتمامًا أكبر لتوزيع (وشرح) نقاط البيانات المتعلقة بالانعكاس، فمن المتوقع أن تتعامل النماذج الناتجة مع هذا السيناريو بشكل أفضل.

ولكن الأمر نفسه ينطبق على العديد من المشاكل الأخرى في مخرجات LDM - فمن يستطيع أن يقول أي منها يستحق الجهد والمال المبذول في نوع الحل الذي يقترحه مؤلفو الورقة الجديدة هنا؟

نُشرت لأول مرة يوم الإثنين 28 أبريل 2025. الثلاثاء 29 أبريل: تم إجراء تصحيح لغوي في الفقرات النهائية.

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai