اتصل بنا للحصول على مزيد من المعلومات

Paint3D: نموذج نشر بدون إضاءة لتوليد الصور

الذكاء الاصطناعي

Paint3D: نموذج نشر بدون إضاءة لتوليد الصور

mm

أدى التطور السريع لنماذج الذكاء الاصطناعي التوليدية، وخاصةً نماذج الذكاء الاصطناعي التوليدية العميقة، إلى تطوير قدراتها بشكل ملحوظ في توليد اللغات الطبيعية، والتوليد ثلاثي الأبعاد، وتوليد الصور، وتركيب الكلام. وقد أحدثت هذه النماذج ثورة في إنتاج الصور ثلاثية الأبعاد في مختلف الصناعات. ومع ذلك، يواجه العديد منها تحديًا يتمثل في أن توصيلاتها المعقدة وشبكاتها المُولّدة غالبًا ما لا تتوافق مع خطوط إنتاج العرض التقليدية مثل العرض القائم على الفيزياء (PBR). تُظهر النماذج القائمة على الانتشار، وخاصةً الخالية من مواد الإضاءة، قدرةً مذهلةً على توليد أصول ثلاثية الأبعاد متنوعة، مما يُحسّن أطر العمل ثلاثية الأبعاد في صناعة الأفلام والألعاب والواقع المعزز/الافتراضي.

تُقدّم هذه المقالة Paint3D، وهو إطار عمل مبتكر لإنتاج خرائط نسيج UV متنوعة وعالية الدقة بدقة 2K لشبكات ثلاثية الأبعاد غير مُنسّقة، مُعتمدة على مُدخلات بصرية أو نصية. يكمن التحدي الرئيسي لـ Paint3D في توليد نسيج عالي الجودة بدون إضاءة مُدمجة، مما يُتيح للمستخدم إعادة التحرير أو إعادة الإضاءة ضمن خطوط إنتاج الرسومات الحديثة. يستخدم البرنامج نموذج انتشار ثنائي الأبعاد مُدرّب مسبقًا لدمج النسيج متعدد المشاهد، مما يُولّد خرائط نسيج أولية خشنة. مع ذلك، غالبًا ما تُظهر هذه الخرائط تشوهات في الإضاءة ومناطق غير مكتملة بسبب قيود النموذج ثنائي الأبعاد في تعطيل تأثيرات الإضاءة وتمثيل الأشكال ثلاثية الأبعاد بالكامل. سنتعمق في آلية عمل Paint3D وبنيته ومقارناته مع أطر عمل توليدية عميقة أخرى. لنبدأ.

Paint3D: مقدمة

إن قدرات نماذج الذكاء الاصطناعي التوليدي العميق في توليد اللغات الطبيعية، والتوليد ثلاثي الأبعاد، ومهام تركيب الصور معروفة جيدًا ويتم تنفيذها في تطبيقات الحياة الواقعية، مما يحدث ثورة في صناعة الجيل ثلاثي الأبعاد. على الرغم من قدراتهم الرائعة، الحديثة العميقة الذكاء الاصطناعي التوليدي تولد الأطر شبكات تتميز بأسلاك معقدة وتركيبات إضاءة فوضوية غالبًا ما تكون غير متوافقة مع خطوط العرض التقليدية بما في ذلك PBR أو العرض المادي. مثل نماذج الذكاء الاصطناعي التوليدية العميقة، تقدم تركيب النسيج أيضًا بسرعة خاصة في استخدام نماذج الانتشار ثنائية الأبعاد. تستخدم نماذج تركيب النسيج عمق الصورة المدرب مسبقًا نماذج الانتشار لاستخدام شروط النص بشكل فعال لإنشاء مواد عالية الجودة. ومع ذلك، تواجه هذه الأساليب مشكلات تتعلق بالأنسجة المضاءة مسبقًا والتي يمكن أن تؤثر بشكل كبير على عروض البيئة ثلاثية الأبعاد النهائية وتسبب أخطاء الإضاءة عند تغيير الأضواء ضمن مسارات العمل الشائعة كما هو موضح في الصورة التالية. 

كما يمكن ملاحظته، تعمل خريطة النسيج ذات الإضاءة المجانية بالتزامن مع خطوط العرض التقليدية مما يوفر نتائج دقيقة بينما تتضمن خريطة النسيج ذات الإضاءة المسبقة ظلالاً غير مناسبة عند تطبيق إعادة الإضاءة. من ناحية أخرى، توفر أطر إنشاء النسيج المدربة على البيانات ثلاثية الأبعاد نهجًا بديلاً يقوم من خلاله الإطار بإنشاء الأنسجة من خلال فهم الهندسة الكاملة لكائن ثلاثي الأبعاد محدد. على الرغم من أنها قد تحقق نتائج أفضل، إلا أن أطر عمل إنشاء النسيج المدربة على البيانات ثلاثية الأبعاد تفتقر إلى إمكانات التعميم التي تعيق قدرتها على تطبيق النموذج على كائنات ثلاثية الأبعاد خارج بيانات التدريب الخاصة بها. 

تواجه نماذج توليد النسيج الحالية تحديين حاسمين: استخدام التوجيه بالصور أو المطالبات المتنوعة لتحقيق درجة أوسع من التعميم عبر كائنات مختلفة، والتحدي الثاني هو القضاء على الإضاءة المزدوجة على النتائج التي تم الحصول عليها من التدريب المسبق. من المحتمل أن تتداخل الأنسجة المضاءة مسبقًا مع النتائج النهائية للكائنات المنسوجة داخل محركات العرض، وبما أن نماذج النشر ثنائية الأبعاد المدربة مسبقًا توفر نتائج ثنائية الأبعاد فقط في مجال العرض، فإنها تفتقر إلى الفهم الشامل للأشكال مما يؤدي إلى عدم قدرتها على ذلك للحفاظ على تناسق العرض للكائنات ثلاثية الأبعاد. 

نظرًا للتحديات المذكورة أعلاه، يحاول إطار عمل Paint3D تطوير نموذج نشر نسيج ثنائي المرحلة للكائنات ثلاثية الأبعاد والذي يعمم على نماذج توليدية مختلفة مدربة مسبقًا ويحافظ على اتساق العرض أثناء تعلم إنشاء نسيج أقل سطوعًا. 

يعد Paint3D نموذجًا ثنائي المرحلة لإنشاء نسيج خشن إلى ناعم يهدف إلى الاستفادة من التوجيه السريع القوي وقدرات إنشاء الصور للأجهزة المدربة مسبقًا الذكاء الاصطناعي التوليدي نماذج لتركيب كائنات ثلاثية الأبعاد. في المرحلة الأولى، يقوم إطار عمل Paint3D أولاً باختبار صور متعددة العرض من نموذج نشر صور ثنائي الأبعاد مدرك للعمق تم تدريبه مسبقًا بشكل تدريجي لتمكين تعميم نتائج نسيج غنية وعالية الجودة من مطالبات متنوعة. يقوم النموذج بعد ذلك بإنشاء خريطة نسيج أولية من خلال عرض هذه الصور مرة أخرى على سطح الشبكة ثلاثية الأبعاد. في المرحلة الثانية، يركز النموذج على توليد أنسجة أقل إضاءة من خلال تنفيذ الأساليب المستخدمة في نماذج الانتشار المتخصصة في إزالة تأثيرات الإضاءة وتحسين إدراك الشكل للمناطق غير المكتملة. طوال العملية، يكون إطار عمل Paint3D قادرًا باستمرار على إنشاء أنسجة عالية الجودة بدقة 2K دلاليًا، ويزيل تأثيرات الإضاءة الجوهرية. 

لتلخيص ذلك، يعد Paint3D نموذجًا جديدًا من الخشنة إلى نموذج الذكاء الاصطناعي التوليدي الدقيق الذي يهدف إلى إنتاج خرائط نسيجية متنوعة وأقل إضاءة وعالية الدقة 2K UV لشبكات ثلاثية الأبعاد غير مزخرفة لتحقيق أداء متطور في تركيب كائنات ثلاثية الأبعاد بشروط مختلفة المدخلات بما في ذلك النصوص والصور، وتوفر ميزة كبيرة لمهام التوليف وتحرير الرسومات. 

المنهجية والهندسة المعمارية

يقوم إطار عمل Paint3D بإنشاء خرائط نسيج وتحسينها تدريجيًا لإنشاء خرائط نسيج متنوعة وعالية الجودة للنماذج ثلاثية الأبعاد باستخدام المدخلات الشرطية المطلوبة بما في ذلك الصور والمطالبات، كما هو موضح في الصورة التالية. 

في المرحلة الخشنة، يستخدم نموذج Paint3D نماذج نشر الصور ثنائية الأبعاد المدربة مسبقًا لأخذ عينات من الصور متعددة العرض، ثم يقوم بإنشاء خرائط النسيج الأولية التي تعرض هذه الصور مرة أخرى على سطح الشبكة. في المرحلة الثانية، أي مرحلة التحسين، يستخدم نموذج Paint2D عملية نشر في مساحة الأشعة فوق البنفسجية لتعزيز خرائط النسيج الخشن، وبالتالي تحقيق جودة عالية ووظيفة طلاء داخلي وأقل إضاءة تضمن الجاذبية البصرية واكتمال النسيج النهائي . 

المرحلة 1: توليد الملمس الخشن التدريجي

في مرحلة إنشاء النسيج الخشن التدريجي، يقوم نموذج Paint3D بإنشاء خريطة نسيج خشن للأشعة فوق البنفسجية للشبكات ثلاثية الأبعاد التي تستخدم نموذج نشر ثنائي الأبعاد مُدرب مسبقًا ومدرك للعمق. لكي نكون أكثر تحديدًا، يستخدم النموذج أولاً طرق عرض مختلفة للكاميرا لعرض خريطة العمق، ثم يستخدم شروط العمق لأخذ عينات من الصور من نموذج نشر الصورة، ثم يعرض هذه الصور مرة أخرى على سطح الشبكة. ينفذ إطار العمل أساليب العرض وأخذ العينات والإسقاط الخلفي بالتناوب لتحسين اتساق شبكات النسيج، مما يساعد في النهاية في الإنشاء التدريجي لخريطة النسيج. 

يبدأ النموذج في إنشاء نسيج المنطقة المرئية مع تركيز مشاهد الكاميرا على الشبكة ثلاثية الأبعاد، ويعرض الشبكة ثلاثية الأبعاد إلى خريطة عمق من العرض الأول. يقوم النموذج بعد ذلك باختبار صورة نسيج لحالة المظهر وحالة العمق. يقوم النموذج بعد ذلك بعرض الصورة مرة أخرى على الشبكة ثلاثية الأبعاد. بالنسبة لوجهات النظر، ينفذ نموذج Paint3D أسلوبًا مشابهًا ولكن مع تغيير طفيف عن طريق إجراء عملية أخذ عينات النسيج باستخدام أسلوب رسم الصور. علاوة على ذلك، يأخذ النموذج المناطق المزخرفة من وجهات النظر السابقة في الاعتبار، مما يسمح لعملية العرض ليس فقط بإخراج صورة عميقة، ولكن أيضًا صورة RGB ملونة جزئيًا مع قناع غير ملون في العرض الحالي. 

يستخدم النموذج بعد ذلك نموذجًا لرسم الصور مدركًا للعمق مع برنامج تشفير داخلي لملء المساحة غير الملونة داخل صورة RGB. يقوم النموذج بعد ذلك بإنشاء خريطة النسيج من العرض عن طريق عرض الصورة المرسومة مرة أخرى في الشبكة ثلاثية الأبعاد ضمن العرض الحالي، مما يسمح للنموذج بإنشاء خريطة النسيج تدريجيًا، والوصول إلى خريطة البنية الخشنة بأكملها. وأخيرًا، يقوم النموذج بتوسيع عملية أخذ عينات النسيج إلى مشهد أو كائن ذو مشاهدات متعددة. لكي نكون أكثر تحديدًا، يستخدم النموذج زوجًا من الكاميرات لالتقاط خريطتين للعمق أثناء أخذ عينات النسيج الأولية من وجهات نظر متماثلة. يقوم النموذج بعد ذلك بدمج خريطتين للعمق ويشكل شبكة عمق. يستبدل النموذج الصورة ذات العمق الفردي بشبكة العمق لإجراء أخذ عينات نسيجية متعددة المشاهدات. 

المرحلة 2: تحسين الملمس في الفضاء فوق البنفسجي

على الرغم من أن مظهر خرائط النسيج الخشن أمر منطقي، إلا أنه يواجه بعض التحديات مثل ثقوب النسيج التي تحدث أثناء عملية العرض بسبب الانغلاق الذاتي أو الظلال البرقية بسبب استخدام نماذج نشر الصور ثنائية الأبعاد. يهدف نموذج Paint2D إلى إجراء عملية نشر في مساحة الأشعة فوق البنفسجية على أساس خريطة نسيج خشنة، في محاولة للتخفيف من المشكلات وتعزيز المظهر البصري لخريطة النسيج بشكل أكبر أثناء تحسين النسيج. ومع ذلك، فإن تحسين نموذج نشر الصورة السائد باستخدام خرائط النسيج في مساحة الأشعة فوق البنفسجية يؤدي إلى انقطاع النسيج حيث يتم إنشاء خريطة النسيج بواسطة رسم خرائط الأشعة فوق البنفسجية لنسيج السطح ثلاثي الأبعاد الذي يقطع النسيج المستمر إلى سلسلة من الأجزاء الفردية في الأشعة فوق البنفسجية فضاء. نتيجة للتجزئة، يجد النموذج صعوبة في تعلم علاقات الجوار ثلاثية الأبعاد بين الأجزاء التي تؤدي إلى مشكلات انقطاع النسيج. 

يقوم النموذج بتحسين خريطة النسيج في مساحة الأشعة فوق البنفسجية عن طريق إجراء عملية الانتشار بتوجيه من المعلومات المجاورة لأجزاء النسيج. من المهم ملاحظة أنه في مساحة الأشعة فوق البنفسجية، فإن خريطة الموضع هي التي تمثل معلومات الجوار ثلاثية الأبعاد لأجزاء النسيج، حيث يتعامل النموذج مع كل عنصر غير الخلفية كإحداثيات نقطة ثلاثية الأبعاد. أثناء عملية النشر، يقوم النموذج بدمج معلومات المجاورة ثلاثية الأبعاد عن طريق إضافة أداة تشفير خريطة موضع فردية إلى نموذج نشر الصورة المُدرب مسبقًا. يشبه المشفر الجديد تصميم إطار عمل ControlNet وله نفس بنية المشفر المطبق في نموذج نشر الصورة مع طبقة الالتواء الصفرية التي تربط الاثنين. علاوة على ذلك، يتم تدريب نموذج نشر النسيج على مجموعة بيانات تشتمل على خرائط النسيج والموضع، ويتعلم النموذج التنبؤ بالضوضاء المضافة إلى الضوضاء الكامنة. يقوم النموذج بعد ذلك بتحسين أداة تشفير الموضع وتجميد مزيل الضوضاء المدرب لمهمة نشر الصورة. 

يستخدم النموذج بعد ذلك موضع التشفير الشرطي وأجهزة التشفير الأخرى في نفس الوقت لأداء مهام التحسين في مساحة الأشعة فوق البنفسجية. في هذا الصدد، يتمتع النموذج بإمكانيتين للتحسين: UVHD أو UV High Definition والرسم بالأشعة فوق البنفسجية. تم تصميم طريقة UVHD لتعزيز المظهر البصري وجماليات خريطة النسيج. لتحقيق UVHD، يستخدم النموذج جهاز تشفير تعزيز الصورة وجهاز تشفير الموضع مع نموذج الانتشار. يستخدم النموذج طريقة الطلاء بالأشعة فوق البنفسجية لملء ثقوب النسيج داخل مستوى الأشعة فوق البنفسجية القادرة على تجنب مشكلات الانسداد الذاتي التي تنشأ أثناء العرض. في مرحلة التحسين، يقوم نموذج Paint3D أولاً بإجراء طلاء بالأشعة فوق البنفسجية ثم يقوم بتنفيذ الأشعة فوق البنفسجية عالية الدقة لإنشاء خريطة النسيج النهائية المكررة. من خلال دمج طريقتي التحسين، يستطيع إطار عمل Paint3D إنتاج خرائط كاملة ومتنوعة وعالية الدقة وخالية من الإضاءة. 

Paint3D: التجارب والنتائج

يستخدم نموذج Paint3D انتشار مستقر نموذج text2image لمساعدته في مهام إنشاء النسيج بينما يستخدم مكون تشفير الصورة للتعامل مع ظروف الصورة. لتعزيز قبضته على عناصر التحكم الشرطية مثل رسم الصورة والعمق والدقة العالية للصورة، يستخدم إطار عمل Paint3D برامج ترميز مجال ControlNet. يتم تنفيذ النموذج على إطار عمل PyTorch مع تنفيذ إسقاطات العرض والملمس على Kaolin. 

مقارنة النص بالقوام

لتحليل أدائه، نبدأ بتقييم تأثير إنشاء نسيج Paint3D عند تكييفه باستخدام المطالبات النصية، ومقارنته بأحدث أطر العمل بما في ذلك Text2Tex وTEXTure وLentPaint. كما يمكن ملاحظته في الصورة التالية، فإن إطار عمل Paint3D لا يتفوق فقط في إنشاء تفاصيل نسيج عالية الجودة، ولكنه أيضًا يقوم بتجميع خريطة نسيج خالية من الإضاءة بشكل جيد إلى حد معقول. 

بالمقارنة، فإن إطار عمل Latent-Paint عرضة لإنشاء أنسجة ضبابية تؤدي إلى تأثيرات بصرية دون المستوى الأمثل. من ناحية أخرى، على الرغم من أن إطار TEXTure يولد أنسجة واضحة، إلا أنه يفتقر إلى النعومة ويظهر الربط والدرزات بشكل ملحوظ. أخيرًا، يُنشئ إطار عمل Text2Tex أنسجة ناعمة بشكل جيد للغاية، لكنه يفشل في تكرار أداء إنشاء أنسجة دقيقة بتفاصيل معقدة. 

الصورة التالية تقارن إطار عمل Paint3D مع أحدث أطر العمل من الناحية الكمية. 

كما يمكن ملاحظته، يتفوق إطار عمل Paint3D في الأداء على جميع النماذج الحالية، وبهامش كبير مع تحسين بنسبة 30% تقريبًا في خط الأساس FID وتحسن بنسبة 40% تقريبًا في خط الأساس KID. يُظهر التحسن في درجات خط الأساس FID وKID قدرة Paint3D على إنشاء مواد عالية الجودة عبر كائنات وفئات متنوعة. 

الصورة لمقارنة الملمس

لإنشاء قدرات Paint3D التوليدية باستخدام المطالبات المرئية، نستخدم نموذج TEXTure كخط أساسي. كما ذكرنا سابقًا، يستخدم نموذج Paint3D أداة تشفير الصور مصدرها نموذج text2image من Stable Diffusion. كما هو واضح في الصورة التالية، يقوم إطار عمل Paint3D بتجميع مواد رائعة بشكل جيد، ولا يزال قادرًا على الحفاظ على دقة عالية في حالة الصورة. 

من ناحية أخرى، فإن إطار عمل TEXTure قادر على إنشاء نسيج مشابه لـ Paint3D، لكنه يعجز عن تمثيل تفاصيل النسيج في حالة الصورة بدقة. علاوة على ذلك، كما هو موضح في الصورة التالية، يوفر إطار عمل Paint3D نتائج أفضل لخط الأساس FID وKID عند مقارنته بإطار عمل TEXTure حيث انخفض الأول من 40.83 إلى 26.86 بينما أظهر الأخير انخفاضًا من 9.76 إلى 4.94. 

الخلاصة

في هذه المقالة، تحدثنا عن Paint3D، وهو إطار عمل جديد من الخشن إلى الناعم قادر على إنتاج خرائط نسيج 2K UV ذات إضاءة أقل ومتنوعة وعالية الدقة لشبكات ثلاثية الأبعاد غير مزخرفة مشروطة إما بالمدخلات المرئية أو النصية. أهم ما يميز إطار عمل Paint3D هو أنه قادر على إنشاء أنسجة UV عالية الدقة 3K بدون إضاءة ومتسقة لغويًا دون أن تكون مشروطة بإدخالات الصور أو النص. نظرًا لنهجه الخشن إلى الدقيق، ينتج إطار عمل Paint2D خرائط نسيجية أقل إضاءة ومتنوعة وعالية الدقة، ويقدم أداء أفضل من أطر العمل الحديثة. 

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.