الذكاء الاصطناعي
تعديل مساحة الغان بالكتل

يُقدم بحث جديد من جامعة كاليفورنيا في بيركلي وشركة أدوبي طريقةً لتعديل المحتوى الفائق للواقعية الذي يمكن إنشاؤه بواسطة شبكة معارضة توليدية (GAN)، ولكن لا يمكن عادةً التحكم فيه أو تحريكه أو تعديله بحرية على النحو المألوف لمستخدمي برنامج فوتوشوب وأخصائيي الرسومات الحاسوبية ثلاثية الأبعاد.
يُطلق على هذه الطريقة اسم BlobGAN، وت涉ل إنشاء شبكة من “الكتل” – وهي هياكل رياضية تتوافق مباشرةً مع المحتوى داخل مساحة الغان.
من خلال تحريك الكتل، يمكنك تحريك “الأجسام” في تمثيل المشهد، بطريقة直مية أقرب إلى أساليب الرسومات الحاسوبية ثلاثية الأبعاد والتصميم بمساعدة الحاسوب (CAD) من العديد من المحاولات الحالية لتعيين وتحكم مساحة الغان:

تعديل المشهد باستخدام BlobGAN: عند تحريك الكتل بواسطة المستخدم، يتم تعديل موضع الأجسام والأنماط الكامنة في الغان بشكل متناسب. لمزيد من الأمثلة، انظر الفيديو المصاحب للورقة، المرفق في نهاية هذا المقال، أو على https://www.youtube.com/watch?v=KpUv82VsU5k
منذ أن تتوافق الكتل مع “الأجسام” في المشهد المخطط في مساحة الغان، يتم فصل جميع الأجسام ابتداءً، مما يجعل من الممكن تعديلهم بشكل فردي:

يمكن تغيير حجم الأجسام، وتقليلها، ونسخها، وإزالتها، من بين عمليات أخرى.
كما هو الحال مع أي كائن في برنامج تحرير الصور (أو حتى برنامج تحرير النص)، يمكن نسخ كتلة وتنفيذ عمليات عليها:

يمكن نسخ الكتل في الواجهة، وستتم également “نسخ ولصق” التمثيلات الكامنة المقابلة. مصدر: https://dave.ml/blobgan/#results
يمكن لـ BlobGAN أيضًا تحليل صور جديدة، مختارة من قبل المستخدم، إلى مساحته الكامنة:

مع BlobGAN، لا تحتاج إلى دمج الصور التي تريد تعديلها مباشرة في بيانات التدريب ثم البحث عن رموزها الكامنة، ولكن يمكنك إدخال الصور المختارة في أي وقت وتعديلها. مصدر: https://dave.ml/blobgan/#results
يمكن رؤية المزيد من النتائج هنا، وفي فيديو يوتيوب مصاحب (مرفق في نهاية هذا المقال). هناك أيضًا демонстраسیون تفاعلي Colab، ومستودع GitHub.
قد يبدو هذا النوع من الأداة والمجال بديًا في عصر ما بعد فوتوشوب، وقد سمحت حزم البرامج المعلمة مثل سينما 4D وبلندر للمستخدمين بإنشاء وتخصيص عوالم ثلاثية الأبعاد لعدة عقود؛ ومع ذلك، فإنه يمثل نهجًا واعدًا لتهذيب الغرابة وطبيعة مساحة الغان الكامنة، من خلال استخدام كيانات وسيطة تتوافق مع رموز كامنة.
يؤكد المؤلفون:
‘في مجموعة بيانات متعددة الفئات الصعبة للمشاهد الداخلية، يتفوق BlobGAN على Style-GAN2 في جودة الصورة حسب مقياس FID.’
تitled BlobGAN: Spatially Disentangled Scene Representations، وتم كتابته بواسطة两个 باحثين من جامعة كاليفورنيا في بيركلي، إلى جانب ثلاثة من أدوبي ريسيرش.
الوسيط
يحمل BlobGAN نموذجًا جديدًا لتركيب الصور بواسطة GAN. تشير الورقة الجديدة إلى أن النهج السابق لمعالجة الكيانات المنفصلة في مساحة الغان، إما كان “من أعلى إلى أسفل” أو “من أسفل إلى أعلى”.
يُعتبر نهج من أعلى إلى أسفل في GAN أو مصنف الصور يعامل الصور للمشاهد كفئات، مثل “غرفة نوم”، “كنيسة”، “وجه”، إلخ. هذا النوع من زوج النص / الصورة يغذي جيلًا جديدًا من إطارات توليد الصور متعددة الوضع.
تتضمن النهج من أسفل إلى أعلى، بدلاً من ذلك، تعيين كل بكسل في الصورة إلى فئة أو علامة أو فئة. تستخدم هذه النهج تقنيات متنوعة، على الرغم من أن التجزئة الدلالية هي فرع بحثي شائع حاليًا.
يقول المؤلفون:
‘يبدو كلا النهج غير مرضٍ لأن كلاهما لا يمكن أن يوفر وسائل سهلة للتفكير في أجزاء المشهد ككيانات. يتم خبز أجزاء المشهد في متجه كامن متشابك واحد (من أعلى إلى أسفل)، أو يحتاج إلى تجميعها معًا من علامات البكسل الفردية (من أسفل إلى أعلى).’
بدلاً من ذلك، يقدم BlobGAN تمثيلًا غير مُرقب من المستوى المتوسط، أو إطار عمل وسيط للنماذج التوليدية.

يخريط شبكة التخطيط كيانات “كتلة” محلية (ويمكن التحكم فيها) إلى رموز كامنة. مصدر: https://arxiv.org/pdf/2205.02837.pdf
تُعتبر الكتل الغاوسية (أي الكتل القائمة على الضوضاء) مرتبة حسب العمق، وتُمثل حجزًا في الهيكل الذي يعين تعيينًا لكل كيان، وحل العائق الأكبر لتعديل محتوى GAN: الفصل.
يشير المؤلفون إلى أن النظام يتعلم تجميع المشاهد إلى تخطيطات وكيانات من خلال مُفرق غير مخصص يستخدم علامات صريحة.
الهيكل والبيانات
تُحول الكيانات في خريطة الكتل إلى صور عبر شبكة محسنة من StyleGAN2، في نهج يأخذ الإلهام من بحث NVIDIA السابق.

مشتق محسن من StyleGAN 2 من NVIDIA Research. مصدر: https://arxiv.org/pdf/1912.04958.pdf
تم تعديل StyleGAN 2 في BlobGAN لتقبل الإدخال من خريطة الكتل بدلاً من متجه عالمي واحد، كما هو الحال عادةً.

سلسلة من العمليات التي يمكن إجراؤها بواسطة BlobGAN، بما في ذلك “إكمال” مشهد غرفة نوم فارغة، وتغيير حجم العناصر وتحريكها.
بالمقارنة، بدلاً من إنشاء مبنى كبير ومعقد (مساحة الغان) في البداية، و ثم الحاجة إلى استكشاف طرقه العديدة، يرسل BlobGAN الكتل المكونة في البداية، و دائمًا يعرف أين هي.
https://www.youtube.com/watch?v=KpUv82VsU5k
* غير وظيفي في وقت الكتابة
** لم يتم نشر الكود في وقت الكتابة
نُشر لأول مرة في 8 مايو 2022.












