الذكاء الاصطناعي
الفائدة غير المقصودة لرسم خرائط الفضاء الكامن لـ GAN

أثناء محاولة تحسين جودة ودقة الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي ، اكتشفت مجموعة من الباحثين من الصين وأستراليا عن غير قصد طريقة للتحكم التفاعلي في المساحة الكامنة في شبكة الخصومة التوليدية (GAN) - المصفوفة الحسابية الغامضة وراء الموجة الجديدة من تقنيات تركيب الصور التي تم إعدادها لإحداث ثورة في الأفلام والألعاب ووسائل التواصل الاجتماعي والعديد من القطاعات الأخرى في مجال الترفيه والبحث.
يتيح اكتشافهم ، وهو منتج ثانوي للهدف المركزي للمشروع ، للمستخدم أن يستكشف بشكل تعسفي وتفاعلي مساحة كامنة لشبكة GAN باستخدام الماوس ، كما لو كان يتنقل عبر مقطع فيديو ، أو يتصفح كتابًا.

مقتطف من الفيديو المصاحب للباحثين (انظر التضمين في نهاية المقالة لمزيد من الأمثلة). لاحظ أن المستخدم يقوم بمعالجة التحويلات بمؤشر "مسك" (أعلى اليسار). المصدر: https://www.youtube.com/watch؟
تستخدم الطريقة "خرائط الحرارة" للإشارة إلى مناطق الصورة التي يجب تحسينها أثناء تشغيل GAN عبر مجموعة البيانات نفسها آلاف (أو مئات الآلاف) من المرات. تهدف الخرائط الحرارية إلى تحسين جودة الصورة عن طريق إخبار GAN بمكان الخطأ ، بحيث تكون محاولتها التالية أفضل ؛ ولكن ، من قبيل الصدفة ، يوفر هذا أيضًا "خريطة" للمساحة الكامنة بأكملها التي يمكن تصفحها عن طريق تحريك الماوس.

تم التأكيد على الاهتمام البصري المكاني عبر GradCAM ، والذي يشير إلى المناطق التي تحتاج إلى الاهتمام من خلال فرض ألوان زاهية. المصدر: https://arxiv.org/pdf/2112.00718.pdf
ال ورقة يسمى تحسين توازن GAN من خلال رفع الوعي المكاني ، ويأتي من باحثين في جامعة هونغ كونغ الصينية والجامعة الوطنية الأسترالية. بالإضافة إلى الورق والفيديو والمواد الأخرى يمكن العثور عليها في صفحة المشروع.
العمل حديث العهد ، ويقتصر حاليًا على الصور منخفضة الدقة (256 × 256) ، ولكنه دليل على المفهوم الذي يعد بفتح `` الصندوق الأسود '' للمساحة الكامنة ، ويأتي في وقت تطرق فيه العديد من المشاريع البحثية عند هذا الباب سعياً وراء سيطرة أكبر على تركيب الصورة.
على الرغم من أن هذه الصور جذابة (ويمكنك رؤية المزيد منها بدقة أفضل ، في الفيديو المضمن في نهاية هذه المقالة) ، ربما يكون الأكثر أهمية هو أن المشروع قد وجد طريقة لإنشاء جودة صورة محسنة ، وربما للقيام بذلك بشكل أسرع ، من خلال إخبار GAN تحديدًا أين يحدث الخطأ أثناء التدريب.
ولكن كما الخصومة يشير إلى أن GAN ليست كيانًا واحدًا ، ولكنها بدلاً من ذلك صراع غير متكافئ بين السلطة والكدح. لفهم التحسينات التي أدخلها الباحثون في هذا الصدد ، دعونا نلقي نظرة على كيفية وصف هذه الحرب حتى الآن.
المحنة المخيفة للمولد
إذا كنت تطاردك يومًا فكرة أن بعض الملابس الجديدة الرائعة التي اشتريتها تم إنتاجها في ورشة عمل في بلد مستغل ، أو كان لديك رئيس أو عميل استمر في إخبارك "افعلها مرة أخرى!" دون أن أخبرك أبدًا بالخطأ في محاولتك الأخيرة ، فاجنب الشفقة على مولد كهرباء جزء من شبكة الخصومة التوليدية.
المولد هو العمود الفقري الذي كان يسعدك على مدى السنوات الخمس الماضية أو نحو ذلك من خلال مساعدة شبكات GAN في الإنشاء الأشخاص الواقعيون الذين لا وجود لهم، ألعاب الفيديو القديمة الراقية إلى دقة 4K، وتحويل لقطات عمرها قرن من الزمان إلى إخراج HD بالألوان الكاملة بمعدل 60 إطارًا في الثانية، من بين المستجدات الرائعة الأخرى في مجال الذكاء الاصطناعي.

من إنشاء وجوه صورية لأشخاص غير واقعيين إلى استعادة اللقطات القديمة وإحياء ألعاب الفيديو الأرشيفية ، كانت GAN مشغولة في السنوات القليلة الماضية.
يقوم المولد بتشغيل جميع بيانات التدريب مرارًا وتكرارًا (مثل صور الوجوه ، من أجل إنشاء GAN يمكنه إنشاء صور عشوائية لأشخاص غير موجودين) ، صورة واحدة في كل مرة ، لأيام ، أو حتى أسابيع ، حتى يتمكن من إنشاء صور مقنعة مثل الصور الأصلية التي درسها.
إذن كيف يعرف المُنشئ أنه يحرز أي تقدم ، في كل مرة يحاول فيها إنشاء صورة أفضل من محاولته السابقة؟
المولد لديه رئيس من الجحيم.
عتامة التمييز التي لا ترحم
وظيفة مميز هو إخبار المُنشئ أنه لم يعمل بشكل جيد بما فيه الكفاية في إنشاء صورة موثوقة للبيانات الأصلية ، و افعلها مرة أخرى. لا يخبر التمييز المولد ماذا كانت خاطئة في المحاولة الأخيرة للمولد ؛ إنه يأخذ نظرة خاصة عليه ، ويقارن الصورة التي تم إنشاؤها بالصور المصدر (مرة أخرى ، بشكل خاص) ، ويعين للصورة درجة.
النتيجة أبدا جيد بما فيه الكفاية. لن يتوقف التمييز عن القول 'افعلها مرة أخرى' حتى يقوم علماء البحث بإيقاف تشغيله (عندما يرون أن التدريب الإضافي لن يحسن المخرجات أكثر).
بهذه الطريقة ، وبغياب أي نقد بناء ، ومسلحًا فقط بعلامة يعتبر مقياسها لغزا ، يجب على المولِّد أن يخمن عشوائيًا أي أجزاء أو جوانب من الصورة تسببت في الحصول على درجة أعلى من ذي قبل. سيؤدي ذلك إلى مزيد من المسارات غير المرضية قبل أن يغير شيئًا إيجابيًا بدرجة كافية للحصول على درجة أعلى.
المتميز كمعلم وموجه
إن الابتكار الذي قدمه البحث الجديد هو في الأساس أن أداة التمييز تشير الآن إلى المولد أي أجزاء من الصورة كانت غير مرضية، بحيث يمكن للمولد التركيز على تلك المناطق في التكرار التالي ، وعدم التخلص من الأقسام التي تم تصنيفها أعلى. تحولت طبيعة العلاقة من قتالية إلى تعاونية.
استخدم الباحثون لمعالجة تباين البصيرة بين المُميِّز والمولِّد جرادكام كآلية قادرة على صياغة رؤى التمييز في مساعدة التغذية الراجعة المرئية لمحاولة المولد التالية.
تسمى طريقة التدريب الجديدة "التوازن" EqGAN. لتحقيق أقصى قدر من التكاثر ، قام الباحثون بدمج التقنيات والأساليب الحالية في الإعدادات الافتراضية ، بما في ذلك استخدام النمط هندسة معمارية.

هندسة EqGAN. تتم محاذاة الترميز المكاني للمولد مع الإدراك المكاني لـ Discriminator ، مع عينات عشوائية من خرائط الحرارة المكانية (انظر الصورة السابقة) مشفرة مرة أخرى في المولد عبر طبقة الترميز المكاني (SEL). GradCAM هي الآلية التي يتم من خلالها إتاحة خرائط انتباه Discriminator للمولد.
ينتج GradCAM خرائط حرارية (انظر الصور أعلاه) تعكس انتقادات التمييز لآخر تكرار ، وتجعل هذا متاحًا للمولد.
بمجرد تدريب النموذج ، يظل رسم الخرائط بمثابة قطعة أثرية لهذه العملية التعاونية ، ولكن يمكن أيضًا استخدامه لاستكشاف الكود الكامن النهائي بالطريقة التفاعلية الموضحة في فيديو مشروع الباحثين (انظر أدناه).
إيكان
استخدم المشروع عددًا من مجموعات البيانات الشائعة، بما في ذلك مجموعات بيانات LSUN Cat وChurches، بالإضافة إلى FFHQ مجموعة البيانات. يعرض الفيديو أدناه أيضًا أمثلة على التلاعب بالوجه والقطط باستخدام EqGAN.
تم تغيير حجم جميع الصور إلى 256 × 256 قبل تدريب EqGAN على التنفيذ الرسمي لـ StyleGAN2. تم تدريب النموذج على حجم دفعة من 64 أكثر من 8 وحدات معالجة رسومات حتى تعرض Discriminator لأكثر من 25 مليون صورة.
اختبار نتائج النظام عبر عينات مختارة باستخدام Frechet Inception Distance (ااا) ، أنشأ المؤلفون مقياسًا يسمى مؤشر عدم التوازن (DI) - الدرجة التي يحتفظ بها التمييز بميزته المعرفية على المولد ، بهدف تضييق هذه الفجوة.
على مدى مجموعات البيانات الثلاث التي تم تدريبها ، أظهر المقياس الجديد انخفاضًا مفيدًا بعد ترميز الوعي المكاني في المولد ، مع توازن محسن أظهره كل من FID و DI.
استنتج الباحثون:
نأمل أن يكون هذا العمل مصدر إلهام لمزيد من الأعمال لإعادة النظر في توازن GAN وتطوير المزيد من الأساليب الجديدة لتحسين جودة تركيب الصورة من خلال مناورة توازن GAN. سنجري أيضًا مزيدًا من التحقيقات النظرية حول هذه المسألة في العمل المستقبلي.
وتواصل:
تظهر النتائج النوعية أن طريقتنا [تجبر المولد] بنجاح على التركيز على مناطق معينة. تؤكد التجارب على مجموعات البيانات المختلفة أن طريقتنا تخفف من اختلال التوازن في تدريب GAN وتحسن بشكل كبير جودة تركيب الصورة الإجمالية. يتيح النموذج الناتج مع الإدراك المكاني أيضًا المعالجة التفاعلية للصورة الناتجة.
ألق نظرة على الفيديو أدناه للحصول على مزيد من التفاصيل حول المشروع ، وأمثلة أخرى على الاستكشاف الديناميكي والتفاعلي للمساحة الكامنة في GAN.
11:12 صباحًا 4 ديسمبر 2021 - تم تصحيح عنوان URL لـ GradCAM وترتيب المرجع المحيط.