الذكاء الاصطناعي

المنفعة غير المقصودة لتحديد موقع الفضاء الكامن لGAN

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

بينما كان باحثون من الصين وأستراليا يحاولون تحسين جودة الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي ووضوحها، اكتشفوا بطريقة غير مقصودة طريقة للسيطرة التفاعلية على الفضاء الكامن لشبكة العدوية التوليدية (GAN) – المصفوفة الحسابية الغامضة وراء موجة جديدة من تقنيات合成 الصور التي من المحتمل أن تغير الأفلام وال ألعاب والوسائط الاجتماعية، وغيرها من القطاعات في الترفيه والبحث.

اكتشافهم، وهو منتج ثانوي للهدف المركزي للمشروع، يسمح للمستخدم باستكشاف الفضاء الكامن لGAN بشكل تعاوني و تفاعلي مع الفأرة، كما لو كان يمر عبر مقطع فيديو أو يتصفح كتابًا.

مقتطف من مقطع الفيديو المصاحب للباحثين (انظر التضمين في نهاية المقال). لاحظ أن المستخدم يُعدل التحويلات باستخدام مؤشر “الضبط” (أعلى اليسار). مصدر: https://www.youtube.com/watch?v=k7sG4XY5rIc

تستخدم الطريقة “خرائط الحرارة” لتحديد المناطق التي يجب تحسينها في الصورة أثناء تشغيل GAN على نفس مجموعة البيانات آلاف (أو مئات الآلاف) من المرات. تهدف خرائط الحرارة إلى تحسين جودة الصورة من خلال إخبار GAN أين يخطئ، بحيث يكون محاولته التالية أفضل؛ ومع ذلك، فإن هذا يوفر أيضًا “خريطة” للفضاء الكامن بأكمله التي يمكن تصفحها عن طريق تحريك الفأرة.

الانتباه البصري المكاني المُشدد من خلال GradCAM، الذي يشير إلى المناطق التي تحتاج إلى الانتباه من خلال فرض ألوان ساطعة. مصدر: https://arxiv.org/pdf/2112.00718.pdf

المقالة بعنوان تحسين توازن GAN من خلال رفع الوعي المكاني، ويأتي من باحثين في الجامعة الصينية في هونغ كونغ والجامعة الوطنية الأسترالية. بالإضافة إلى المقالة، يمكن العثور على مقطع الفيديو والمواد الأخرى في صفحة المشروع.

العمل في مرحلة 初期، ومحدود حاليًا بالصور منخفضة الدقة (256×256)، ولكنه دليل على概念 يpromises لفتح “الصندوق الأسود” للفضاء الكامن، ويأتي في وقت يضرب فيه العديد من مشاريع البحث في ذلك الباب في سبيل الحصول على سيطرة أكبر على合成 الصور.

على الرغم من أن هذه الصور ممتعة (ويمكنك رؤية المزيد منها، بدقة أفضل، في مقطع الفيديو المضمن في نهاية هذه المقالة)، فإن ما هو أكثر أهمية ربما هو أن المشروع قد وجد طريقة لتحسين جودة الصورة، وربما لفعل ذلك بشكل أسرع، من خلال إخبار GAN بشكل محدد أين يخطئ أثناء التدريب.

ولكن، كما يشير العدائي، GAN ليس كيانًا واحدًا، بل صراع غير متكافئ بين السلطة والعبودية. لفهم التحسينات التي قام بها الباحثون في هذا الصدد، دعونا ننظر إلى كيف تم وصف هذا الصراع حتى الآن.

مصير المُولِّد الحزين

إذا كنت قد تعرضت لخوف أن بعض العناصر الجديدة التي اشتريتها تم إنتاجها في مصنع في بلد مستغل، أو كان لديك رئيس أو عميل ي告诉ك “افعلها مرة أخرى!” دون أن يخبرك أبدًا بما كان خطأً في محاولةك الأخيرة، فاحفظ شبرًا من الشفقة للمُولِّد جزء من شبكة العدوية التوليدية.

المُولِّد هو العامل الذي ساعد GANs على إنشاء أشخاص фотorealistic لا وجود لهم، وترقية ألعاب الفيديو القديمة إلى دقة 4K، وتحويل مقاطع الفيديو القديمة إلى إخراج HD كامل الألوان عند 60 إطارًا في الثانية، من بين أشياء أخرى رائعة من الذكاء الاصطناعي.

من إنشاء وجوه фотorealistic لاشخاص غير موجودين إلى استعادة مقاطع الفيديو القديمة وتنشيط ألعاب الفيديو الأرشيفية، كان GAN مشغولاً في السنوات القليلة الماضية.

يتم تشغيل المُولِّد على جميع بيانات التدريب مرة أخرى ومرة أخرى (مثل صور الوجوه، من أجل إنشاء GAN يمكنه إنشاء صور لاشخاص عشوائيين غير موجودين)، صورة تلو الأخرى، لمدة أيام أو حتى أسابيع، حتى يتمكن من إنشاء صور مقنعة مثل الصور الأصلية التي دراستها.

لذلك، كيف يعرف المُولِّد أنه يحرز أي تقدم، كل مرة يحاول فيها إنشاء صورة أفضل من محاولته السابقة؟

المُولِّد لديه رئيس من الجحيم.

الوضوح القاسي للمنافس

وظيفة المنافس هي أن يخبر المُولِّد أنه لم يفعل ما يكفي لإنشاء صورة أصلية وفقًا للبيانات الأصلية، وأن “يفعلها مرة أخرى!”. المنافس لا يخبر المُولِّد بما كان خطأً في محاولته الأخيرة؛ إنه يأخذ نظرة خاصة عليه، ويقارن الصورة المولدة بالصور المصدر (أيضًا بشكل خاص)، ويعين الصورة درجة.

الدرجة هي أبدًا كافية. المنافس لن يتوقف عن قول “افعلها مرة أخرى!” حتى يغلقها علماء البحث (عندما يقررون أن التدريب الإضافي لن ي cải thiện الإخراج بأي شكل).

بهذه الطريقة، في غياب أي نقد بناء، ومسلحًا فقط بدرجة يظل مقياسها لغزًا، يجب على المُولِّد تخمين عشوائي أي أجزاء أو جوانب من الصورة تسببت في درجة أعلى من المرة السابقة. هذا سوف يقوده إلى العديد من المسارات غير مرضية قبل أن يغير شيئًا بشكل إيجابي بما يكفي لتحقيق درجة أعلى.

المنافس كأستاذ ومرشد

الابتكار الذي قدمه البحث الجديد هو أساسًا أن المنافس يشير الآن إلى المُولِّد أي أجزاء من الصورة كانت غير مرضية، بحيث يمكن للمُولِّد التركيز على تلك المناطق في محاولته التالية، ولا يلقي بالقطع التي تم تقييمها بأعلى درجة.

为了 معالجة عدم المساواة في الرؤية بين المنافس والمُولِّد، استخدم الباحثون GradCAM كآلية قادرة على صياغة رؤى المنافس في أداة ملاحظة بصرية للمُولِّد في محاولته التالية.

طريقة التدريب الجديدة تسمى EqGAN. من أجل الحفاظ على أعلى مستوى من الإعادة الإنتاج، دمج الباحثون تقنيات وطرق موجودة مع الإعدادات الافتراضية، بما في ذلك استخدام هيكل StyleGan2.

هيكل EqGAN. يتم محاذاة التشفير المكاني للمُولِّد مع الوعي المكاني للمنافس، مع عينات عشوائية من خرائط الحرارة المكانية (انظر الصورة السابقة) مشفرة مرة أخرى في المُولِّد عبر طبقة التشفير المكاني (SEL). GradCAM هو الآلية التي يتم من خلالها جعل خرائط الانتباه للمنافس متاحة للمُولِّد.

يتم إنتاج خرائط الحرارة (انظر الصور أعلاه) التي تعكس نقد المنافس لأحدث محاولة، وتجعلها متاحة للمُولِّد.

مرة واحدة يتم تدريب النموذج، يبقى الخريطة كأثر من هذا العملية التعاونية، ولكنه يمكن أيضًا استخدامها لاستكشاف رمز الفضاء الكامن بشكل تفاعلي كما هو موضح في مقطع فيديو مشروع الباحثين (انظر أدناه).

EqGAN

استخدم المشروع عددًا من مجموعات البيانات الشهيرة، بما في ذلك مجموعات البيانات LSUN Cat و Churches، بالإضافة إلى مجموعة البيانات FFHQ. يظهر مقطع الفيديو أدناه أيضًا أمثلة على التلاعب بالوجوه والقطط باستخدام EqGAN.

تم تحجيم جميع الصور إلى 256×256 قبل تدريب EqGAN على التنفيذ الرسمي ل StyleGAN2. تم تدريب النموذج بكمية.batch من 64 على 8 وحدات معالجة الرسومات حتى يتعرض المنافس إلى أكثر من 25 مليون صورة.

بتجريب النتائج على عينات محددة مع مسافة الفريتش للانCEPTION (FID)، قام المؤلفون بتحديد مقياس يسمى مؤشر عدم التوازن (DI) – درجة التي يبقى المنافس فيها بميزة معرفية على المُولِّد، مع هدف تضييق الفجوة.

على المجموعات الثلاث التي تم تدريبها، أظهر المقياس الجديد انخفاضًا مفيدًا بعد تشفير الوعي المكاني في المُولِّد، مع تحسين التوازن أظهره كل من FID و DI.

يختم الباحثون:

‘نأمل أن يلهم هذا العمل المزيد من الأعمال لإعادة النظر في توازن GAN وتطوير طرق جديدة لتحسين جودة合成 الصور من خلال التلاعب بتوازن GAN. سنقوم أيضًا بإجراء مزيد من التحقيقات النظرية حول هذه القضية في العمل المستقبلي.’

ويستمر:

‘النتائج النوعية تظهر أن طريقةنا نجحت في إجبار المُولِّد على التركيز على مناطق محددة. تجارب على مجموعات بيانات مختلفة تؤكد أن طريقةنا تقلل من عدم التوازن في تدريب GAN وتحسن بشكل كبير من جودة合ث الصور بشكل عام. النموذج الناتج مع الوعي المكاني يسمح أيضًا بالتلاعب التفاعلي للصورة الناتجة.’

انظر مقطع الفيديو أدناه لمزيد من التفاصيل حول المشروع، وأمثلة إضافية لاستكشاف تفاعلي للفضاء الكامن في GAN.

11:12am 4th Dec 2021 – Corrected URL for GradCAM and tidied up surrounding reference.

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai

Unite.AI

المنفعة غير المقصودة لتحديد موقع الفضاء الكامن لGAN

مصير المُولِّد الحزين

الوضوح القاسي للمنافس

المنافس كأستاذ ومرشد

EqGAN

You may like