الذكاء الاصطناعي
أداة جديدة يمكنها أن تُظهر للباحثين ما الذي يُغفل عنه من الصورة بواسطة الشبكات التوليدية المعارضة

مؤخرًا، قام فريق من الباحثين من معمل MIT-IBM Watson AI بإنشاء طريقة لعرض ما يُغفل عنه الشبكة التوليدية المعارضة عند طلب توليد صور. وقد أطلق على الدراسة اسم رؤية ما لا يمكن للشبكة التوليدية المعارضة توليده، وقد تم تقديمها مؤخرًا في المؤتمر الدولي للرؤية الحاسوبية.
الشبكات التوليدية المعارضة أصبحت أكثر متانة وتنوعًا وانتشارًا في السنوات القليلة الماضية. وقد أصبحت جيدة جدًا في تقديم صور مليئة بالتفاصيل، طالما أن الصورة محصورة في منطقة صغيرة نسبيًا. ومع ذلك، عندما يتم استخدام الشبكات التوليدية المعارضة لتوليد صور لمشهد أكبر وبيئات، فإنها تميل إلى عدم الأداء جيدًا. في السيناريوهات التي يتم فيها استخدام الشبكات التوليدية المعارضة لتوليد صور لمشاهد مليئة بالكثير من الأشياء والعناصر، مثل شارع مزدحم، غالبًا ما تُغفل الشبكات التوليدية المعارضة الكثير من الجوانب المهمة للصورة.
وفقًا لMIT News، تم تطوير البحث部分ًا بواسطة ديفيد باو، طالب دراسات عليا في قسم الهندسة الكهربائية والعلوم الحاسوبية في معهد ماساتشوستس للتكنولوجيا. وأوضح باو أن الباحثين يركزون عادة على تعديم ما يتم إيلاء الانتباه إليه بواسطة أنظمة التعلم الآلي وتمييز كيف يمكن لمحددات معينة أن تُ ánh إلى مخرجات معينة. ومع ذلك، أوضح باو أيضًا أن فهم البيانات التي تُغفل بواسطة نماذج التعلم الآلي غالبًا ما يكون مهمًا بنفس القدر، وأن فريق البحث يأمل أن تُلهم أدواتهم الباحثين بالانتباه إلى البيانات المُهملة.
كان интерес باو في الشبكات التوليدية المعارضة مدفوعًا بحقيقة أنهم يمكن أن يُستخدموا لتحقيق الطبيعة السوداء للشبكات العصبية واكتساب直ورة عن كيفية عمل الشبكات. كان باو يعمل في السابق على أداة يمكنها تحديد مجموعات محددة من العصبونات الاصطناعية، وتسميتها على أنها مسؤولة عن تمثيل أشياء حقيقية مثل الكتب والغيوم والأشجار. كما كان باو لديه خبرة مع أداة تسمى GANPaint، والتي تمكن الفنانين من إزالة وإضافة ميزات محددة من الصور باستخدام الشبكات التوليدية المعارضة. وفقًا لباو، كشفت تطبيق GANPaint عن مشكلة محتملة مع الشبكات التوليدية المعارضة، مشكلة أصبحت واضحة عندما قام باو بتحليل الصور. كما قال باو لميت نيوز:
“دائمًا ما يشجعني مشرفي على النظر إلى ما وراء الأرقام وتمييز الصور الفعلية. عندما نظرنا، ظهرت الظاهرة على الفور: الناس يتم إسقاطهم بشكل انتقائي.”
في حين أن أنظمة التعلم الآلي مصممة لاستخراج الأنماط من الصور، يمكنها أيضًا أن تنتهي بهم إلى إغفال أنماط ذات صلة. قام باو وباحثون آخرون بتجربة تدريب الشبكات التوليدية المعارضة على مشاهد داخلية وخارجية مختلفة، ولكن في جميع أنواع المشاهد، تركت الشبكات التوليدية المعارضة تفاصيل مهمة في المشاهد مثل السيارات واللافتات وال人们 والدراجات، إلخ. كان هذا صحيحًا حتى عندما كانت الأشياء المُهملة مهمة للمشهد المعني.
افترض فريق البحث أن الشبكة التوليدية المعارضة، عند تدريبها على الصور، قد تجد من الأسهل التقاط أنماط الصورة التي تُسهل تمثيلها، مثل الأشياء الثابتة الكبيرة مثل المناظر الطبيعية والمباني. تتعلم هذه الأنماط على حساب أنماط أخرى أكثر صعوبة في التفسير، مثل السيارات وال人们. لقد كان من المعروف جيدًا أن الشبكات التوليدية المعارضة غالبًا ما تهمل تفاصيل مهمة ومعنوية عند توليد الصور، ولكن دراسة فريق MIT قد تكون هي المرة الأولى التي تُظهر فيها الشبكات التوليدية المعارضة تهمل فئات أشياء كاملة داخل الصورة.
يشير فريق البحث إلى أن من الممكن للشبكات التوليدية المعارضة تحقيق أهدافها الرقمية حتى عند إغفال أشياء يهتم بها البشر عند النظر إلى الصور. إذا كانت الصور التي تم توليدها بواسطة الشبكات التوليدية المعارضة ستُستخدم لتدريب أنظمة معقدة مثل المركبات ذاتية القيادة، فيجب فحص بيانات الصور بعناية لأن هناك قلقًا حقيقيًا من أن الأشياء الحيوية مثل اللافتات والأشخاص والسيارات الأخرى قد تُهمل من الصور. أوضح باو أن بحثهم يُظهر لماذا لا ينبغي أن يعتمد أداء النموذج فقط على الدقة:
“نحن بحاجة إلى فهم ما الذي تقوم به الشبكات وما لا تقوم به لضمان أنها تتخذ الخيارات التي نريد منها أن تتخذها.”












