الذكاء الاصطناعي
تحرير الكائنات بمساعدة الذكاء الاصطناعي باستخدام Imagic and Runway من Google "المسح والاستبدال"

هذا الأسبوع ، تقدم خوارزميتان جديدتان للرسومات تعتمدان على الذكاء الاصطناعي ، ولكنهما متباينتان ، طرقًا جديدة للمستخدمين النهائيين لإجراء تغييرات عالية الدقة وفعالة على الكائنات الموجودة في الصور.
الأول هو إيماجيكمن جوجل للأبحاث، بالتعاون مع معهد إسرائيل للتكنولوجيا ومعهد وايزمان للعلوم. تقدم Imagic تحريرًا دقيقًا للأشياء بنصوص مُكيّفة عبر الضبط الدقيق لنماذج الانتشار.

غيّر ما تريد ، واترك الباقي - تعد Imagic بتحرير دقيق للأجزاء التي تريد تغييرها فقط. المصدر: https://arxiv.org/pdf/2210.09276.pdf
أي شخص حاول تغيير عنصر واحد فقط في إعادة عرض Stable Diffusion سيعلم جيدًا أنه مقابل كل تعديل ناجح، سيُغيّر النظام خمسة عناصر أعجبتك كما هي. هذا عيبٌ يدفع حاليًا العديد من أكثر مُحبي SD موهبةً إلى التنقل باستمرار بين Stable Diffusion وPhotoshop، لإصلاح هذا النوع من "الأضرار الجانبية". من هذا المنطلق، تبدو إنجازات Imagic جديرة بالملاحظة.
في وقت كتابة هذا التقرير، لا تزال شركة Imagic تفتقر إلى مقطع فيديو ترويجي، ونظرًا لسياسة Google موقف حذر مع اقتراب موعد إصدار أدوات تركيب الصور غير المقيدة، فمن غير المؤكد إلى أي مدى، إن وجدت، سنحصل على فرصة لاختبار النظام.
العرض الثاني هو Runway ML الذي يمكن الوصول إليه بسهولة محو واستبدال منشأة ، أ ميزة جديدة في قسم "أدوات السحر الذكية" ضمن مجموعة أدوات التأثيرات المرئية المستندة إلى التعلم الآلي المتوفرة حصريًا عبر الإنترنت.

ميزة المسح والاستبدال في Runway ML، والتي شوهدت بالفعل في معاينة لنظام تحرير النصوص إلى الفيديو. المصدر: https://www.youtube.com/watch؟
دعونا نلقي نظرة على نزهة Runway أولاً.
محو واستبدال
مثل Imagic ، تتعامل Erase and Replace حصريًا مع الصور الثابتة ، على الرغم من وجود Runway معاينة الوظيفة نفسها في حل تحرير النص إلى الفيديو الذي لم يتم إصداره بعد:

على الرغم من أنه يمكن لأي شخص اختبار ميزة "المسح والاستبدال" الجديدة على الصور ، إلا أن إصدار الفيديو غير متاح للجمهور بعد. المصدر: https://twitter.com/runwayml/status/1568220303808991232
على الرغم من أن Runway ML لم يصدر تفاصيل التقنيات وراء Erase and Replace، فإن السرعة التي يمكنك بها استبدال نبات منزلي بتمثال نصفي مقنع إلى حد معقول لرونالد ريجان تشير إلى أن نموذج الانتشار مثل Stable Diffusion (أو، وهو أمر أقل احتمالاً، DALL-E 2 المرخص) هو المحرك الذي يعيد اختراع الكائن الذي تختاره في Erase and Replace.

إن استبدال نبات منزلي بتمثال نصفي لجيبر ليس بالسرعة نفسها، لكنه سريع جدًا. المصدر: https://app.runwayml.com/
يحتوي النظام على بعض القيود من نوع DALL-E 2 - الصور أو النصوص التي تشير إلى مرشحات المسح والاستبدال ستؤدي إلى إطلاق تحذير بشأن تعليق الحساب المحتمل في حالة حدوث المزيد من المخالفات - وهو في الواقع استنساخ نمطي لبرنامج OpenAI الجاري سياسات الخصوصية والبيع لـ DALL-E 2.
تفتقر العديد من النتائج إلى الحواف الخشنة النموذجية للانتشار المستقر. مدرج ML هم من المستثمرين و شركاء البحث في SD، ومن الممكن أنهم قاموا بتدريب نموذج خاص متفوق على أوزان نقاط التفتيش 1.4 مفتوحة المصدر التي يتصارع معها بقيتنا حاليًا (كما تقوم العديد من مجموعات التطوير الأخرى، الهواة والمحترفين على حد سواء، حاليًا بتدريب أو ضبط نماذج الانتشار المستقر).

استبدال طاولة منزلية بـ "طاولة مصنوعة من الجليد" في Erase and Replace في Runway ML.
كما هو الحال مع Imagic (انظر أدناه)، فإن Erase and Replace هو "موجه نحو الكائنات"، كما هو الحال - لا يمكنك فقط مسح جزء "فارغ" من الصورة ورسمه باستخدام نتيجة مطالبة النص الخاصة بك؛ في هذا السيناريو، سوف يتتبع النظام ببساطة أقرب كائن واضح على طول خط رؤية القناع (مثل جدار، أو تلفزيون)، وتطبيق التحويل هناك.

كما يشير الاسم، لا يُمكنك إدخال كائنات في مساحة فارغة في وضع "المسح والاستبدال". هنا، تُؤدي محاولة استدعاء أشهر أمراء السيث إلى رسم جداري غريب مُتعلق بڤيدر على شاشة التلفزيون، يُشبه تقريبًا مكان رسم منطقة "الاستبدال".
من الصعب معرفة ما إذا كان Erase and Replace مراوغًا فيما يتعلق باستخدام الصور المحمية بحقوق الطبع والنشر (التي لا تزال محجوبة إلى حد كبير ، وإن كانت بنجاح متفاوت ، في DALL-E 2) ، أو ما إذا كان النموذج المستخدم في محرك عرض الواجهة الخلفية لم يتم تحسينه لهذا النوع من الأشياء.

تشير "جدارية نيكول كيدمان" غير المناسبة للعمل إلى أن نموذج الانتشار المستخدم (على الأرجح) يفتقر إلى الرفض المنهجي السابق لـ DALL-E 2 لعرض وجوه واقعية أو محتوى فاحش، بينما تتراوح نتائج محاولات عرض أعمال محمية بحقوق الطبع والنشر بين الغامض ("زينومورف") والعبثي ("العرش الحديدي"). الصورة المصدرية في أسفل اليمين.
سيكون من المثير للاهتمام معرفة الطرق التي تستخدمها Erase و Replace لعزل الكائنات التي يمكنها استبدالها. من المفترض أن الصورة يتم تشغيلها من خلال بعض اشتقاق CLIP، مع العناصر المنفصلة التي يتم تمييزها عن طريق التعرف على الكائنات والتجزئة الدلالية اللاحقة. لا تعمل أي من هذه العمليات في أي مكان قريب أيضًا في التثبيت المشترك أو في الحديقة لـ Stable Diffusion.
لكن لا شيء مثالي - أحيانًا يبدو أن النظام يمحو ولا يستبدل، حتى عندما (كما رأينا في الصورة أعلاه)، تعرف آلية العرض الأساسية معنى مطالبة النص. في هذه الحالة، يتبين استحالة تحويل طاولة قهوة إلى كائن زينومورف - بل تختفي الطاولة ببساطة.

نسخة أكثر رعباً من "أين والدو"، حيث فشلت عملية المسح والاستبدال في إنتاج كائن فضائي.
يبدو أن نظام المسح والاستبدال نظام فعال لاستبدال الكائنات، مع إمكانية تلوين ممتازة. ومع ذلك، لا يمكنه تعديل الكائنات المُدركة الموجودة، بل استبدالها فقط. يُعدّ تعديل محتوى الصورة الحالي دون المساس بالمادة المحيطة مهمةً أصعب بكثير، نظرًا للنضال الطويل الذي يخوضه قطاع أبحاث الرؤية الحاسوبية. فك التشابك في المساحات الكامنة المختلفة للأطر الشعبية.
إيماجيك
إنها مهمة تعالجها شركة Imagic. ورقة جديدة يقدم العديد من الأمثلة على التعديلات التي نجحت في تعديل الجوانب الفردية للصورة مع ترك بقية الصورة دون تغيير.

في Imagic، لا تعاني الصور المعدلة من التمدد والتشويه و"تخمين الانسداد" المميز لدمى التزييف العميق، والتي تستخدم مسبقات محدودة مستمدة من صورة واحدة.
يستخدم النظام عملية من ثلاث مراحل - تحسين تضمين النص ؛ ضبط النموذج وأخيراً ، إنشاء الصورة المعدلة.

يقوم Imagic بترميز موجه النص الهدف لاسترداد تضمين النص الأولي ، ثم تحسين النتيجة للحصول على صورة الإدخال. بعد ذلك ، يتم ضبط النموذج التوليدي على الصورة المصدر ، مع إضافة مجموعة من المعلمات ، قبل تعريضه للاستيفاء المطلوب.
ومن غير المستغرب أن يعتمد الإطار على Google صورة هندسة تحويل النص إلى فيديو، على الرغم من أن الباحثين يصرحون بأن مبادئ النظام قابلة للتطبيق على نطاق واسع في نماذج الانتشار الكامن.
يستخدم Imagen بنية من ثلاث طبقات ، بدلاً من المصفوفة المكونة من سبع طبقات المستخدمة في الشركة الأحدث التكرار من نص إلى فيديو من البرنامج. تتألف الوحدات الثلاث المتميزة من نموذج انتشار عام يعمل بدقة 64 × 64 بكسل ؛ نموذج فائق الدقة يقوم بترقية هذا الإخراج إلى 256 × 256 بكسل ؛ ونموذج إضافي فائق الدقة لأخذ الإخراج حتى دقة 1024 × 1024.
يتدخل Imagic في المرحلة الأولى من هذه العملية ، مما يؤدي إلى تحسين تضمين النص المطلوب في مرحلة 64 بكسل على مُحسِّن آدم بمعدل تعلم ثابت قدره 0.0001.

دورة تدريبية متقدمة في فك التشابك: سيعرف المستخدمون النهائيون الذين حاولوا تغيير شيء بسيط مثل لون كائن مُقدم في نموذج الانتشار أو GAN أو NeRF مدى أهمية قدرة Imagic على إجراء مثل هذه التحولات دون "تمزيق" اتساق بقية الصورة.
بعد ذلك، يُجرى الضبط الدقيق على نموذج Imagen الأساسي، بمعدل 1500 خطوة لكل صورة مُدخلة، مُشروطًا بالتضمين المُعدّل. في الوقت نفسه، تُحسَّن الطبقة الثانوية (64 بكسل>256 بكسل) بالتوازي مع الصورة المُعدّلة. ويشير الباحثون إلى أن تحسينًا مُماثلًا للطبقة النهائية (256 بكسل>1024 بكسل) "له تأثير ضئيل أو معدوم" على النتائج النهائية، ولذلك لم يُطبّقوه.
تنص الورقة على أن عملية التحسين تستغرق حوالي ثماني دقائق لكل صورة على التوأم TPUV4 رقائق. يتم التصيير النهائي في Core Imagen تحت امتداد مخطط أخذ العينات DDIM.
على غرار عمليات الضبط الدقيق المماثلة لـ Google دريم بوث، يمكن أيضًا استخدام عمليات التضمين الناتجة لتشغيل الأسلوب ، بالإضافة إلى عمليات التحرير الواقعية التي تحتوي على معلومات مستمدة من قاعدة البيانات الأساسية الأوسع التي تعمل على Imagen (نظرًا لأنه ، كما يوضح العمود الأول أدناه ، لا تحتوي الصور المصدر على أي محتوى ضروري لـ تأثير هذه التحولات).

يمكن استنباط حركة وتحرير الصور المرنة عبر Imagic ، بينما يمكن بسهولة استخدام الرموز المشتقة وغير المتشابكة التي تم الحصول عليها في العملية للإخراج المنمق.
قارن الباحثون Imagic بالأعمال السابقة SDEdit، وهو نهج قائم على GAN من عام 2021 ، وهو تعاون بين جامعة ستانفورد وجامعة كارنيجي ميلون ؛ و Text2Live، تعاون ، اعتبارًا من أبريل 2022 ، بين معهد وايزمان للعلوم و NVIDIA.

مقارنة مرئية بين Imagic و SDEdit و Text2Live.
من الواضح أن الأساليب السابقة تواجه صعوبات، ولكن في الصف السفلي، والذي يتضمن إدخال تغيير كبير في الوضعية، يفشل القائمون على الأمر تمامًا في إعادة تشكيل المادة المصدر، مقارنة بالنجاح الملحوظ الذي حققته شركة Imagic.
إن متطلبات الموارد الخاصة ببرنامج Imagic ووقت التدريب لكل صورة، على الرغم من قصرها وفقًا لمعايير مثل هذه المساعي، تجعل من غير المحتمل إدراجها في تطبيق تحرير الصور المحلي على أجهزة الكمبيوتر الشخصية - وليس من الواضح إلى أي مدى يمكن تقليص عملية الضبط الدقيق إلى مستويات المستهلك.
في الوضع الحالي، يعد Imagic عرضًا مثيرًا للإعجاب يناسب واجهات برمجة التطبيقات بشكل أكبر - وهي البيئة التي قد تكون Google Research، التي تخشى الانتقادات فيما يتعلق بتسهيل التزييف العميق، أكثر راحة معها على أي حال.
نُشر لأول مرة في 18 أكتوبر 2022.










