الذكاء الاصطناعي
تحرير الكائنات بمساعدة الذكاء الاصطناعي باستخدام Imagic and Runway من Google "المسح والاستبدال"
هذا الأسبوع ، تقدم خوارزميتان جديدتان للرسومات تعتمدان على الذكاء الاصطناعي ، ولكنهما متباينتان ، طرقًا جديدة للمستخدمين النهائيين لإجراء تغييرات عالية الدقة وفعالة على الكائنات الموجودة في الصور.
الأول هو إيماجيك، من Google Research ، بالتعاون مع معهد إسرائيل للتكنولوجيا ومعهد وايزمان للعلوم. يوفر Imagic تحريرًا مكيّفًا للنصوص دقيق الحبيبات للكائنات من خلال ضبط نماذج الانتشار.
أي شخص حاول تغيير عنصر واحد فقط في إعادة تصيير Stable Diffusion سيعرف جيدًا أنه مقابل كل تعديل ناجح ، سيغير النظام خمسة أشياء أحببتها تمامًا كما كانت. إنه عيب يوجد حاليًا لدى العديد من أكثر المتحمسين الموهوبين SD الذين يتنقلون باستمرار بين Stable Diffusion و Photoshop ، لإصلاح هذا النوع من "الأضرار الجانبية". من هذا المنظور وحده ، تبدو إنجازات إيماجيك ملحوظة.
في وقت كتابة هذا التقرير ، كانت Imagic لا تزال تفتقر حتى إلى مقطع فيديو ترويجي ، ونظرًا إلى Google موقف حذر لإصدار أدوات تركيب صور غير مقيدة ، فمن غير المؤكد إلى أي مدى ، إن وجد ، سنحصل على فرصة لاختبار النظام.
العرض الثاني هو Runway ML's الذي يسهل الوصول إليه محو واستبدال منشأة ، أ ميزة جديدة في قسم "AI Magic Tools" في مجموعته الحصرية عبر الإنترنت من أدوات التأثيرات المرئية القائمة على التعلم الآلي.
دعونا نلقي نظرة على نزهة Runway أولاً.
محو واستبدال
مثل Imagic ، تتعامل Erase and Replace حصريًا مع الصور الثابتة ، على الرغم من وجود Runway معاينة نفس الوظيفة في حل تحرير النص إلى الفيديو الذي لم يتم إصداره بعد:
على الرغم من أن Runway ML لم يصدر تفاصيل عن التقنيات وراء Erase and Replace ، فإن السرعة التي يمكنك بها استبدال نبات منزلي بتمثال نصفي مقنع إلى حد معقول لرونالد ريغان تشير إلى أن نموذج الانتشار مثل Stable Diffusion (أو ، على الأرجح ، a DALL-E 2) هو المحرك الذي يعيد اختراع الكائن الذي تختاره في Erase and Replace.
يحتوي النظام على بعض قيود نوع DALL-E 2 - الصور أو النص الذي يشير إلى مرشحات المسح والاستبدال ستطلق تحذيرًا بشأن تعليق الحساب المحتمل في حالة حدوث المزيد من الانتهاكات - عمليًا نسخة معيارية من OpenAI المستمر سياسات الخصوصية والبيع لـ DALL-E 2.
تفتقر العديد من النتائج إلى الحواف الخشنة النموذجية للانتشار المستقر. مدرج ML هم من المستثمرين و شركاء البحث في SD ، ومن الممكن أن يكونوا قد دربوا نموذجًا خاصًا يتفوق على أوزان نقطة التفتيش 1.4 مفتوحة المصدر التي يصارعها الباقون حاليًا (حيث أن العديد من مجموعات التطوير الأخرى ، الهواة والمحترفين على حد سواء ، يقومون حاليًا بالتدريب أو ضبط نماذج الانتشار المستقرة).
كما هو الحال مع Imagic (انظر أدناه) ، فإن Erase and Replace هو "موجه للكائنات" ، كما كان - لا يمكنك فقط محو جزء "فارغ" من الصورة وطلائه بنتيجة موجه النص الخاص بك ؛ في هذا السيناريو ، سيقوم النظام ببساطة بتتبع أقرب كائن ظاهر على طول خط رؤية القناع (مثل جدار أو تلفزيون) ، ويطبق التحويل هناك.
من الصعب معرفة ما إذا كان Erase and Replace مراوغًا فيما يتعلق باستخدام الصور المحمية بحقوق الطبع والنشر (التي لا تزال محجوبة إلى حد كبير ، وإن كانت بنجاح متفاوت ، في DALL-E 2) ، أو ما إذا كان النموذج المستخدم في محرك عرض الواجهة الخلفية لم يتم تحسينه لهذا النوع من الأشياء.
سيكون من المثير للاهتمام معرفة الطرق التي تستخدمها Erase و Replace لعزل الكائنات التي يمكنها استبدالها. من المفترض أن الصورة يتم تشغيلها من خلال بعض اشتقاق CLIP، مع العناصر المنفصلة التي يتم تمييزها عن طريق التعرف على الكائنات والتجزئة الدلالية اللاحقة. لا تعمل أي من هذه العمليات في أي مكان قريب أيضًا في التثبيت المشترك أو في الحديقة لـ Stable Diffusion.
لكن لا شيء مثالي - في بعض الأحيان يبدو أن النظام يمحو ولا يستبدل ، حتى عندما (كما رأينا في الصورة أعلاه) ، تعرف آلية العرض الأساسية بالتأكيد ما يعنيه موجه النص. في هذه الحالة ، من المستحيل تحويل طاولة القهوة إلى xenomorph - بدلاً من ذلك ، تختفي الطاولة.
يبدو أن المسح والاستبدال هو نظام فعال لاستبدال الكائنات، مع طلاء داخلي ممتاز. ومع ذلك، لا يمكنه تحرير الكائنات المتصورة الموجودة، ولكن استبدالها فقط. يمكن القول إن تغيير محتوى الصورة الحالي دون المساس بالمواد المحيطة هو مهمة أصعب بكثير، مرتبطة بالنضال الطويل الذي يخوضه قطاع أبحاث الرؤية الحاسوبية نحو فك التشابك في المساحات الكامنة المختلفة للأطر الشعبية.
إيماجيك
إنها مهمة تخاطبها إيماجيك. ال ورقة جديدة يقدم العديد من الأمثلة على التعديلات التي نجحت في تعديل الجوانب الفردية للصورة مع ترك بقية الصورة دون تغيير.
يستخدم النظام عملية من ثلاث مراحل - تحسين تضمين النص ؛ ضبط النموذج وأخيراً ، إنشاء الصورة المعدلة.
مما لا يثير الدهشة ، أن إطار العمل يعتمد على Google صورة هندسة تحويل النص إلى فيديو ، على الرغم من أن الباحثين ذكروا أن مبادئ النظام قابلة للتطبيق على نطاق واسع على نماذج الانتشار الكامنة.
يستخدم Imagen بنية من ثلاث طبقات ، بدلاً من المصفوفة المكونة من سبع طبقات المستخدمة في الشركة الأحدث التكرار من نص إلى فيديو من البرنامج. تتألف الوحدات الثلاث المتميزة من نموذج انتشار عام يعمل بدقة 64 × 64 بكسل ؛ نموذج فائق الدقة يقوم بترقية هذا الإخراج إلى 256 × 256 بكسل ؛ ونموذج إضافي فائق الدقة لأخذ الإخراج حتى دقة 1024 × 1024.
يتدخل Imagic في المرحلة الأولى من هذه العملية ، مما يؤدي إلى تحسين تضمين النص المطلوب في مرحلة 64 بكسل على مُحسِّن آدم بمعدل تعلم ثابت قدره 0.0001.
يتم إجراء الضبط الدقيق بعد ذلك على نموذج Imagen الأساسي ، بمعدل 1500 خطوة لكل صورة إدخال ، بشرط التضمين المنقح. في الوقت نفسه ، يتم تحسين الطبقة الثانوية 64 بكسل> 256 بكسل بالتوازي على الصورة المكيفة. لاحظ الباحثون أن تحسينًا مشابهًا للطبقة النهائية 256 بكسل> 1024 بكسل له تأثير ضئيل أو معدوم على النتائج النهائية ، وبالتالي لم يتم تنفيذ ذلك.
تنص الورقة على أن عملية التحسين تستغرق حوالي ثماني دقائق لكل صورة على التوأم TPUV4 رقائق. يتم التصيير النهائي في Core Imagen تحت امتداد مخطط أخذ العينات DDIM.
مشترك مع عمليات الضبط الدقيقة المماثلة لـ Google دريم بوث، يمكن أيضًا استخدام عمليات التضمين الناتجة لتشغيل الأسلوب ، بالإضافة إلى عمليات التحرير الواقعية التي تحتوي على معلومات مستمدة من قاعدة البيانات الأساسية الأوسع التي تعمل على Imagen (نظرًا لأنه ، كما يوضح العمود الأول أدناه ، لا تحتوي الصور المصدر على أي محتوى ضروري لـ تأثير هذه التحولات).
قارن الباحثون Imagic بالأعمال السابقة SDEdit، وهو نهج قائم على GAN من عام 2021 ، وهو تعاون بين جامعة ستانفورد وجامعة كارنيجي ميلون ؛ و Text2Live، تعاون ، اعتبارًا من أبريل 2022 ، بين معهد وايزمان للعلوم و NVIDIA.
من الواضح أن الأساليب السابقة تكافح ، ولكن في الصف السفلي ، والذي يتضمن التدخل لتغيير هائل في الوضع ، يفشل شاغلو المناصب تمامًا في إعادة تكوين المادة المصدر ، مقارنة بالنجاح الملحوظ لشركة Imagic.
متطلبات موارد Imagic ووقت التدريب لكل صورة ، على الرغم من قصرها وفقًا لمعايير مثل هذه الملاحقات ، فإنها تجعلها غير محتملة في أحد تطبيقات تحرير الصور المحلية على أجهزة الكمبيوتر الشخصية - وليس من الواضح إلى أي مدى يمكن أن تكون عملية الضبط الدقيق تصغيرها إلى مستويات المستهلك.
كما هو الحال ، يعد Imagic عرضًا مثيرًا للإعجاب يناسب أكثر من واجهات برمجة التطبيقات - قد تكون بيئة أبحاث Google ، التي تنتقد النقد فيما يتعلق بتسهيل التزييف العميق ، أكثر راحة في أي حال.
نُشر لأول مرة في 18 أكتوبر 2022.