الذكاء الاصطناعي

تحرير الكائنات بمساعدة الذكاء الاصطناعي باستخدام Imagic and Runway من Google "المسح والاستبدال"

تحديث on 9 كانون الأول، 2022

هذا الأسبوع ، تقدم خوارزميتان جديدتان للرسومات تعتمدان على الذكاء الاصطناعي ، ولكنهما متباينتان ، طرقًا جديدة للمستخدمين النهائيين لإجراء تغييرات عالية الدقة وفعالة على الكائنات الموجودة في الصور.

الأول هو إيماجيك، من Google Research ، بالتعاون مع معهد إسرائيل للتكنولوجيا ومعهد وايزمان للعلوم. يوفر Imagic تحريرًا مكيّفًا للنصوص دقيق الحبيبات للكائنات من خلال ضبط نماذج الانتشار.

غيّر ما تريد ، واترك الباقي - تعد Imagic بتحرير دقيق للأجزاء التي تريد تغييرها فقط. المصدر: https://arxiv.org/pdf/2210.09276.pdf

أي شخص حاول تغيير عنصر واحد فقط في إعادة تصيير Stable Diffusion سيعرف جيدًا أنه مقابل كل تعديل ناجح ، سيغير النظام خمسة أشياء أحببتها تمامًا كما كانت. إنه عيب يوجد حاليًا لدى العديد من أكثر المتحمسين الموهوبين SD الذين يتنقلون باستمرار بين Stable Diffusion و Photoshop ، لإصلاح هذا النوع من "الأضرار الجانبية". من هذا المنظور وحده ، تبدو إنجازات إيماجيك ملحوظة.

في وقت كتابة هذا التقرير ، كانت Imagic لا تزال تفتقر حتى إلى مقطع فيديو ترويجي ، ونظرًا إلى Google موقف حذر لإصدار أدوات تركيب صور غير مقيدة ، فمن غير المؤكد إلى أي مدى ، إن وجد ، سنحصل على فرصة لاختبار النظام.

العرض الثاني هو Runway ML's الذي يسهل الوصول إليه محو واستبدال منشأة ، أ ميزة جديدة في قسم "AI Magic Tools" في مجموعته الحصرية عبر الإنترنت من أدوات التأثيرات المرئية القائمة على التعلم الآلي.

ميزة المسح والاستبدال في Runway ML ، التي شوهدت بالفعل في معاينة لنظام تحرير النص إلى الفيديو. المصدر: https://www.youtube.com/watch؟

دعونا نلقي نظرة على نزهة Runway أولاً.

محو واستبدال

مثل Imagic ، تتعامل Erase and Replace حصريًا مع الصور الثابتة ، على الرغم من وجود Runway معاينة نفس الوظيفة في حل تحرير النص إلى الفيديو الذي لم يتم إصداره بعد:

على الرغم من أنه يمكن لأي شخص اختبار ميزة "المسح والاستبدال" الجديدة على الصور ، إلا أن إصدار الفيديو غير متاح للجمهور بعد. المصدر: https://twitter.com/runwayml/status/1568220303808991232

على الرغم من أن Runway ML لم يصدر تفاصيل عن التقنيات وراء Erase and Replace ، فإن السرعة التي يمكنك بها استبدال نبات منزلي بتمثال نصفي مقنع إلى حد معقول لرونالد ريغان تشير إلى أن نموذج الانتشار مثل Stable Diffusion (أو ، على الأرجح ، a DALL-E 2) هو المحرك الذي يعيد اختراع الكائن الذي تختاره في Erase and Replace.

إن استبدال نبات منزلي بتمثال نصفي لـ The Gipper ليس بالسرعة نفسها ، لكنه سريع جدًا. المصدر: https://app.runwayml.com/

يحتوي النظام على بعض قيود نوع DALL-E 2 - الصور أو النص الذي يشير إلى مرشحات المسح والاستبدال ستطلق تحذيرًا بشأن تعليق الحساب المحتمل في حالة حدوث المزيد من الانتهاكات - عمليًا نسخة معيارية من OpenAI المستمر سياسات الخصوصية والبيع لـ DALL-E 2.

تفتقر العديد من النتائج إلى الحواف الخشنة النموذجية للانتشار المستقر. مدرج ML هم من المستثمرين و شركاء البحث في SD ، ومن الممكن أن يكونوا قد دربوا نموذجًا خاصًا يتفوق على أوزان نقطة التفتيش 1.4 مفتوحة المصدر التي يصارعها الباقون حاليًا (حيث أن العديد من مجموعات التطوير الأخرى ، الهواة والمحترفين على حد سواء ، يقومون حاليًا بالتدريب أو ضبط نماذج الانتشار المستقرة).

استبدال طاولة محلية بـ "طاولة مصنوعة من الجليد" في Runway ML's Erase and Replace.

كما هو الحال مع Imagic (انظر أدناه) ، فإن Erase and Replace هو "موجه للكائنات" ، كما كان - لا يمكنك فقط محو جزء "فارغ" من الصورة وطلائه بنتيجة موجه النص الخاص بك ؛ في هذا السيناريو ، سيقوم النظام ببساطة بتتبع أقرب كائن ظاهر على طول خط رؤية القناع (مثل جدار أو تلفزيون) ، ويطبق التحويل هناك.

كما يشير الاسم ، لا يمكنك حقن الكائنات في مساحة فارغة في Erase and Replace. هنا ، ينتج عن محاولة استدعاء أشهر أسياد السيث لوحة جدارية غريبة ذات صلة بـ Vader على التلفزيون ، حيث تم رسم منطقة "الاستبدال" تقريبًا.

من الصعب معرفة ما إذا كان Erase and Replace مراوغًا فيما يتعلق باستخدام الصور المحمية بحقوق الطبع والنشر (التي لا تزال محجوبة إلى حد كبير ، وإن كانت بنجاح متفاوت ، في DALL-E 2) ، أو ما إذا كان النموذج المستخدم في محرك عرض الواجهة الخلفية لم يتم تحسينه لهذا النوع من الأشياء.

تشير لوحة NSFW `` جدارية نيكول كيدمان '' إلى أن النموذج القائم على الانتشار (المفترض) في متناول اليد يفتقر إلى الرفض المنهجي السابق لـ DALL-E 2 لتقديم وجوه واقعية أو محتوى مفعم بالحيوية ، في حين أن نتائج محاولات إثبات الأعمال المحمية بحقوق الطبع والنشر تتراوح من الغموض ("xenomorph") إلى العبث ("العرش الحديدي"). أقحم أسفل اليمين ، الصورة المصدر.

سيكون من المثير للاهتمام معرفة الطرق التي تستخدمها Erase و Replace لعزل الكائنات التي يمكنها استبدالها. من المفترض أن الصورة يتم تشغيلها من خلال بعض اشتقاق CLIP، مع العناصر المنفصلة التي يتم تمييزها عن طريق التعرف على الكائنات والتجزئة الدلالية اللاحقة. لا تعمل أي من هذه العمليات في أي مكان قريب أيضًا في التثبيت المشترك أو في الحديقة لـ Stable Diffusion.

لكن لا شيء مثالي - في بعض الأحيان يبدو أن النظام يمحو ولا يستبدل ، حتى عندما (كما رأينا في الصورة أعلاه) ، تعرف آلية العرض الأساسية بالتأكيد ما يعنيه موجه النص. في هذه الحالة ، من المستحيل تحويل طاولة القهوة إلى xenomorph - بدلاً من ذلك ، تختفي الطاولة.

تكرار مرعب لـ "Where's Waldo" ، حيث يفشل Erase and Replace في إنتاج كائن فضائي.

يبدو أن المسح والاستبدال هو نظام فعال لاستبدال الكائنات، مع طلاء داخلي ممتاز. ومع ذلك، لا يمكنه تحرير الكائنات المتصورة الموجودة، ولكن استبدالها فقط. يمكن القول إن تغيير محتوى الصورة الحالي دون المساس بالمواد المحيطة هو مهمة أصعب بكثير، مرتبطة بالنضال الطويل الذي يخوضه قطاع أبحاث الرؤية الحاسوبية نحو فك التشابك في المساحات الكامنة المختلفة للأطر الشعبية.

إيماجيك

إنها مهمة تخاطبها إيماجيك. ال ورقة جديدة يقدم العديد من الأمثلة على التعديلات التي نجحت في تعديل الجوانب الفردية للصورة مع ترك بقية الصورة دون تغيير.

في Imagic ، لا تعاني الصور المعدلة من خاصية التمدد والتشويه و'تخمين الانسداد 'المميزة لعرائس التزييف العميق ، والتي تستخدم مقدمات محدودة مشتقة من صورة واحدة.

يستخدم النظام عملية من ثلاث مراحل - تحسين تضمين النص ؛ ضبط النموذج وأخيراً ، إنشاء الصورة المعدلة.

يقوم Imagic بترميز موجه النص الهدف لاسترداد تضمين النص الأولي ، ثم تحسين النتيجة للحصول على صورة الإدخال. بعد ذلك ، يتم ضبط النموذج التوليدي على الصورة المصدر ، مع إضافة مجموعة من المعلمات ، قبل تعريضه للاستيفاء المطلوب.

مما لا يثير الدهشة ، أن إطار العمل يعتمد على Google صورة هندسة تحويل النص إلى فيديو ، على الرغم من أن الباحثين ذكروا أن مبادئ النظام قابلة للتطبيق على نطاق واسع على نماذج الانتشار الكامنة.

يستخدم Imagen بنية من ثلاث طبقات ، بدلاً من المصفوفة المكونة من سبع طبقات المستخدمة في الشركة الأحدث التكرار من نص إلى فيديو من البرنامج. تتألف الوحدات الثلاث المتميزة من نموذج انتشار عام يعمل بدقة 64 × 64 بكسل ؛ نموذج فائق الدقة يقوم بترقية هذا الإخراج إلى 256 × 256 بكسل ؛ ونموذج إضافي فائق الدقة لأخذ الإخراج حتى دقة 1024 × 1024.

يتدخل Imagic في المرحلة الأولى من هذه العملية ، مما يؤدي إلى تحسين تضمين النص المطلوب في مرحلة 64 بكسل على مُحسِّن آدم بمعدل تعلم ثابت قدره 0.0001.

فئة رئيسية في فك التشابك: هؤلاء المستخدمون النهائيون الذين حاولوا تغيير شيء بسيط مثل لون كائن تم عرضه في نموذج انتشار أو GAN أو NeRF سيعرفون مدى أهمية قدرة Imagic على إجراء مثل هذه التحولات دون "تمزيق" اتساق بقية الصورة.

يتم إجراء الضبط الدقيق بعد ذلك على نموذج Imagen الأساسي ، بمعدل 1500 خطوة لكل صورة إدخال ، بشرط التضمين المنقح. في الوقت نفسه ، يتم تحسين الطبقة الثانوية 64 بكسل> 256 بكسل بالتوازي على الصورة المكيفة. لاحظ الباحثون أن تحسينًا مشابهًا للطبقة النهائية 256 بكسل> 1024 بكسل له تأثير ضئيل أو معدوم على النتائج النهائية ، وبالتالي لم يتم تنفيذ ذلك.

تنص الورقة على أن عملية التحسين تستغرق حوالي ثماني دقائق لكل صورة على التوأم TPUV4 رقائق. يتم التصيير النهائي في Core Imagen تحت امتداد مخطط أخذ العينات DDIM.

مشترك مع عمليات الضبط الدقيقة المماثلة لـ Google دريم بوث، يمكن أيضًا استخدام عمليات التضمين الناتجة لتشغيل الأسلوب ، بالإضافة إلى عمليات التحرير الواقعية التي تحتوي على معلومات مستمدة من قاعدة البيانات الأساسية الأوسع التي تعمل على Imagen (نظرًا لأنه ، كما يوضح العمود الأول أدناه ، لا تحتوي الصور المصدر على أي محتوى ضروري لـ تأثير هذه التحولات).

يمكن استنباط حركة وتحرير الصور المرنة عبر Imagic ، بينما يمكن بسهولة استخدام الرموز المشتقة وغير المتشابكة التي تم الحصول عليها في العملية للإخراج المنمق.

قارن الباحثون Imagic بالأعمال السابقة SDEdit، وهو نهج قائم على GAN من عام 2021 ، وهو تعاون بين جامعة ستانفورد وجامعة كارنيجي ميلون ؛ و Text2Live، تعاون ، اعتبارًا من أبريل 2022 ، بين معهد وايزمان للعلوم و NVIDIA.

مقارنة مرئية بين Imagic و SDEdit و Text2Live.

من الواضح أن الأساليب السابقة تكافح ، ولكن في الصف السفلي ، والذي يتضمن التدخل لتغيير هائل في الوضع ، يفشل شاغلو المناصب تمامًا في إعادة تكوين المادة المصدر ، مقارنة بالنجاح الملحوظ لشركة Imagic.

متطلبات موارد Imagic ووقت التدريب لكل صورة ، على الرغم من قصرها وفقًا لمعايير مثل هذه الملاحقات ، فإنها تجعلها غير محتملة في أحد تطبيقات تحرير الصور المحلية على أجهزة الكمبيوتر الشخصية - وليس من الواضح إلى أي مدى يمكن أن تكون عملية الضبط الدقيق تصغيرها إلى مستويات المستهلك.

كما هو الحال ، يعد Imagic عرضًا مثيرًا للإعجاب يناسب أكثر من واجهات برمجة التطبيقات - قد تكون بيئة أبحاث Google ، التي تنتقد النقد فيما يتعلق بتسهيل التزييف العميق ، أكثر راحة في أي حال.

نُشر لأول مرة في 18 أكتوبر 2022.

مواضيع ذات صلة:جوجل تركيب الصورة NVIDIA بحث

حل DALL-E 2 الفريد للمعاني المزدوجة

لا تفوت

GOTCHA- نظام CAPTCHA لتزييف عميق مباشر

مارتن أندرسون

كاتب في التعلم الآلي والذكاء الاصطناعي والبيانات الضخمة.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai

اتحدوا

تحرير الكائنات بمساعدة الذكاء الاصطناعي باستخدام Imagic and Runway من Google "المسح والاستبدال"

الذكاء الاصطناعي

تحرير الكائنات بمساعدة الذكاء الاصطناعي باستخدام Imagic and Runway من Google "المسح والاستبدال"

جدول المحتويات

محو واستبدال

إيماجيك

احدث المقالات

اتحدوا

تحرير الكائنات بمساعدة الذكاء الاصطناعي باستخدام Imagic and Runway من Google "المسح والاستبدال"

جدول المحتويات

محو واستبدال

إيماجيك

قد يعجبك

احدث المقالات