رطم UniTune: تقنية Google البديلة لتحرير الصور العصبية - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

UniTune: تقنية Google البديلة لتحرير الصور العصبية

mm
تحديث on

يبدو أن Google Research يهاجم تحرير الصور المستند إلى النص من عدد من الجبهات ، ويفترض أنه ينتظر ليرى ما "يأخذ". حار على أثر إصدار هذا الأسبوع من ورق الصور، اقترح عملاق البحث طريقة إضافية قائمة على الانتشار الكامن لإجراء عمليات تحرير مستحيلة تعتمد على الذكاء الاصطناعي على الصور عبر أوامر نصية ، تسمى هذه المرة يونيتون.

بناءً على الأمثلة الواردة في المشروع ورقة جديدة، حققت UniTune درجة غير عادية من فك التشابك الوضع والفكرة الدلالية من محتوى الصورة الثابت الفعلي:

إن قيادة UniTune للتكوين الدلالي رائعة. لاحظ كيف أنه في الصف العلوي من الصور ، لم يتم تشويه وجوه الشخصين بالتحول غير العادي في بقية الصورة المصدر (على اليمين). المصدر: https://arxiv.org/pdf/2210.09477.pdf

إن قيادة UniTune للتكوين الدلالي رائعة. لاحظ كيف أنه في الصف العلوي من الصور ، لم يتم تشويه وجوه الشخصين بالتحول غير العادي في بقية الصورة المصدر (على اليمين). المصدر: https://arxiv.org/pdf/2210.09477.pdf

نظرًا لأن عشاق Stable Diffusion قد تعلموا الآن ، فإن تطبيق التعديلات على أقسام جزئية من الصورة دون تغيير بقية الصورة بشكل عكسي قد يكون عملية صعبة ، وأحيانًا مستحيلة. على الرغم من التوزيعات الشعبية مثل آلي 1111 يمكنه إنشاء أقنعة لعمليات التحرير المحلية والمقيدة ، فالعملية معقدة وغير متوقعة في كثير من الأحيان.

الإجابة الواضحة، على الأقل بالنسبة لممارس رؤية الكمبيوتر، هي إدخال طبقة من التجزئة الدلالي هذا قادر على التعرف على الأشياء وعزلها في صورة ما دون تدخل المستخدم ، وفي الواقع ، كانت هناك العديد من المبادرات الجديدة مؤخرًا على طول هذا الخط الفكري.

آخر إمكانية من أجل إغلاق عمليات تحرير الصور العصبية الفوضوية والمتشابكة ، فإن ذلك يستفيد من التدريب المسبق على الصورة المتباينة لـ OpenAI (CLIP) الوحدة النمطية ، التي تقع في قلب نماذج الانتشار الكامنة مثل DALL-E 2 و Stable Diffusion ، لتعمل كمرشح في النقطة التي يكون فيها نموذج تحويل النص إلى صورة جاهزًا لإرسال عرض مترجم إلى المستخدم . في هذا السياق ، يجب أن تعمل CLIP كوحدة مراقبة ومراقبة الجودة ، ترفض العروض المشوهة أو غير المناسبة بأي شكل آخر. هذا هو على وشك التأسيس (رابط Discord) في بوابة Stability.ai's DreamStudio API المدفوعة.

ومع ذلك ، نظرًا لأن CLIP يمكن القول إنه الجاني والحل في مثل هذا السيناريو (لأنه أبلغ أيضًا بشكل أساسي بالطريقة التي تم بها تطوير الصورة) ، وبما أن متطلبات الأجهزة قد تتجاوز ما يحتمل أن يكون متاحًا محليًا للمستخدم النهائي ، قد لا يكون هذا النهج مثاليًا.

لغة مضغوطة

بدلاً من ذلك ، تعمل UniTune المقترحة على `` ضبط '' نموذج الانتشار الحالي - في هذه الحالة ، Imagen الخاص بشركة Google ، على الرغم من أن الباحثين ذكروا أن الطريقة متوافقة مع بنيات الانتشار الكامنة الأخرى - بحيث يتم حقن رمز مميز فيه يمكن استدعاؤه من خلال تضمينه في موجه نص.

في ظاهر الأمر ، يبدو هذا مثل Google دريم بوث، حاليًا هاجس بين محبي ومطوري Stable Diffusion ، الذين يمكنهم حقن شخصيات أو كائنات جديدة في نقطة تفتيش موجودة ، غالبًا في أقل من ساعة ، بناءً على مجرد حفنة من صور المصدر ؛ أو مثل انعكاس نصي، والتي تنشئ ملفات "جانبية" لنقطة تفتيش ، والتي يتم التعامل معها بعد ذلك كما لو تم تدريبها في الأصل على النموذج ، ويمكنها الاستفادة من الموارد الهائلة للنموذج عن طريق تعديل مصنف النص الخاص به ، مما ينتج عنه ملف صغير (مقارنةً بـ الحد الأدنى 2 جيجا بايت من نقاط التفتيش المشذبة من DreamBooth).

في الواقع ، أكد الباحثون أن UniTune رفضت كلا النهجين. وجدوا أن Textual Inversion أغفل الكثير من التفاصيل المهمة ، بينما DreamBooth "كان أداؤه أسوأ واستغرق وقتًا أطول" من الحل الذي استقروا عليه أخيرًا.

ومع ذلك ، تستخدم UniTune نفس نهج "metaprompt" الدلالي المغلف مثل DreamBooth ، مع التغييرات المدربة التي يتم استدعاؤها بواسطة الكلمات الفريدة التي اختارها المدرب ، والتي لن تتعارض مع أي مصطلحات موجودة حاليًا في نموذج إصدار عام مدرب بشق الأنفس.

"لإجراء عملية التحرير ، قمنا بتجربة النماذج الدقيقة باستخدام الموجه" [نادر_التوكن] محرر_المقياس "(على سبيل المثال ،" كلبان بيكبيك في مطعم "أو" بيكبيك أ مينيون ").

عملية التصديق

على الرغم من أنه من المحير سبب وصول ورقتين متطابقتين تقريبًا ، من حيث وظائفهما النهائية ، من Google في نفس الأسبوع ، إلا أنه على الرغم من وجود عدد كبير من أوجه التشابه بين المبادرتين ، هناك اختلاف واضح واحد على الأقل بين UniTune و Imagic - يستخدم الأخير مطالبات لغة طبيعية "غير مضغوطة" لتوجيه عمليات تحرير الصور ، بينما يتدرب UniTune في رموز نمط DreamBooth الفريدة.

لذلك ، إذا كنت تقوم بالتعديل باستخدام Imagic وكنت ترغب في إحداث تحول من هذا النوع ...

من ورقة UniTune - يضع UniTune نفسه في مواجهة إطار التحرير العصبي المنافس المفضل لـ Google ، SDEdit. تظهر نتائج UniTune في أقصى اليمين ، بينما يظهر القناع المقدر في الصورة الثانية من اليسار.

من ورقة UniTune - يضع UniTune نفسه في مواجهة إطار التحرير العصبي المنافس المفضل لـ Google ، SDEdit. تظهر نتائج UniTune في أقصى اليمين ، بينما يظهر القناع المقدر في الصورة الثانية من اليسار.

.. في Imagic ، كنت تدخل "الشخص الثالث ، جالس في الخلفية ، كوحش فروي لطيف".

سيكون الأمر المكافئ UniTune "رجل في الخلف مثل [x]"، حيث x هي أي كلمة غريبة وفريدة من نوعها كانت مرتبطة بالمفهوم الجيد التدريب المرتبط بشخصية الوحش الفروي.

في حين يتم إدخال عدد من الصور إما في DreamBooth أو Textual Inversion بهدف إنشاء تجريد بنمط deepfake يمكن التحكم فيه في العديد من الأوضاع ، يقوم كل من UniTune و Imagic بدلاً من ذلك بإدخال صورة واحدة في النظام - الصورة الأصلية الأصلية.

هذا مشابه للطريقة التي عملت بها العديد من أدوات التحرير المستندة إلى GAN في السنوات القليلة الماضية - عن طريق تحويل صورة إدخال إلى رموز كامنة في مساحة GAN الكامنة ثم معالجة هذه الرموز وإرسالها إلى أجزاء أخرى من الكامنة مساحة للتعديل (أي إدخال صورة شاب ذو شعر داكن وعرضها من خلال الرموز الكامنة المرتبطة بكلمة "كبير" أو "أشقر" ، إلخ.).

ومع ذلك ، فإن النتائج ، في نموذج الانتشار ، وبهذه الطريقة ، دقيقة للغاية بالمقارنة ، وأقل غموضًا بكثير:

عملية الضبط الدقيق

ترسل طريقة UniTune الصورة الأصلية بشكل أساسي من خلال نموذج انتشار مع مجموعة من الإرشادات حول كيفية تعديلها ، باستخدام المستودعات الضخمة للبيانات المتاحة التي تم تدريبها في النموذج. في الواقع ، يمكنك القيام بذلك الآن باستخدام Stable Diffusion's img2img الوظيفة - ولكن ليس بدون تشويه أو تغيير أجزاء الصورة التي تفضل الاحتفاظ بها بطريقة ما.

أثناء عملية UniTune ، يكون النظام ضبط دقيقد ، وهو ما يعني أن UniTune يجبر النموذج على استئناف التدريب ، مع إلغاء تجميد معظم طبقاته (انظر أدناه). في معظم الحالات ، سيؤدي الضبط الدقيق إلى خفض إجمالي جنرال لواء قيم الخسارة لنموذج عالي الأداء تم الحصول عليه بشق الأنفس لصالح حقن أو تنقية بعض الجوانب الأخرى المطلوب إنشاؤها أو تحسينها.

ومع ذلك ، مع UniTune ، يبدو أن نسخة النموذج التي تم العمل عليها ، على الرغم من أنها قد تزن عدة غيغابايت أو أكثر ، سيتم التعامل معها على أنها "قشرة" جانبية يمكن التخلص منها ، ويتم التخلص منها في نهاية العملية ، بعد أن خدمت هدفًا واحدًا. أصبح هذا النوع من البيانات غير الرسمية يمثل أزمة تخزين يومية لمحبي DreamBooth ، الذين لا تقل طرزهم ، حتى عند تقليمها ، عن 2 غيغابايت لكل موضوع.

كما هو الحال مع Imagic ، يحدث الضبط الرئيسي في UniTune في الطبقتين السفليتين من الطبقات الثلاث في Imagen (القاعدة 64 بكسل ، 64 بكسل> 256 بكسل ، 256 بكسل> 1024 بكسل). على عكس Imagic ، يرى الباحثون بعض القيمة المحتملة في تحسين الضبط أيضًا لهذه الطبقة الأخيرة والأكبر ذات الدقة الفائقة (على الرغم من أنهم لم يحاولوا ذلك بعد).

بالنسبة إلى أدنى طبقة 64 بكسل ، يكون النموذج منحازًا نحو الصورة الأساسية أثناء التدريب ، مع تغذية أزواج مكررة متعددة من الصورة / النص في النظام لـ 128 تكرارًا بحجم دفعة 4 ، ومع ادافاكتور كدالة خسارة ، تعمل بمعدل تعلم 0.0001. رغم ذلك جهاز تشفير T5 يتم تجميده وحده أثناء هذا الضبط الدقيق ، كما يتم تجميده أثناء التدريب الأساسي لـ Imagen

يتم بعد ذلك تكرار العملية المذكورة أعلاه لطبقة 64> 256 بكسل ، باستخدام نفس إجراء زيادة الضوضاء المستخدم في التدريب الأصلي لـ Imagen.

أخذ العينات

هناك العديد من طرق أخذ العينات الممكنة التي يمكن من خلالها استنباط التغييرات التي تم إجراؤها من النموذج الدقيق ، بما في ذلك التوجيه الحر للمصنف (CFG) ، وهو أيضًا دعامة أساسية للانتشار المستقر. يحدد CFG بشكل أساسي مدى حرية النموذج في `` متابعة خياله '' واستكشاف إمكانيات العرض - أو في إعدادات أقل ، إلى أي مدى يجب أن يلتزم ببيانات مصدر الإدخال ، وإجراء تغييرات جذرية أقل .

مثل Textual Inversion (أقل قليلاً مع DreamBooth ، UniTune قابل لتطبيق أنماط رسوم مميزة على الصور الأصلية ، بالإضافة إلى المزيد من التعديلات الواقعية.

مثل Textual Inversion (أقل قليلاً مع DreamBooth) ، UniTune قابل لتطبيق أنماط رسوم مميزة على الصور الأصلية ، بالإضافة إلى المزيد من التعديلات الواقعية.

جرب الباحثون أيضًا SDEditتقنية "البداية المتأخرة" ، حيث يتم تشجيع النظام على الحفاظ على التفاصيل الأصلية من خلال كونه "ضوضاء" جزئيًا فقط منذ البداية ، ولكن بالأحرى الحفاظ على خصائصه الأساسية. على الرغم من أن الباحثين استخدموا هذا فقط على أدنى الطبقات (64 بكسل) ، إلا أنهم يعتقدون أنه يمكن أن يكون أسلوبًا مساعدًا مفيدًا لأخذ العينات في المستقبل.

كما استغل الباحثون موجه إلى موجه كتقنية إضافية تستند إلى النص لتكييف النموذج:

في إعداد "المطالبة بالمطالبة" ، وجدنا أن الأسلوب الذي نسميه التوجيه الفوري مفيد بشكل خاص لضبط الدقة والتعبير.

يشبه التوجيه الفوري إرشادات المصنف الحرة فيما عدا أن الخط الأساسي هو موجه مختلف بدلاً من النموذج غير المشروط. هذا يوجه النموذج نحو دلتا بين الموجهين.

موجه إلى الفوري في UniTune ، مما يؤدي إلى عزل المناطق بشكل فعال للتغيير.

موجه إلى الفوري في UniTune ، مما يؤدي إلى عزل المناطق بشكل فعال للتغيير.

ومع ذلك ، فإن التوجيه السريع ، كما يقول المؤلفون ، كان مطلوبًا فقط في بعض الأحيان في الحالات التي فشل فيها CFG في الحصول على النتيجة المرجوة.

كان نهج أخذ العينات الجديد الآخر الذي تمت مواجهته أثناء تطوير UniTune هو إقحام، حيث تكون مناطق الصورة مميزة بدرجة كافية بحيث تكون كل من الصورة الأصلية والصورة المعدلة متشابهة جدًا في التركيب ، مما يسمح باستخدام استيفاء أكثر سذاجة.

يمكن أن يجعل الاستيفاء عمليات الجهد العالي لـ UniTune زائدة عن الحاجة في الحالات التي تكون فيها المناطق المراد تحويلها منفصلة ومحددة الهوامش جيدًا.

يمكن أن يجعل الاستيفاء عمليات الجهد العالي لـ UniTune زائدة عن الحاجة في الحالات التي تكون فيها المناطق المراد تحويلها منفصلة ومحددة الهوامش جيدًا.

يقترح المؤلفون أن الاستيفاء يمكن أن يعمل بشكل جيد ، بالنسبة لعدد كبير من صور المصدر المستهدفة ، بحيث يمكن استخدامه كإعداد افتراضي ، ويلاحظون أيضًا أن لديه القدرة على إحداث تحولات غير عادية في الحالات التي لا تكون فيها عمليات الانسداد المعقدة. تحتاج إلى التفاوض بأساليب أكثر كثافة.

يمكن لـ UniTune إجراء عمليات تحرير محلية باستخدام أقنعة التحرير أو بدونها ، ولكن يمكنه أيضًا أن يقرر بشكل أحادي مكان وضع التعديلات ، مع مزيج غير عادي من القوة التفسيرية والتأهيل القوي لبيانات إدخال المصدر:

في أعلى صورة في العمود الثاني ، قامت UniTune ، المكلفة بإدخال "قطار أحمر في الخلفية" بوضعها في موضع مناسب وأصلي. لاحظ في الأمثلة الأخرى كيف يتم الحفاظ على التكامل الدلالي للصورة المصدر حتى في خضم التغييرات غير العادية في محتوى البكسل والأنماط الأساسية للصور.

في أعلى صورة في العمود الثاني ، قامت UniTune ، المكلفة بإدخال "قطار أحمر في الخلفية" بوضعها في موضع مناسب وأصلي. لاحظ في الأمثلة الأخرى كيف يتم الحفاظ على التكامل الدلالي للصورة المصدر حتى في خضم التغييرات غير العادية في محتوى البكسل والأنماط الأساسية للصور.

كمون

على الرغم من أن التكرار الأول لأي نظام جديد سيكون بطيئًا، وعلى الرغم من أنه من الممكن أن تؤدي مشاركة المجتمع أو التزام الشركة (ليس كليهما عادةً) في النهاية إلى تسريع وتحسين روتين كثيف الموارد، إلا أن كلاً من UniTune وImagic يؤديان بعض مناورات تعلم الآلة الرئيسية إلى حد ما من أجل إنشاء هذه التعديلات المذهلة، ومن المشكوك فيه إلى أي مدى يمكن تقليص هذه العملية المتعطشة للموارد إلى الاستخدام المحلي، بدلاً من الوصول المعتمد على واجهة برمجة التطبيقات (على الرغم من أن الأخير قد يكون مرغوبًا أكثر لشركة Google) ).

في الوقت الحالي ، تستغرق الرحلة ذهابًا وإيابًا من الإدخال إلى النتيجة حوالي 3 دقائق على وحدة معالجة الرسومات T4 ، مع حوالي 30 ثانية إضافية للاستدلال (وفقًا لأي روتين للاستدلال). يقر المؤلفون بأن هذا يمثل وقت استجابة مرتفعًا ، وبالكاد يتم اعتباره "تفاعليًا" ، لكنهم لاحظوا أيضًا أن النموذج يظل متاحًا لمزيد من التعديلات بمجرد ضبطه في البداية ، حتى ينتهي المستخدم من العملية ، مما يقلل من وقت كل تعديل .

 

نُشر لأول مرة في 21 أكتوبر 2022.