Connect with us

تحسين دقة تحرير الصور باستخدام الذكاء الاصطناعي

زاوية Anderson

تحسين دقة تحرير الصور باستخدام الذكاء الاصطناعي

mm
Images from the paper ' Tight Inversion: Image-Conditioned Inversion for Real Image Editing'

على الرغم من أن نموذج Firefly اللاتنتي Diffusion من Adobe يُعتبر واحدًا من أفضل النماذج المتاحة حاليًا، إلا أن مستخدمي برنامج Photoshop الذين جربوا ميزاته التوليدية لاحظوا أن النموذج لا يستطيع تحرير الصور الحالية بسهولة – بدلاً من ذلك، يقوم النموذج باستبدال منطقة المستخدم المحددة بالكامل بالصور التي تعتمد على نص الإشارة المقدم من المستخدم (على الرغم من أن Firefly ماهر في دمج القسم المولد الناتج في سياق الصورة).

في الإصدار التجريبي الحالي، يمكن لبرنامج Photoshop على الأقل دمج صورة مرجعية كإشارة جزئية للصورة، مما يلحق منتج Adobe الرائد بنوع من الوظائف التي يستمتع بها مستخدمو Stable Diffusion لمدة عامين، بفضل الإطارات الخارجية مثل Controlnet:

النسخة التجريبية الحالية من Adobe Photoshop تسمح باستخدام صور مرجعية عند توليد محتوى جديد داخل تحديد - على الرغم من أنها مسألة حظ في الوقت الحالي.

النسخة التجريبية الحالية من Adobe Photoshop تسمح باستخدام صور مرجعية عند توليد محتوى جديد داخل تحديد – على الرغم من أنها مسألة حظ في الوقت الحالي.

هذا يظهر مشكلة مفتوحة في أبحاث合成 الصور – صعوبة نموذج Diffusion في تحرير الصور الحالية دون تنفيذ إعادة تخيل على نطاق واسع للتحديد المحدد من قبل المستخدم.

على الرغم من أن هذا التكميل المعتمد على Diffusion يطيع إشارة المستخدم، إلا أنه يعيد اختراع الموضوع الأساسي للصورة دون مراعاة الصورة الأصلية (باستثناء دمج التوليد الجديد مع البيئة).

على الرغم من أن هذا التكميل المعتمد على Diffusion يطيع إشارة المستخدم، إلا أنه يعيد اختراع الموضوع الأساسي للصورة دون مراعاة الصورة الأصلية.

تنشأ هذه المشكلة لأن نماذج LDM تولد الصور من خلال التخفيض التدريجي للضوضاء، حيث يتم شرط كل مرحلة من مراحل العملية على إشارة النص المقدمة من المستخدم. مع تحويل محتوى إشارة النص إلى رموز التضمين، ومع نموذج بمقياس هائل مثل Stable Diffusion أو Flux يحتوي على مئات الآلاف (أو الملايين) من التضمينات المتطابقة تقريبًا مع الإشارة، يكون للعملية توزيعًا مشروطًا محسوبًا لتحقيق؛ وكل خطوة يتم اتخاذها هي خطوة نحو هذا “الهدف التوزيع المشروط”.

وهكذا يكون الأمر مع نص إلى صورة – سيناريو حيث يتمنى المستخدم الأفضل، منذ لا يوجد ما يضمن بالضبط ما سيكون التوليد مثلًا.

بدلاً من ذلك، سعى العديد من الأشخاص إلى استخدام القدرة التوليدية القوية لنماذج LDM لتحرير الصور الحالية – ولكن هذا يتضمن موازنة بين الإخلاص والمرنة.

عندما يتم 투射 صورة إلى فضاء النموذج اللاتنتي بواسطة طرق مثل عكس DDIM، يكون الهدف هو استعادة الأصلي بأقرب ما يمكن مع السماح بتحريرات ذات معنى.

المشكلة هي أن كلما تم استعادة الصورة بدقة، زادت متانة النموذج لتركيبه الأصلي، مما يجعل التعديلات الكبيرة صعبة.

مثل العديد من إطارات تحرير الصور المعتمدة على Diffusion المقترحة في السنوات الأخيرة، يجد هيكل Renoise صعوبة في إحداث أي تغيير حقيقي في مظهر الصورة، مع وجود فقط إشارة سطحية لربطة عنق في قاعدة حلق القط.

مثل العديد من إطارات تحرير الصور المعتمدة على Diffusion المقترحة في السنوات الأخيرة، يجد هيكل Renoise صعوبة في إحداث أي تغيير حقيقي في مظهر الصورة.

من ناحية أخرى، إذا أُعطيت الأولوية لتحريرية العملية، يخفف النموذج قبضته على الأصلي، مما يجعل من السهل إدخال التغييرات – ولكن على حساب الاتساق العام مع الصورة المصدر:

المهمة ناجحة - ولكنها تحويل وليس تعديل، بالنسبة لمعظم إطارات تحرير الصور المعتمدة على الذكاء الاصطناعي.

المهمة ناجحة – ولكنها تحويل وليس تعديل، بالنسبة لمعظم إطارات تحرير الصور المعتمدة على الذكاء الاصطناعي.

منذ أن هذه مشكلة يعاني منها حتى موارد Adobe الكبيرة، يمكننا أن نعتبر أن التحدي ملحوظ، وقد لا يسمح بحلول سهلة، إن وجدت.

الانقلاب الضيق

لذلك، فإن الأمثلة في ورقة جديدة نشرت هذا الأسبوع لفتت انتباهي، لأن العمل يقدم تحسينًا جيدًا وملحوظًا على الحالة الحالية في هذا المجال، من خلال إثبات القدرة على تطبيق تعديلات دقيقة ومتقنة على الصور المشعة في فضاء النموذج اللاتنتي – دون أن تكون التعديلات غير مهمة أو تهيمن على المحتوى الأصلي في الصورة المصدر:

مع تطبيق الانقلاب الضيق على طرق العكس الحالية، يتم考虑 التحديد الأصلي بطريقة أكثر دقة، وتتماشى التحويلات مع المادة الأصلية بدلاً من كتابتها فوقها.

مع تطبيق الانقلاب الضيق على طرق العكس الحالية، يتم考虑 التحديد الأصلي بطريقة أكثر دقة.

قد يعرف هواة ومتخصصو LDM هذا النوع من النتائج، منذ أن يمكن إنشاؤها في تدفق عمل معقد باستخدام أنظمة خارجية مثل Controlnet وIP-Adapter.

في الواقع، الطريقة الجديدة – التي أطلق عليها اسم الانقلاب الضيق – تستخدم في الواقع IP-Adapter، إلى جانب نموذج مخصص للوجوه، للصور البشرية.

من الورقة الأصلية لملحق IP-Adapter، أمثلة على صياغة تعديلات مناسبة للمادة الأصلية.

من الورقة الأصلية لملحق IP-Adapter، أمثلة على صياغة تعديلات مناسبة للمادة الأصلية.

الانجاز البارز للانقلاب الضيق، ثم، هو أن يكون قد أجرى تقنيات معقدة إلى وضعية إضافة واحدة يمكن تطبيقها على الأنظمة الحالية، بما في ذلك العديد من توزيعات LDM الشهيرة.

طبعًا، هذا يعني أن الانقلاب الضيق (TI)، مثل الأنظمة المرفقة التي يعتمد عليها، يستخدم الصورة الأصلية كعامل شرط لنسخة التحرير الخاصة به، بدلاً من الاعتماد فقط على إشارات نص دقيقة:

أمثلة إضافية لقدرة الانقلاب الضيق على تطبيق تعديلات متجانسة على المادة الأصلية.

أمثلة إضافية لقدرة الانقلاب الضيق على تطبيق تعديلات متجانسة على المادة الأصلية.

على الرغم من أن المؤلفين يعترفون بأن نهجهم ليس خاليًا من التوتر التقليدي والمستمر بين الإخلاص والتعديل في تقنيات تحرير الصور المعتمدة على Diffusion، إلا أنهم يبلغون عن نتائج على مستوى الدولة عندما يتم حقن TI في الأنظمة الحالية، مقابل الأداء الأساسي.

العمل الجديد بعنوان الانقلاب الضيق: الانقلاب المشروط بالصورة لتعديل الصور الحقيقية، ويأتي من خمسة باحثين عبر جامعة تل أبيب وSnap Research.

الطريقة

في البداية، يتم استخدام نموذج لغة كبير (LLM) لتوليد مجموعة من الإشارات النصية المتنوعة التي يتم من خلالها توليد صورة. ثم يتم تطبيق عكس DDIM على كل صورة بثلاثة شروط نصية: الإشارة النصية المستخدمة لتوليد الصورة؛ نسخة أقصر من نفس الإشارة؛ وإشارة فارغة.

مع العودة إلى الضوضاء المعكوسة من هذه العمليات، يتم توليد الصور مرة أخرى بنفس الشرط، ودون توجيه تصنيف مجاني (CFG).

درجات عكس DDIM عبر معايير مختلفة مع إعدادات إشارات مختلفة.

درجات عكس DDIM عبر معايير مختلفة مع إعدادات إشارات مختلفة.

كما نرى من الرسم البياني أعلاه، تتحسن الدرجات عبر المعايير المختلفة مع زيادة طول النص. كانت المعايير المستخدمة نسبة الإشارة إلى الضوضاء القصوى (PSNR)؛ مسافة L2؛ مؤشر التشابه الهيكلي (SSIM)؛ وتشابه الصورة المكتسب بالتعلم (LPIPS).

الانقلاب المتأثر بالصورة

بفعالية، يغير الانقلاب الضيق طريقة تحرير الصور الحقيقية بواسطة نموذج Diffusion من خلال تشبيك عملية الانقلاب بالصورة نفسها بدلاً من الاعتماد فقط على النص.

عادةً، عند عكس صورة إلى فضاء الضوضاء للنموذج اللاتنتي، يتطلب الأمر تقدير الضوضاء الأولية التي، عند إزالة الضوضاء منها، تعيد بناء الإدخال. تستخدم الطرق القياسية إشارة نصية لتوجيه هذه العملية؛ ولكن إشارة غير كاملة يمكن أن تؤدي إلى أخطاء، مما يؤدي إلى فقدان تفاصيل أو تغيير هياكل.

يستخدم الانقلاب الضيق بدلاً من ذلك IP Adapter لإدخال المعلومات البصرية إلى النموذج، بحيث يعيد بناء الصورة بدقة أكبر، مما يتحول إلى رموز شرطية، ويتم إسقاطها في трубة الانقلاب.

تعد هذه المعلمات قابلة للتحرير: زيادة تأثير الصورة الأصلية يجعل الإعادة بناء تقريبًا مثالية، بينما يقللها ويسمح بتعديلات أكثر إبداعًا. هذا يجعل الانقلاب الضيق مفيدًا لكل من التعديلات الدقيقة، مثل تغيير لون القميص، أو التعديلات الأكثر أهمية، مثل استبدال الأشياء – دون الآثار الجانبية الشائعة لأساليب الانقلاب الأخرى، مثل فقدان التفاصيل الدقيقة أو تشوهات غير متوقعة في المحتوى الخلفي.

يصر المؤلفون:

‘نلاحظ أن الانقلاب الضيق يمكن دمجه بسهولة مع طرق الانقلاب السابقة (مثل Edit Friendly DDPM، ReNoise) عن طريق [استبدال النواة اللاتنتية الأصلية بنموذج IP Adapter المعدل]، [و] الانقلاب الضيق يحسن باستمرار هذه الطرق من حيث كل من الإعادة البناء والتعديل.’

البيانات والاختبارات

قيم الباحثون الانقلاب الضيق على قدرته على إعادة بناء الصور وتحرير الصور الحقيقية. جميع التجارب استخدمت Stable Diffusion XL مع جدول DDIM؛ واستخدمت جميع الاختبارات 50 خطوة من إزالة الضوضاء مع مقياس توجيه افتراضي يبلغ 7.5.

للتشبيك بالصورة، تم استخدام IP-Adapter-plus sdxl vit-h. للاختبارات القليلة، استخدم الباحثون SDXL-Turbo مع جدول Euler، وأجروا أيضًا تجارب مع FLUX.1-dev، مشروطةً النموذج في الحالة الأخيرة على PuLID-Flux، باستخدام RF-Inversion في 28 خطوة.

تم استخدام PulID فقط في الحالات التي تتميز بوجوه بشرية، منذ أن تم تدريب هذا النظام الفرعي على هذا النوع من الإشارات – ومن الجدير بالذكر أن نظامًا فرعيًا مخصصًا يستخدم لنوع واحد فقط من أنواع الإشارات، ويرجع ذلك إلى اهتمامنا غير العادي بتوليد وجوه بشرية، مما يشير إلى أن الاعتماد فقط على الأوزان الواسعة لنموذج أساسي مثل Stable Diffusion قد لا يكون كافياً للمعايير التي نطالبها لهذه المهمة المحددة.

تم إجراء اختبارات إعادة البناء للتقويم النوعي والكمي. في الصورة أدناه، نرى أمثلة نوعية لانقلاب DDIM:

النتائج النوعية لانقلاب DDIM. كل صف يظهر صورة مفصلة للغاية إلى جانب إصداراتها المعاد بناؤها، مع كل خطوة تستخدم شروط أكثر دقة خلال الانقلاب وإزالة الضوضاء. كلما زادت دقة الشروط، تحسنت جودة الإعادة البناء. العمود الأيمن يظهر أفضل النتائج، حيث يتم استخدام الصورة الأصلية نفسها كشرط، مما يؤدي إلى أعلى إخلاص. لم يتم استخدام CFG في أي مرحلة. يرجى الرجوع إلى الوثيقة المصدر للحصول على دقة أفضل وتفاصيل.

النتائج النوعية لانقلاب DDIM.

يصر المؤلفون:

‘تظهر هذه الأمثلة أن تشبيك عملية الانقلاب بالصورة يحسن بشكل كبير من إعادة البناء في المناطق المفصلة للغاية.

‘من المهم أن نلاحظ أن طريقةنا تنجح في إعادة بناء وشم على ظهر الملاكم الأيمن. بالإضافة إلى ذلك، يتم الحفاظ على وضع ساق الملاكم بشكل أكثر دقة، ويصبح الوشم على الساق مرئيًا.’

نتائج نوعية إضافية لانقلاب DDIM. تحسن الشروط الوصفية من انقلاب DDIM، مع تفوق تشبيك الصورة على النص، خاصة على الصور المعقدة.

نتائج نوعية إضافية لانقلاب DDIM.

كما قام المؤلفون بتحديث الانقلاب الضيق كوحدة إضافة في الأنظمة الحالية، ووضعها مقابل أداءها الأساسي.

تم اختبار ثلاثة أنظمة: الانقلاب DDIM وRF-Inversion؛ وReNoise، الذي يشارك بعض المؤلفين مع الورقة قيد النقاش هنا. منذ أن لا توجد مشكلة في الحصول على إعادة بناء بنسبة 100%، ركز الباحثون فقط على التحريرية.

(تُنسق الصور النوعية في شكل يصعب إعادة إنتاجه هنا، لذا نرجو من القارئ الرجوع إلى ملف PDF الأصلي للحصول على تغطية أفضل ودقة.)

النتائج النوعية اليسرى لانقلاب الضيق مع SDXL. النتائج اليمينية مع Flux. يصعب إعادة تخطيط هذه النتائج هنا، لذا يرجى الرجوع إلى ملف PDF الأصلي للحصول على انطباع حقيقي عن الفروق المحققة.

النتائج النوعية اليسرى لانقلاب الضيق مع SDXL.

هنا يعلق المؤلفون:

‘كما هو موضح، يُحسن الانقلاب الضيق باستمرار من إعادة البناء عند دمجه مع الطرق الحالية. على سبيل المثال، ينجح نظامنا في إعادة بناء الدرابزين في مثال الأيسر ويعيد بناء الرجل ذي القميص الأزرق في مثال الأيمن [في الشكل 5 من الورقة].’

يُختبر النظام أيضًا كميًا. على غرار الأعمال السابقة، استخدموا مجموعة التحقق من MS-COCO، ويشيرون إلى أن النتائج (الموضحة أدناه) تحسنت من إعادة البناء عبر جميع المعايير لجميع الطرق.

مقارنة معايير الأداء للنظم مع وبدون الانقلاب الضيق.

مقارنة معايير الأداء للنظم مع وبدون الانقلاب الضيق.

بعد ذلك، قام المؤلفون بتحديث نظامهم لتحديث الصور.

تم توجيه نظام الانقلاب الضيق مقابل أداءه الأساسي لطرق سابقة مثل prompt2prompt؛ Edit Friendly DDPM؛ LED-ITS++؛ وRF-Inversion.

تظهر أدناه بعض النتائج النوعية للنظام (ونرجو من القارئ الرجوع إلى ملف PDF الأصلي للحصول على أمثلة إضافية).

أمثلة من النتائج النوعية الكثيرة (المضغوطة بشكل غامض) الموزعة في جميع أنحاء الورقة. نرجو من القارئ الرجوع إلى ملف PDF الأصلي للحصول على دقة أفضل ووضوح معنوي.

أمثلة من النتائج النوعية الكثيرة.

يصر المؤلفون بأن الانقلاب الضيق يتفوق بشكل مستمر على تقنيات الانقلاب الحالية من خلال تحقيق توازن أفضل بين إعادة البناء والتعديل.

تعتبر الطرق القياسية مثل انقلاب DDIM وReNoise قادرة على استعادة الصورة جيدًا، يصر المؤلفون أنهم غالبًا ما يجدون صعوبة في الحفاظ على التفاصيل الدقيقة عند تطبيق التعديلات.

من خلال الاستفادة من تشبيك الصورة، يثبت الانقلاب الضيق مخرجه بشكل أكثر قربًا من الأصلي، مما يمنع التشوهات غير المرغوب فيها.

أخيرًا، تم الحصول على نتائج كمية عن طريق تقييم الانقلاب الضيق مقابل _magicbrush، باستخدام انقلاب DDIM وLEDITS++، وقياسه بواسطة CLIP Sim.

المقارنات الكمية للانقلاب الضيق مقابل معيار MagicBrush.

المقارنات الكمية للانقلاب الضيق مقابل معيار MagicBrush.

يختتم المؤلفون:

‘في كلا الرسم البياني، يتم ملاحظة التبادل بين الحفاظ على الصورة والامتثال للتعديل المستهدف. يُحسن الانقلاب الضيق من هذا التبادل، ويحافظ بشكل أفضل على الصورة الإدخالية مع الحفاظ على الانطباع بالتعديل.’

‘يُلاحظ أن تشابه CLIP يزيد من 0.3 بين صورة ونص إشارة يُظهر انطباعًا مقبولًا بين الصورة والإشارة.’

الختام

على الرغم من أن الانقلاب الضيق لا يُعتبر “انطلاقة” في واحدة من التحديات الأكثر إثارة في合成 الصور المعتمدة على LDM، إلا أنه يُعتبر تحسينًا متواصلًا لتقنيات تحرير الصور المعتمدة على الذكاء الاصطناعي.

على الرغم من أن التوتر بين التحريرية والإخلاص لا يزال قائمًا، إلا أنه يُقلل بشكل ملحوظ، وفقًا للنتائج المقدمة. بالنظر إلى أن التحدي المركزي الذي يعالجه هذا العمل قد يثبت في النهاية أنه غير قابل للتغلب عليه إذا تم التعامل معه على شروطها الخاصة (بدلاً من النظر إلى ما وراء هندسة LDM في الأنظمة المستقبلية)، فإن الانقلاب الضيق يُعتبر تحسينًا تراكميًا مرحبًا به في الحالة الحالية.

 

نُشر لأول مرة يوم الجمعة، 28 فبراير 2025

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai