الذكاء الاصطناعي

HD-Painter: إنبوتينغ صور عالية الدقة بإرشادات نصية مع نماذج انتشار

mm
HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

نماذج الانتشار لقد غيرت بشكل لا يصدق صناعة الذكاء الاصطناعي والتعلم الآلي، مع تطبيقاتها في الوقت الفعلي أصبحت جزءًا لا يتجزأ من حياتنا اليومية. بعد أن أظهرت نماذج النص إلى الصورة قدراتها الرائعة، ظهرت تقنيات تعديل الصور القائمة على الانتشار، مثل التوليد المتحكم به والتركيب المتخصص والمتوافق، وتحرير الصور على مستوى الكائن، والتنوعات المشروطة بالتوجيه، والتعديل، كمواضيع بحث ساخنة بسبب تطبيقاتها في صناعة الرؤية الحاسوبية.

然而، على الرغم من قدراتها الرائعة ونتائجها الاستثنائية، لا تزال إطارات النص إلى الصورة، ولا سيما إطارات النص إلى الصورة، تحتاج إلى مجالات محتملة للتطوير. وتشمل هذه القدرة على فهم المشاهد العالمية، خاصة عند إزالة الضوضاء من الصورة في خطوات انتشار عالية. لمعالجة هذه القضية، قدم الباحثون HD-Painter، وهو إطار تدريبي كامل يتبع تعليمات الإرشاد بدقة ويتوسع إلى إنبوتينغ الصور عالية الدقة بشكل متسق. يستخدم إطار HD-Painter طبقة انتباه مدروس متواضع (PAIntA)، والتي تستخدم معلومات الإرشاد لتعزيز درجات الانتباه الذاتي، مما يؤدي إلى توليد محاذاة نصية أفضل.

لتحسين الاتساق الإرشادي بشكل أكبر، يقدم نموذج HD-Painter نهج توجيه النتائج بعيدًا عن التوجيه (RASG). يدمج هذا النهج استراتيجية عينة ما بعد الحدث في شكل عام للمكون DDIM بشكل متسلسلة، مما يمنع التحولات الكمومية غير الموزعة. بالإضافة إلى ذلك، يحتوي إطار HD-Painter على تقنية超 دقة مخصصة للإنبوتينغ، مما يسمح له بالتوسع إلى مقاييس أكبر واكتمال المناطق المفقودة في الصورة بدقة تصل إلى 2K.

HD-Painter: إنبوتينغ صور بإرشادات نصية

لقد كانت نماذج انتشار النص إلى الصورة موضوعًا هامًا في صناعة الذكاء الاصطناعي والتعلم الآلي في الأشهر الأخيرة، مع نماذج تظهر قدراتها في الوقت الفعلي عبر تطبيقات عملية مختلفة. أظهرت نماذج التوليد المسبق للنص إلى الصورة مثل DALL-E وImagen وStable Diffusion ملاءمتها لاستكمال الصور من خلال دمج المناطق غير المعروفة المزالة مع المناطق المعروفة المزالة خلال عملية الانتشار العكسي. على الرغم من إنتاج مخرجات بصرية جذابة ومتناسقة جيدًا، تعاني النماذج الحالية من فهم المشهد العالمي، خاصة في عملية إزالة الضوضاء في خطوات انتشار عالية. من خلال تعديل نماذج انتشار النص إلى الصورة المسبقة لدمج معلومات سياقية إضافية، يمكن تعديلها لاستكمال الصور بإرشادات نصية.

علاوة على ذلك، داخل نماذج الانتشار، فإن إنبوتينغ الصور بإرشادات نصية وإنبوتينغ الصور بإرشادات نصية هي مجالات رئيسية لاهتمام الباحثين. يُحفز هذا الاهتمام بالحقيقة التي يمكن أن تولد نماذج إنبوتينغ الصور بإرشادات نصية محتوى في مناطق محددة من صورة الإدخال بناءً على إرشادات نصية، مما يؤدي إلى تطبيقات محتملة مثل تعديل مناطق الصورة المحددة، وتعديل سمات الموضوع مثل الألوان أو الملابس، وإضافة أو استبدال الأشياء. في الخلاصة، حققت نماذج انتشار النص إلى الصورة نجاحًا غير مسبوق في الآونة الأخيرة، بسبب قدراتها الفريدة في التوليد الواقعي والبصري.

然而، معظم الإطارات الحالية تظهر إهمال الإرشاد في سيناريوهين. السيناريو الأول هو هيمنة الخلفية عندما يكمل النموذج المنطقة غير المعروفة بالIGNORING الإرشاد في الخلفية، بينما السيناريو الثاني هو هيمنة الكائن القريبعندما ينتشر النموذج كائنات المنطقة المعروفة إلى المنطقة غير المعروفة باستخدام احتمالية السياق البصري بدلاً من الإرشاد الإدخالي. من المحتمل أن تكون هذه القضايا ناتجة عن عدم القدرة على تفسير الإرشاد النصي بدقة أو خلطه مع المعلومات السياقية المأخوذة من المنطقة المعروفة.

لمعالجة هذه العقبات، يقدم إطار HD-Painter طبقة انتباه مدروس متواضع (PAIntA)، والتي تستخدم معلومات الإرشاد لتعزيز درجات الانتباه الذاتي، مما يؤدي إلى توليد محاذاة نصية أفضل. يستخدم PAIntA الإرشاد النصي الشرطي لتعزيز درجة الانتباه الذاتيالهدف هو تقليل تأثير المعلومات غير ذات الصلة بالإرشاد من منطقة الصورة، وفي الوقت نفسه زيادة مساهمة البكسل المعروفة المتماشية مع الإرشاد. لتعزيز محاذاة النص للنتائج المولدة، ينفذ إطار HD-Painter نهج توجيه ما بعد الحدث يعتمد على درجات الانتباه المتقاطع. ومع ذلك، قد يؤدي تنفيذ آلية التوجيه ما بعد الحدث الفانيلية إلى تحولات غير موزعة في المجال الكمومي، مما يؤدي إلى تدهور جودة الإخراج. لمعالجة هذه القضية، ينفذ إطار HD-Painter آلية توجيه درجة الانتباه إعادة التوزين (RASG)، وهي طريقة تدمج استراتيجية عينة ما بعد الحدث في شكل عام للمكون DDIM بشكل متسلسلة، مما يسمح للنموذج توليد نتائج إنبوتينغ واضحة بصرية من خلال توجيه العينة نحو الكموم المتماشية بالإرشاد، وتحافظ عليها في مجالها المُدرَّب.

من خلال نشر مكونات RASH وPAIntA في هيكله، يحتفظ إطار HD-Painter بميزة كبيرة على النماذج الحالية، بما في ذلك نماذج الإنبوتينغ والانتشار من النص إلى الصورة، لأنها تحل مشكلة إهمال الإرشاد الحالية. بالإضافة إلى ذلك، توفر كلا المكونين RASH وPAIntA وظيفة تشغيل وايقاف، مما يسمح لهما بالتوافق مع نماذج إنبوتينغ قاعدة الانتشار لمعالجة التحديات المذكورة أعلاه. علاوة على ذلك، من خلال تنفيذ تقنية التمازج الزمني وتحسين قدرات نماذج الانتشار عالية الدقة، يمكن أن تعمل أنابيب HD-Painter بشكل فعال لإنبوتينغ الصور بدقة تصل إلى 2K.

لتلخيص، يهدف إطار HD-Painter إلى إحداث المساهمات التالية في المجال:

  1. يهدف إلى حل مشكلة إهمال الإرشاد في خلفية وسيطرة الكائن القريب التي تعاني منها إطارات إنبوتينغ الصور بإرشادات نصية من خلال تنفيذ طبقة انتباه مدروس متواضع (PAIntA) في هيكله.
  2. يهدف إلى تحسين محاذاة النص للخرج من خلال تنفيذ آلية توجيه درجة الانتباه إعادة التوزين (RASG) في هيكله، مما يسمح لإطار HD-Painter بالتوجيه العينة بعد الحدث مع منع التحولات الكمومية غير الموزعة.
  3. يهدف إلى تصميم أنابيب إنبوتينغ صور بإرشادات نصية فعالة وبدون تدريب قادرة على تفوق الإطارات الحالية، وتنفيذ إطار超 دقة مخصص للإنبوتينغ لإنبوتينغ صور بإرشادات نصية بدقة تصل إلى 2K.

HD-Painter: الطريقة والهيكل

قبل أن ننظر إلى الهيكل، من المهم فهم ثلاثة مفاهيم أساسية تشكل أساس إطار HD-Painter:إنبوتينغ الصور، والتوجيه بعد الحدث في إطارات الانتشار،والكتلة المعمارية المحددة للإنبوتينغ.

إن إنبوتينغ الصور هو نهج يهدف إلى ملء المناطق المفقودة داخل الصورة مع الحفاظ على الجاذبية البصرية للصورة المولدة. تنفذ الإطارات العميقة التقليدية أساليب تستخدم المناطق المعروفة لنشر الميزات العميقة. ومع ذلك، أدى ظهور نماذج الانتشار إلى تطور نماذج الإنبوتينغ، خاصة إطارات إنبوتينغ الصور بإرشادات نصية. تقليديًا، يستبدل نموذج انتشار النص إلى الصورة المسبق منطقة غير مقنعة من الكموم باستخدام نسخة ملوثة من المنطقة المعروفة خلال عملية العينة. على الرغم من أن هذا النهج يعمل إلى حد ما، إلا أنه يؤدي إلى تدهور جودة الإخراج بشكل كبير لأن شبكة إزالة الضوضاء ترى فقط نسخة ملوثة من المنطقة المعروفة. لمعالجة هذه العوائق، تم توجيه بعض النهج لتعديل نموذج انتشار النص إلى الصورة المسبق لتحقيق إنبوتينغ الصور بإرشادات نصية. من خلال تنفيذ هذا النهج، يمكن للنموذج توليد قناع عشوائي عبر التماس لأن النموذج يمكن أن يرتبط بإزالة الضوضاء بالمنطقة غير المقنعة.

متحركًا إلى الأمام، تنفذ النماذج العميقة التقليدية طبقات تصميم خاصة لإنبوتينغ فعال مع بعض الإطارات القادرة على استخراج المعلومات بشكل فعال وإنتاج صور بصرية جذابة من خلال إدخال طبقات ت convolution خاصة للتعامل مع المناطق المعروفة من الصورة. أضافت بعض الإطارات طبقة انتباه سياقي إلى هيكلها لتقليل المتطلبات الحسابية الثقيلة غير المرغوب فيها للانتباه الذاتي الكامل لإنبوتينغ عالي الجودة.

أخيرًا، فإن أساليب التوجيه بعد الحدث هي أساليب عينة انتشار عكسي توجيه التنبؤ الكمومي التالي نحو هدف تقليل دالة معينة. أساليب التوجيه بعد الحدث مفيدة جدًا عند توليد المحتوى البصري، خاصة في وجود قيود إضافية. ومع ذلك، فإن أساليب التوجيه بعد الحدث لها عيب رئيسي: أنها تؤدي إلى تدهور جودة الصورة لأنها تميل إلى تحويل عملية توليد الكموم بمصطلح تدرج.

بالنسبة لهيكل HD-Painter، يحدد الإطار أولًا مشكلة استكمال الصور بإرشادات نصية، ثم يقدم نموذجين من نماذج الانتشار، وهما الانتشار المستقروالانتشار المستقر للإنبوتينغ. ثم يقدم نموذج HD-Painter كتلة PAIntA وكتلة RASG، وأخيرًا نصل إلى تقنية超 دقة مخصصة للإنبوتينغ.

الانتشار المستقر والانتشار المستقر للإنبوتينغ

الانتشار المستقر هو نموذج انتشار يعمل داخل فضاء التشفير التلقائي. لتركيب النص إلى الصورة، ينفذ إطار الانتشار المستقر إرشادًا نصيًا لتوجيه العملية. يتشابه هيكل الدالة التوجيهية مع هيكل معمارية UNet، ويشترط طبقات الانتباه المتقاطع على الإرشادات النصية. بالإضافة إلى ذلك، يمكن لنموذج الانتشار المستقر أداء إنبوتينغ الصور مع بعض التعديلات والتعديل. لتحقيق ذلك، يتم تضمين ميزات الصورة المقنعة التي تم إنشاؤها بواسطة المُشفر مع قناع ثنائي مقنّع مخفض إلى الكموم، ثم يتم إدخال التنسور الناتج إلى هيكل UNet للحصول على الضوضاء المقدرة. ثم يتم 초기 化 المرشحات التماسكية الجديدة بالصفر، بينما يتم 초기 化 باقي هيكل UNet باستخدام نقاط تحكم مسبقة من نموذج الانتشار المستقر.

الرسم أعلاه يظهر نظرة عامة على إطار HD-Painter الذي يتكون من مرحلتين. في المرحلة الأولى، ينفذ إطار HD-Painter إنبوتينغ صور بإرشادات نصية، بينما في المرحلة الثانية، يؤدي النموذج إلى إنبوتينغ دقة فائقة للخرج. لملء المناطق المفقودة و Remaining متسقة مع الإرشاد الإدخالي، يأخذ النموذج نموذج انتشار إنبوتينغ مسبق، ويستبدل طبقات الانتباه الذاتي بكتلة PAIntA، وينفذ آلية RASG لأداء عملية انتشار عكسي. ثم يفك النموذج الكموم المقدر النهائي، مما يؤدي إلى صورة مقنعة. ثم ينفذ HD-Painter نموذج انتشار مستقر لإنبوتينغ صورة الأصل، وينفذ عملية انتشار عكسي لنموذج الانتشار المستقر مشروطة بالصورة الإدخالية منخفضة الدقة. ثم يخلط بين التنبؤات المزالة مع ترميز الصورة الأصلية بعد كل خطوة في المنطقة المعروفة، ويتحصل على الكموم التالي. أخيرًا، يفك النموذج الكموم وينفذ دمج بويسون لتجنب تشوهات الحواف.

انتباه مدروس متواضع أو PAIntA

تعتمد نماذج إنبوتينغ الصور الحالية مثل الانتشار المستقر للإنبوتينغ على السياق البصري حول منطقة الإنبوتينغ وت 忽略 الإرشادات الإدخالية. بناءً على تجربة المستخدم، يمكن تصنيف هذه القضية إلى فئتين: هيمنة الكائن القريب و هيمنة الخلفية. قد تكون مشكلة سيطرة السياق البصري على الإرشادات الإدخالية ناتجة عن طبيعة الانتباه الذاتي المكانية وخالية من الإرشاد. لمعالجة هذه القضية، يقدم إطار HD-Painter انتباه مدروس متواضع (PAIntA) الذي يستخدم مصفوفات الانتباه المتقاطع وقناع إنبوتينغ للتحكم في إخراج طبقات الانتباه الذاتي في المنطقة غير المعروفة.

يستخدم مكون انتباه مدروس متواضع PAIntA طبقات المشروع للحصول على المفاتيح والقيم و مصفوفة الشبه، ثم يعدل درجة الانتباه للبكسل المعروف لتقليل التأثير القوي للمنطقة المعروفة على المنطقة غير المعروفة، و يحدد مصفوفة شبه جديدة بالاعتماد على الإرشاد النصي.

توجيه درجة الانتباه إعادة التوزين أو RASG

يتبنى إطار HD-Painter نهج توجيه عينة بعد الحدث لتعزيز محاذاة التوليد مع الإرشادات النصية بشكل أكبر. إلى جانب دالة هدف، يهدف نهج توجيه العينة بعد الحدث إلى استغلال خصائص التجزئة المفتوحة للطبقات الانتباه المتقاطع. ومع ذلك، قد يؤدي نهج التوجيه بعد الحدث الفانيلي إلى تحويل مجال الكموم، مما يؤدي إلى تدهور جودة الصورة المولدة. لمعالجة هذه القضية، ينفذ إطار HD-Painter آلية توجيه درجة الانتباه إعادة التوزين (RASG)، وهي طريقة تدمج استراتيجية عينة بعد الحدث في شكل عام للمكون DDIM بشكل متسلسلة، مما يسمح للنموذج توليد نتائج إنبوتينغ واضحة بصرية من خلال توجيه العينة نحو الكموم المتماشية بالإرشاد، وتحافظ عليها في مجالها المُدرَّب.

HD-Painter: التجارب والنتائج

لتحليل أدائه، يتم مقارنة إطار HD-Painter بنماذج حالية، بما في ذلك الانتشار المستقر للإنبوتينغ و GLIDE و BLD أو انتشار الكموم المخلوط، على 10000 عينة عشوائية حيث يتم اختيار الإرشاد كملabel للمسند المحدد.

كما يمكن ملاحظة، يتفوق إطار HD-Painter على النماذج الحالية في ثلاثة مقاييس مختلفة بفارق كبير، خاصة تحسين 1.5 نقطة في مقياس CLIP وفرق في دقة التوليد بنسبة 10٪ عن أساليب الحالة الحالية.

متحركًا إلى الأمام، يظهر الشكل التالي مقارنة نوعية إطار HD-Painter مع نماذج إنبوتينغ أخرى. كما يمكن ملاحظة، تنشئ نماذج القاعدة الأخرى مناطق مفقودة في الصورة كاستمرار لكائنات المنطقة المعروفة مع تجاهل الإرشادات، أو توليد خلفية. من ناحية أخرى، يمكن لإطار HD-Painter توليد الكائنات المستهدفة بنجاح بسبب تنفيذ مكونات PAIntA و RASG في هيكله.

أفكار ختامية

في هذه المقالة، تحدثنا عن HD-Painter، وهو نهج إنبوتينغ صور بإرشادات نصية عالي الدقة بدون تدريب يعالج التحديات التي تواجهها الإطارات الحالية، بما في ذلك إهمال الإرشاد وسيطرة الكائن القريب والخلفية. ينفذ إطار HD-Painter طبقة انتباه مدروس متواضع (PAIntA) التي تستخدم معلومات الإرشاد لتعزيز درجات الانتباه الذاتي، مما يؤدي إلى توليد محاذاة نصية أفضل.

لتحسين الاتساق الإرشادي بشكل أكبر، يقدم نموذج HD-Painter نهج توجيه النتائج بعيدًا عن التوجيه (RASG) الذي يدمج استراتيجية عينة ما بعد الحدث في شكل عام للمكون DDIM بشكل متسلسلة، مما يمنع التحولات الكمومية غير الموزعة. بالإضافة إلى ذلك، يقدم إطار HD-Painter تقنية超 دقة مخصصة للإنبوتينغ، مما يسمح له بالتوسع إلى مقاييس أكبر واكتمال المناطق المفقودة في الصورة بدقة تصل إلى 2K.

مهندس بالمهنة، كاتب بالقلب. كونال هو كاتب تقني مع حب عميق وفهم لتقنيات الذكاء الاصطناعي والتعلم الآلي، مخصص لتبسيط المفاهيم المعقدة في هذه المجالات من خلال توثيقه الممتع والمعلوماتي.