الذكاء الاصطناعي

BrushNet: تعبئة الصور باستخدام الاندماج المزدوج

mm
BrushNet: Plug and Play Image Inpainting with Dual Branch Diffusion

تعبئة الصور هي واحدة من المشاكل الكلاسيكية في رؤية الكمبيوتر، وتتمثل في استعادة المناطق المقصودة في الصورة مع المحتوى المصدق والمعقول. تعمل التقنيات التقليدية لتعبئة الصور مثل الشبكات التوليدية المعارضة أو GANS، والمدمجين التباينيين أو VAEs غالبًا على الميزات المساعدة المصممة يدوياً، ولكن في الوقت نفسه، لا توفر نتائج مرضية. خلال السنوات القليلة الماضية، اكتسبت الأساليب القائمة على الاندماج شعبية داخل مجتمع رؤية الكمبيوتر بسبب قدراتها الرائعة في توليد الصور عالية الجودة، وتنوع الإخراج، والتحكم الدقيق. كانت المحاولات الأولية لاستخدام نماذج الاندماج لتعبئة الصور الموجهة بالنص تعديل الاستراتيجية القياسية للتخفيض من خلال عينة المناطق المقصودة من نموذج الاندماج المسبق التدريب، والمناطق غير المقصودة من الصورة المعطاة. على الرغم من أن هذه الأساليب أدت إلى أداء مرضٍ في مهام تعبئة الصور البسيطة، إلا أنها عانت من أشكال المقاطع المعقدة، ونصوص التوجيه، ومحتوى الصور التي أدت إلى عدم التماسك العام.

على الرغم من التقدم الذي أحرز في هذه النماذج خلال السنوات القليلة الماضية، لا تزال تعبئة الصور تحديًا كبيرًا لمطوري رؤية الكمبيوتر. تتضمن التعديلات الحالية لنماذج الاندماج لمهام تعبئة الصور تعديل استراتيجية العينة أو تطوير نماذج الاندماج المحددة لتعبئة الصور، والتي غالبًا ما تعاني من جودة صورة مخفضة وسمات غير متسقة. لمواجهة هذه التحديات، وفي طريقنا لتقديم نماذج تعبئة الصور، سنناقش في هذه المقالة BrushNet، وهي إطار جديد ومبتكر يدمج ميزات الصور المقصودة على مستوى البكسل في أي نموذج اندماج مسبق التدريب، وضمان التماسك والمخرجات المحسنة لمهام تعبئة الصور. يقدم إطار BrushNet نموذجًا جديدًا يقسم ميزات الصورة وال 潛 المضطربة إلى فروع منفصلة. يقلل تقسيم ميزات الصورة وال 潛 المضطربة من عبء التعلم للنموذج بشكل كبير، ويسهل دمج المعلومات الأساسية للمناطق المقصودة في الصورة بطريقة هرمية. بالإضافة إلى إطار BrushNet، سنناقش أيضًا BrushBench و BrushData، والتي تسهمان في تقييم الأداء القائم على التجزئة وتدريب تعبئة الصور على التوالي.

تهدف هذه المقالة إلى تغطية إطار BrushNet بعمق، ونتناول آليته وطريقة عمله وتركيبه، بالإضافة إلى مقارنته بالأساليب الحالية. لذا، لنبدأ.

BrushNet: تعبئة الصور باستخدام الاندماج المزدوج

تعبئة الصور، وهي طريقة تحاول استعادة المناطق المفقودة في الصورة مع الحفاظ على التماسك العام، كانت مشكلة طويلة الأمد في مجال رؤية الكمبيوتر، وأعاقت مطوريها وباحثيها لعدة سنوات. توجد تطبيقات تعبئة الصور في مجموعة واسعة من مهام رؤية الكمبيوتر، بما في ذلك تحرير الصور واختبارات افتراضية. مؤخرًا، أظهرت نماذج الاندماج مثل Stable Diffusion وStable Diffusion 1.5 القدرة الرائعة على توليد صور عالية الجودة، وتوفر للمستخدمين مرونة في التحكم بالسمات الهيكلية والتركيبية. إن الإمكانات الرائعة لنماذج الاندماج هي ما دفع الباحثين إلى استخدامها في مهام تعبئة الصور عالية الجودة التي تتوافق مع نصوص التوجيه.

يمكن تقسيم الأساليب المستخدمة في الإطارات التقليدية لتعبئة الصور الموجهة بالنص إلى فئتين، تعديل استراتيجية العينة ونماذج التعبئة المخصصة. تعديل استراتيجية العينة يتضمن تعديل عملية التخفيض القياسية من خلال عينة المناطق المقصودة من نموذج الاندماج المسبق التدريب، ونسخ المناطق غير المقصودة من الصورة المعطاة في كل خطوة للتخفيض. على الرغم من أن أساليب تعديل استراتيجية العينة يمكن تنفيذها في نماذج الاندماج التعسفي، إلا أنها غالبًا ما تؤدي إلى نتائج تعبئة غير متسقة لأنها تمتلك معرفة محدودة بحدود المقاطع وسياق المناطق غير المقصودة.

كما هو موضح في الصورة التالية، تنماذج التعبئة المخصصة تدمج 潛 الصورة المقصودة، وال 潛 المضطرب، والنص، والقناع في مرحلة مبكرة. يؤثر تصميم النماذج المخصصة على ميزات الصورة المقصودة، ويعوق الطبقات اللاحقة في تركيبة UNet من الحصول على ميزات صورة مقصودة نقية بسبب تأثير النص. بالإضافة إلى ذلك، يفرض التعامل مع التوليد والشرط في فرع واحد عبئًا إضافيًا على تركيبة UNet، و由于 هذه الأساليب تتطلب أيضًا تعديل نماذج الاندماج الأساسية في مختلف الإصدارات، فإنها غالبًا ما تكون استهلاكًا زمنيًا مع محدودية النقل.

قد يبدو أن إضافة فرع إضافي لاستخراج ميزات الصورة المقصودة قد يكون حلًا كافياً للمشاكل المذكورة أعلاه، ومع ذلك، فإن الأساليف الحالية غالبًا ما تؤدي إلى استخراج وإدراج معلومات غير كافية عند تطبيقها مباشرة على تعبئة الصور. ونتيجة لذلك، فإن الأساليف الحالية مثل ControlNet تؤدي نتائج غير مرضية عند مقارنتها بنماذج التعبئة المخصصة. لمواجهة هذه القضية بأكثر الطرق فعالية، يقدم إطار BrushNet فرعًا إضافيًا إلى الشبكة الأصلية للاندماج، ويتسبب في ذلك في خلق تركيبة أكثر ملاءمة لمهام تعبئة الصور.

  1. بدلاً من تهيئة طبقات التجميع بشكل عشوائي، يطبق إطار BrushNet مشفر VAE لمعالجة الصورة المقصودة. ونتيجة لذلك، يمكن لإطار BrushNet استخراج ميزات الصورة بشكل أكثر فعالية للاستخدام في توزيع UNet.
  2. يضمن إطار BrushNet تدريجياً دمج طبقات الميزة الكاملة لتركيبة UNet المسبق تدريبها، ويتسبب في ذلك في نهج هرمي يسمح بالتحكم الكثيف لكل بكسل.
  3. يحذف إطار BrushNet الانتباه المتقاطع للنص من مكون UNet لضمان أن تُؤخذ المعلومات الصافية في الفرع الإضافي فقط. بالإضافة إلى ذلك، يقترح نموذج BrushNet تنفيذ استراتيجية الخلط المُبهمة لتحقيق أفضل التماسك مع نطاق أكبر من القدرة على التحكم في المناطق غير المقصودة من الصورة.

BrushNet: الطريقة والهيكل

تُظهر الصورة التالية نظرة عامة على إطار BrushNet.

كما هو موضح، يستخدم الإطار استراتيجية فرعية مزدوجة لإدراج توجيه الصورة المقصودة، ويتضمن عمليات الخلط باستخدام قناع مُبهم لضمان الحفاظ على المناطق غير المقصودة بشكل أفضل. ومن الجدير بالذكر أن إطار BrushNet يمكن تعديله لتحقيق التحكم المرن. لمدخلات الصورة المقصودة والقناع المعطاة، يُخرج نموذج BrushNet صورة مقصودة. يبدأ النموذج bằng تقليل حجم القناع لتناسب حجم 潛، ويُغذي الصورة المقصودة كمدخل لمشفر VAE لتعيين توزيع الفضاء 潛. ثم يُجمع النموذج بين 潛 الصورة المقصودة، وال潛 المضطرب، والقناع المقلص، ويستخدمه كمدخل. بعد ذلك، يُضاف الميزات التي يستخلصها النموذج إلى طبقة UNet المسبق تدريبها بعد كتلة التجميع الصفري. بعد التخفيض، يُخلوط النموذج بين الصورة المقصودة والصورة المولدة باستخدام قناع مُبهم.

توجيه الصورة المقصودة

يُدرج إطار BrushNet ميزات الصورة المقصودة في الشبكة الأصلية للاندماج باستخدام فرع إضافي، والذي يفصل استخراج ميزات الصورة المقصودة явно عن عملية توليد الصورة. يتكون المدخل من دمج 潛 الصورة المقصودة، وال潛 المضطرب، والقناع المقلص. بشكل أكثر تحديداً، يوفر 潛 المضطرب معلومات لتوليد الصورة خلال عملية التوليد الحالية، ويساعد الإطار على تعزيز التماسك الدلالي لميزات الصورة المقصودة. يستخدم إطار BrushNet مشفر VAE لاستخراج 潛 الصورة المقصودة من الصورة المقصودة. بالإضافة إلى ذلك، يطبق الإطار تقنية التكبير المكعب لتقليص القناع في محاولة لضمان أن حجم القناع يتوافق مع 潛 الصورة المقصودة وال潛 المضطرب. لمعالجة ميزات الصورة المقصودة، يطبق إطار BrushNet نسخة من نموذج الاندماج المسبق التدريب، ويتجاهل طبقات الانتباه المتقاطع للنموذج. السبب في ذلك هو أن الأوزان المسبق تدريبها لنموذج الاندماج تعمل كأولوية قوية لاستخراج ميزات الصورة المقصودة، ويتجاهل طبقات الانتباه المتقاطع لضمان أن النموذج يعتبر فقط المعلومات الصافية في الفرع الإضافي. يُدرج إطار BrushNet الميزات في نموذج الاندماج المجمَد طبقة تلو الأخرى، ويتسبب في ذلك في تمكين التحكم الكثيف لكل بكسل على نحو هرمي، ويتضمن أيضًا طبقات التجميع الصفري لتحقيق الاتصال بين نموذج BrushNet القابل للتدريب والنموذج المجمَد، وضمان أن الضوضاء الضارة لا تؤثر على الحالات المخفية في نسخة BrushNet القابلة للتدريب خلال المراحل الأولية للتدريب.

عملية الخلط

كما هو مذكور سابقًا، يؤدي إجراء عملية الخلط في الفضاء 潛 إلى تغيير حجم المقاطع، والذي يؤدي إلى العديد من الأخطاء، ويواجه إطار BrushNet مشكلة مماثلة عند تغيير حجم القناع لتناسب حجم الفضاء 潛. بالإضافة إلى ذلك، يُلاحظ أن عمليات التشفير والفك التشفير في المدمجين التباينيين لها عمليات محدودة، وربما لا تؤدي إلى إعادة بناء الصورة الكاملة. لضمان أن الإطار يُعادة بناء صورة متسقة تمامًا للمناطق غير المقصودة، طبقت الأعمال الحالية تقنيات مختلفة مثل نسخ المناطق غير المقصودة من الصورة الأصلية. على الرغم من أن هذا النهج يعمل، إلا أنه غالبًا ما يؤدي إلى عدم التماسك الدلالي في توليد النتائج النهائية.

التحكم المرن

يتسبب تصميم إطار BrushNet في جعله خيارًا مناسبًا للتكاملات السهلة والمرنة مع نماذج الاندماج المسبق التدريب المختلفة، ويتضمن أيضًا الحفاظ على المناطق غير المقصودة. منذ أن لا يغير إطار BrushNet أوزان نموذج الاندماج المسبق التدريب، يمكن للمطورين دمجها كعنصر قابل للتشغيل السهل مع نموذج الاندماج المعدل، مما يسمح بالتبني والاختبار السهلين مع النماذج المسبق تدريبها. بالإضافة إلى ذلك، يمكن للمطورين أيضًا التحكم في مقياس الحفاظ على المناطق غير المقصودة من خلال دمج ميزات نموذج BrushNet في نموذج الاندماج المجمَد مع الوزن المحدد، والذي يحدد تأثير إطار BrushNet على مقياس الحفاظ، ويوفر للمطورين القدرة على ضبط مستويات الحفاظ المرغوبة. أخيرًا، يسمح إطار BrushNet للمستخدمين بتعديل مقياس التمويه، ويتحكم في ما إذا كان سينفذ عملية التمويه، ويتسبب في ذلك في توفير التكيفات المرنة والتحكم الدقيق على عملية تعبئة الصور.

BrushNet: التنفيذ والنتائج

لتحليل نتائجه، يقترح إطار BrushNet BrushBench، وهو مجموعة بيانات قائمة على التجزئة لتعبئة الصور تضم أكثر من 600 صورة، مع كل صورة مصحوبة بقناع مصحوب بالتعليق. يتم توزيع الصور في مجموعة البيانات بشكل متساوٍ بين الصور الطبيعية والاصطناعية، ويتضمن أيضًا توزيعًا متساويًا بين الفئات المختلفة، مما يسمح بتقييم عادل عبر الفئات المختلفة. لتحسين تحليل مهام التعبئة بشكل أكبر، يقسم إطار BrushNet مجموعة البيانات إلى قسمين متميزين بناءً على الأساليب المستخدمة: التجزئة القائمة على التجزئة، والمقاطع الفرش.

المقارنة الكمية

الجدول التالي ي比較 إطار BrushNet مع نماذج الاندماج القائمة على الاندماج الحالية لمهام تعبئة الصور على مجموعة بيانات BrushBench مع نموذج Stable Diffusion كنموذج أساسي.

كما هو موضح، يُظهر إطار BrushNet كفاءة ملحوظة عبر الحفاظ على المناطق المقصودة، وتنسيق النص، وجودة الصورة. بالإضافة إلى ذلك، تُظهر نماذج مثل Stable Diffusion Inpainting، وHD-Painter، وPowerPaint أداء قويًا في مهام تعبئة الصور داخلية، ولكنها تفشل في تكرار أدائها في مهام تعبئة الصور خارجية، خاصة فيما يتعلق بتنسيق النص وجودة الصورة. بشكل عام، يُقدم إطار BrushNet نتائج أقوى.

بالإضافة إلى ذلك، ي比較 الجدول التالي إطار BrushNet مع نماذج الاندماج القائمة على الاندماج الحالية لمهام تعبئة الصور على مجموعة بيانات EditBench، ويتوافق الأداء مع الأداء الملاحظ على مجموعة بيانات BrushBench. تشير النتائج إلى أن إطار BrushNet يُقدم أداء قويًا عبر مجموعة واسعة من مهام تعبئة الصور المختلفة بأنواع المقاطع المختلفة.

المقارنة النوعية

الرسم التالي ي比较 إطار BrushNet بشكل نوعي مع أساليب تعبئة الصور الحالية، مع نتائج تغطي الذكاء الاصطناعي والصور الطبيعية عبر مهام تعبئة الصور المختلفة، بما في ذلك تعبئة المقاطع العشوائية، وتعبئة المقاطع الداخلية، وتعبئة المقاطع الخارجية.

كما هو موضح، يُقدم إطار BrushNet نتائج ملحوظة في التماسك للمناطق غير المقصودة، والمناطق المتسقة، ويتحقق بنجاح من الوعي بالمعلومات الخلفية بفضل تنفيذ نهج الفصل المزدوج. بالإضافة إلى ذلك، يوفر الفرع غير الممسوح من نموذج الاندماج المسبق التدريب ميزة تغطية مجالات البيانات المختلفة مثل الأنمي والرسم بشكل أفضل، مما يؤدي إلى أداء أفضل عبر السيناريوهات المختلفة.

الخاتمة

في هذه المقالة، ناقشنا إطار BrushNet، وهو إطار جديد ومبتكر يدمج ميزات الصور المقصودة على مستوى البكسل في أي نموذج اندماج مسبق التدريب، وضمان التماسك والمخرجات المحسنة لمهام تعبئة الصور. يقدم إطار BrushNet نموذجًا جديدًا يقسم ميزات الصورة وال潛 المضطربة إلى فروع منفصلة. يقلل تقسيم ميزات الصورة وال潛 المضطربة من عبء التعلم للنموذج بشكل كبير، ويسهل دمج المعلومات الأساسية للمناطق المقصودة في الصورة بطريقة هرمية. بالإضافة إلى إطار BrushNet، سنناقش أيضًا BrushBench و BrushData، والتي تسهمان في تقييم الأداء القائم على التجزئة وتدريب تعبئة الصور على التوالي.

مهندس بالمهنة، كاتب بالقلب. كونال هو كاتب تقني مع حب عميق وفهم لتقنيات الذكاء الاصطناعي والتعلم الآلي، مخصص لتبسيط المفاهيم المعقدة في هذه المجالات من خلال توثيقه الممتع والمعلوماتي.