رطم HD-Painter: رسم صور عالية الدقة موجهة بالنص باستخدام نماذج الانتشار - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

HD-Painter: رسم صور عالية الدقة موجهة بالنص باستخدام نماذج الانتشار

mm

تم النشر

 on

HD-Painter: رسم صور عالية الدقة موجهة بالنص باستخدام نماذج الانتشار

نماذج الانتشار لقد أحدثت بلا شك ثورة في صناعة الذكاء الاصطناعي والتعلم الآلي، حيث أصبحت تطبيقاتها في الوقت الفعلي جزءًا لا يتجزأ من حياتنا اليومية. بعد أن أظهرت نماذج تحويل النص إلى صورة قدراتها الرائعة، ظهرت تقنيات معالجة الصور القائمة على الانتشار، مثل التوليد القابل للتحكم، وتوليف الصور المتخصصة والشخصية، وتحرير الصور على مستوى الكائن، والتغيرات المشروطة السريعة، والتحرير، كمواضيع بحثية ساخنة بسبب لتطبيقاتها في صناعة رؤية الكمبيوتر.

ومع ذلك، على الرغم من قدراتها الرائعة ونتائجها الاستثنائية، فإن أطر تحويل النص إلى صورة، وخاصة أطر رسم النص إلى صورة، لا تزال لديها مجالات محتملة للتطوير. وتشمل هذه القدرة على فهم المشاهد العالمية، خاصة عند تقليل ضوضاء الصورة في خطوات زمنية عالية الانتشار. لمعالجة هذه المشكلة، قدم الباحثون HD-Painter، وهو إطار عمل خالٍ تمامًا من التدريب يتبع بدقة التعليمات السريعة ويقيس دقة الصور عالية الدقة في الرسم بشكل متماسك. يستخدم إطار عمل HD-Painter طبقة الانتباه الانطوائي السريع (PAIntA)، والتي تعمل على تعزيز المعلومات السريعة لتعزيز درجات الاهتمام الذاتي، مما يؤدي إلى إنشاء محاذاة أفضل للنص.

لمزيد من تحسين تماسك الموجه، يقدم نموذج HD-Painter منهجًا لإعادة وزن إرشادات نقاط الانتباه (RASG). يدمج هذا النهج استراتيجية أخذ العينات اللاحقة في الشكل العام لمكون DDIM بسلاسة، مما يمنع التحولات الكامنة خارج التوزيع. بالإضافة إلى ذلك، يتميز إطار عمل HD-Painter بتقنية متخصصة فائقة الدقة مخصصة للرسم الداخلي، مما يسمح لها بالتوسع إلى مقاييس أكبر وإكمال المناطق المفقودة في الصورة بدقة تصل إلى 2K.

HD-Painter: رسم الصور الموجهة بالنص

لقد كانت نماذج نشر النص إلى الصورة بالفعل موضوعًا مهمًا في صناعة الذكاء الاصطناعي والتعلم الآلي في الأشهر الأخيرة، حيث أظهرت النماذج قدرات مذهلة في الوقت الفعلي عبر مختلف التطبيقات العملية. أظهرت نماذج توليد النص إلى الصورة المدربة مسبقًا مثل DALL-E وImagen وStable Diffusion مدى ملاءمتها لإكمال الصورة عن طريق دمج المناطق غير المعروفة (المولدة) غير المعروفة مع المناطق المعروفة المنتشرة أثناء عملية الانتشار العكسي. على الرغم من إنتاج مخرجات جذابة ومتناسقة بشكل جيد، فإن النماذج الحالية تكافح من أجل فهم المشهد العالمي، لا سيما في ظل عملية تقليل الضوضاء ذات الانتشار العالي. ومن خلال تعديل نماذج نشر النص إلى الصورة المدربة مسبقًا لدمج معلومات السياق الإضافية، يمكن ضبطها بدقة لإكمال الصورة الموجهة بالنص.

علاوة على ذلك، ضمن نماذج الانتشار، يعد الرسم الموجه بالنص وإكمال الصور الموجه بالنص من المجالات الرئيسية التي تهم الباحثين. ينبع هذا الاهتمام من حقيقة أن نماذج الرسم الموجهة بالنص يمكن أن تولد محتوى في مناطق معينة من الصورة المدخلة بناءً على المطالبات النصية، مما يؤدي إلى تطبيقات محتملة مثل تنقيح مناطق معينة من الصورة، وتعديل سمات الموضوع مثل الألوان أو الملابس، وإضافة أو إضافة استبدال الكائنات. باختصار، حققت نماذج نشر النص إلى الصورة مؤخرًا نجاحًا غير مسبوق، نظرًا لقدراتها الواقعية بشكل استثنائي والجذابة بصريًا.

ومع ذلك، فإن غالبية الأطر القائمة تظهر الإهمال السريع في سيناريوهين. الأول هو هيمنة الخلفية عندما يكمل النموذج المنطقة غير المعروفة عن طريق تجاهل الموجه في الخلفية بينما السيناريو الثاني هو هيمنة الكائن القريب عندما يقوم النموذج بنشر كائنات المنطقة المعروفة إلى المنطقة غير المعروفة باستخدام احتمالية السياق المرئي بدلاً من موجه الإدخال. من المحتمل أن تكون هاتان المشكلتان نتيجة لقدرة نشر الفانيليا على تفسير الموجه النصي بدقة أو مزجه مع المعلومات السياقية التي تم الحصول عليها من المنطقة المعروفة. 

لمعالجة هذه العوائق، يقدم إطار عمل HD-Painter طبقة "الانتباه الانطوائي المدرك الفوري" أو طبقة PAIntA، التي تستخدم المعلومات السريعة لتعزيز درجات الاهتمام الذاتي التي تؤدي في النهاية إلى إنشاء محاذاة أفضل للنص. يستخدم PAIntA التكييف النصي المعطى لتعزيز الاهتمام الذاتي قم بالتسجيل بهدف تقليل تأثير المعلومات ذات الصلة غير الفورية من منطقة الصورة مع زيادة مساهمة وحدات البكسل المعروفة المتوافقة مع المطالبة في نفس الوقت. لتعزيز محاذاة النص للنتائج التي تم إنشاؤها بشكل أكبر، يطبق إطار عمل HD-Painter طريقة توجيه لاحقة تعمل على زيادة درجات الانتباه المتبادل. ومع ذلك، فإن تنفيذ آلية التوجيه اللاحقة للفانيليا قد يتسبب في حدوث تحولات في التوزيع نتيجة لمصطلح التدرج الإضافي في معادلة الانتشار. سيؤدي التحول خارج التوزيع في النهاية إلى تدهور جودة المخرجات الناتجة. لمعالجة هذه العقبة، يطبق إطار عمل HD-Painter إرشادات إعادة وزن نقاط الاهتمام أو RASG، وهي طريقة تدمج استراتيجية أخذ العينات اللاحقة في الشكل العام لمكون DDIM بسلاسة. فهو يسمح للإطار بإنشاء نتائج طلاء معقولة بصريًا عن طريق توجيه العينة نحو العناصر الكامنة ذات المحاذاة السريعة، واحتوائها في مجال التدريب الخاص بها.

من خلال نشر مكونات RASH وPAIntA في بنيته، يتمتع إطار عمل HD-Painter بميزة كبيرة مقارنة بالنماذج الحالية، بما في ذلك أحدث ما توصلت إليه التكنولوجيا، والرسم الداخلي، ونماذج نشر النص إلى صورة لأنه تمكن من حل المشكلة الحالية المتمثلة في الإهمال الفوري. علاوة على ذلك، يوفر كل من مكوني RASH وPAINTA وظيفة التوصيل والتشغيل، مما يسمح لهما بالتوافق مع نماذج الطلاء الأساسية المنتشرة لمواجهة التحديات المذكورة أعلاه. علاوة على ذلك، من خلال تطبيق تقنية المزج التكراري عبر الزمن والاستفادة من قدرات نماذج انتشار عالية الدقة، يمكن أن يعمل خط أنابيب HD-Painter بفعالية تصل إلى دقة تصل إلى 2K في الرسم. 

لتلخيص ذلك، يهدف برنامج HD-Painter إلى تقديم المساهمات التالية في هذا المجال:

  1. ويهدف إلى حل مشكلة الإهمال الفوري للخلفية وهيمنة الكائنات القريبة التي تعاني منها أطر رسم الصور الموجهة بالنص من خلال تنفيذ طبقة "الانتباه الانطوائي المدرك الفوري" أو طبقة PAIntA في بنيتها. 
  2. ويهدف إلى تحسين محاذاة النص للمخرجات من خلال تنفيذ إرشادات إعادة وزن نقاط الاهتمام أو طبقة RASG في بنيتها التي تمكن إطار عمل HD-Painter من إجراء أخذ العينات الموجهة بعد المخصص مع منع التوزيعات خارج الورديات. 
  3. لتصميم خط أنابيب فعال لإكمال الصور الموجهة بالنص بدون تدريب قادر على التفوق في الأداء على أحدث الأطر الحالية، واستخدام إطار العمل فائق الدقة البسيط والفعال والمتخصص في الرسم لأداء الصور الموجهة بالنص بدقة تصل إلى 2K. 

HD-Painter: الطريقة والهندسة المعمارية

قبل أن نلقي نظرة على البنية، من المهم أن نفهم المفاهيم الأساسية الثلاثة التي تشكل أساس إطار عمل HD-Painter: طلاء الصور، التوجيه اللاحق في أطر الانتشار، و طلاء كتل معمارية محددة. 

يعد Image Inpainting أسلوبًا يهدف إلى ملء المناطق المفقودة داخل الصورة مع ضمان الجاذبية البصرية للصورة التي تم إنشاؤها. نفذت أطر التعلم العميق التقليدية أساليب تستخدم المناطق المعروفة لنشر الميزات العميقة. ومع ذلك، أدى إدخال نماذج الانتشار إلى تطور نماذج الرسم، وخاصة أطر رسم الصور الموجهة بالنص. تقليديًا، يستبدل نموذج نشر الصور الذي تم تدريبه مسبقًا المنطقة غير المقنعة من المنطقة الكامنة باستخدام النسخة المزعجة من المنطقة المعروفة أثناء عملية أخذ العينات. على الرغم من أن هذا النهج يعمل إلى حد ما، إلا أنه يؤدي إلى تدهور جودة المخرجات المتولدة بشكل كبير نظرًا لأن شبكة تقليل الضوضاء لا ترى سوى النسخة المزعجة من المنطقة المعروفة. للتغلب على هذه العقبة، تهدف بعض الأساليب إلى ضبط النص المدرب مسبقًا على نموذج الصورة لتحقيق رسم صورة موجه بالنص. من خلال تنفيذ هذا النهج، يكون الإطار قادرًا على إنشاء قناع عشوائي عبر التسلسل نظرًا لأن النموذج قادر على تكييف إطار تقليل الضوضاء في المنطقة غير المقنعة. 

مع المضي قدمًا، نفذت نماذج التعلم العميق التقليدية طبقات تصميم خاصة للرسم الفعال مع قدرة بعض الأطر على استخراج المعلومات بشكل فعال وإنتاج صور جذابة بصريًا عن طريق تقديم طبقات تلافيفية خاصة للتعامل مع المناطق المعروفة من الصورة. حتى أن بعض الأطر أضافت طبقة اهتمام سياقية في بنيتها لتقليل المتطلبات الحسابية الثقيلة غير المرغوب فيها للجميع ولجذب الانتباه الذاتي للحصول على طلاء عالي الجودة. 

أخيرًا، طرق التوجيه اللاحقة هي طرق أخذ عينات الانتشار العكسي التي توجه الخطوة التالية للتنبؤ الكامن نحو هدف معين لتقليل الوظيفة. تعد أساليب التوجيه اللاحق مفيدة جدًا عندما يتعلق الأمر بإنشاء محتوى مرئي خاصة في ظل وجود قيود إضافية. ومع ذلك، فإن أساليب التوجيه اللاحقة لها عيب كبير: فمن المعروف أنها تؤدي إلى تدهور جودة الصورة لأنها تميل إلى تحويل عملية التوليد الكامن بواسطة مصطلح متدرج. 

عند الانتقال إلى بنية HD-Painter، يقوم الإطار أولاً بصياغة مشكلة إكمال الصورة الموجهة بالنص، ثم يقدم نموذجين للانتشار وهما Stable Inpainting و انتشار مستقر. يقدم نموذج HD-Painter بعد ذلك كتل PAIntA وRASG، وأخيرًا نصل إلى تقنية الدقة الفائقة الخاصة بالرسم. 

نشر مستقر وInpainting مستقرة

Stable Diffusion هو نموذج نشر يعمل داخل المساحة الكامنة لجهاز التشفير التلقائي. بالنسبة لتركيب النص إلى صورة، يقوم إطار Stable Diffusion بتنفيذ موجه نصي لتوجيه العملية. تحتوي وظيفة التوجيه على بنية مشابهة لبنية UNet، وتقوم طبقات الانتباه المتقاطع بتكييفها مع المطالبات النصية. علاوة على ذلك، يمكن لنموذج Stable Diffusion أن يقوم برسم الصور مع بعض التعديلات والضبط الدقيق. ولتحقيق ذلك، يتم ربط ميزات الصورة المقنعة التي تم إنشاؤها بواسطة المشفر مع القناع الثنائي الذي تم تصغير حجمه إلى العناصر الكامنة. يتم بعد ذلك إدخال الموتر الناتج في بنية UNet للحصول على الضوضاء المقدرة. يقوم الإطار بعد ذلك بتهيئة المرشحات التلافيفية المضافة حديثًا بالأصفار بينما تتم تهيئة باقي شبكة UNet باستخدام نقاط تفتيش مدربة مسبقًا من نموذج الانتشار المستقر. 

يوضح الشكل أعلاه نظرة عامة على إطار عمل HD-Painter الذي يتكون من مرحلتين. في المرحلة الأولى، يقوم إطار عمل HD-Painter بتنفيذ رسم الصور الموجهة بالنص بينما في المرحلة الثانية، يرسم النموذج دقة فائقة محددة للمخرجات. لملء مناطق المهمة والبقاء متسقًا مع موجه الإدخال، يأخذ النموذج نموذج نشر تم تدريبه مسبقًا، ويستبدل طبقات الاهتمام الذاتي بطبقات PAIntA، وينفذ آلية RASG لتنفيذ عملية نشر عكسية. يقوم النموذج بعد ذلك بفك تشفير القيمة الكامنة النهائية المقدرة مما يؤدي إلى صورة مطلية. يقوم HD-Painter بعد ذلك بتنفيذ نموذج النشر فائق الثبات لرسم الصورة بالحجم الأصلي، وتنفيذ عملية النشر للخلف لإطار التوزيع المستقر المشروط بالصورة المدخلة ذات الدقة المنخفضة. يمزج النموذج التنبؤات المخففة مع ترميز الصورة الأصلية بعد كل خطوة في المنطقة المعروفة ويستمد الصورة الكامنة التالية. وأخيرًا، يقوم النموذج بفك تشفير العناصر الكامنة وتنفيذ مزج بواسون لتجنب آثار الحواف. 

الانتباه الفوري المدرك للانطوائي أو PAIntA

تميل نماذج inpainting الموجودة مثل Stable Inpainting إلى الاعتماد بشكل أكبر على السياق المرئي حول منطقة inpainting وتجاهل مطالبات المستخدم المدخلة. على أساس تجربة المستخدم، يمكن تصنيف هذه المشكلة إلى فئتين: هيمنة الكائنات القريبة وهيمنة الخلفية. قد تكون مشكلة هيمنة السياق البصري على مطالبات الإدخال نتيجة للطبيعة المكانية الوحيدة والخالية من المطالبات لطبقات الاهتمام الذاتي. لمعالجة هذه المشكلة، يقدم إطار عمل HD-Painter برنامج Prompt Aware Introverted Attention أو PAIntA الذي يستخدم مصفوفات الانتباه المتقاطع وقناع الرسم الداخلي للتحكم في إخراج طبقات الانتباه الذاتي في المنطقة غير المعروفة. 

يقوم مكون "الانتباه الفوري المدرك للانطواء" أولاً بتطبيق طبقات الإسقاط للحصول على المفتاح والقيم والاستعلامات بالإضافة إلى مصفوفة التشابه. يقوم النموذج بعد ذلك بضبط درجة انتباه البكسلات المعروفة للتخفيف من التأثير القوي للمنطقة المعروفة على المنطقة غير المعروفة، ويحدد مصفوفة تشابه جديدة من خلال الاستفادة من الموجه النصي. 

إعادة وزن إرشادات نقاط الانتباه أو RASG

يعتمد إطار عمل HD-Painter طريقة توجيه أخذ العينات اللاحقة لتعزيز محاذاة التوليد مع المطالبات النصية بشكل أكبر. إلى جانب الوظيفة الموضوعية، يهدف نهج التوجيه اللاحق لأخذ العينات إلى الاستفادة من خصائص تجزئة المفردات المفتوحة لطبقات الاهتمام المتبادل. ومع ذلك، فإن هذا النهج الخاص بتوجيهات الفانيليا اللاحقة لديه القدرة على تحويل مجال الانتشار الكامن الذي قد يؤدي إلى تدهور جودة الصورة التي تم إنشاؤها. لمعالجة هذه المشكلة، يطبق نموذج HD-Painter إرشادات إعادة وزن نقاط الانتباه أو آلية RASG التي تقدم آلية إعادة وزن التدرج مما يؤدي إلى الحفاظ على المجال الكامن. 

HD-Painter: التجارب والنتائج

لتحليل أدائه، تتم مقارنة إطار عمل HD-Painter مع أحدث النماذج الحالية بما في ذلك Stable Inpainting وGLIDE وBLD أو Blended Latent Diffusion على أكثر من 10000 عينة عشوائية حيث يتم تحديد الموجه كتسمية لقناع المثيل المحدد. 

كما يمكن ملاحظته، يتفوق إطار عمل HD-Painter على الأطر الحالية في ثلاثة مقاييس مختلفة بهامش كبير، لا سيما التحسن بمقدار 1.5 نقطة على مقياس CLIP والفرق في درجة الدقة الناتجة بحوالي 10% من الأساليب الحديثة الأخرى . 

بالمضي قدمًا، يوضح الشكل التالي المقارنة النوعية لإطار HD-Painter مع أطر الرسم الأخرى. كما يمكن ملاحظته، فإن النماذج الأساسية الأخرى إما تعيد بناء المناطق المفقودة في الصورة كاستمرار لكائنات المنطقة المعروفة متجاهلة المطالبات أو أنها تولد خلفية. من ناحية أخرى، فإن إطار عمل HD-Painter قادر على إنشاء الكائنات المستهدفة بنجاح بسبب تنفيذ مكونات PAIntA وRASG في بنيته. 

افكار اخيرة

في هذه المقالة، تحدثنا عن HD-Painter، وهو نهج تدريبي عالي الدقة موجه للنص الحر في الرسم يعالج التحديات التي تواجهها أطر عمل inpainting الحالية بما في ذلك الإهمال الفوري وهيمنة الكائنات القريبة والخلفية. يطبق إطار عمل HD-Painter طبقة "الانتباه الانطوائي المدرك الفوري" أو طبقة PAIntA، التي تستخدم المعلومات السريعة لتعزيز درجات الاهتمام الذاتي التي تؤدي في النهاية إلى إنشاء محاذاة أفضل للنص. 

ولتحسين تماسك المطالبة بشكل أكبر، يقدم نموذج HD-Painter إرشادات إعادة وزن نقاط الاهتمام أو نهج RASG الذي يدمج استراتيجية أخذ العينات اللاحقة في الشكل العام لمكون DDIM بسلاسة لمنع التحولات الكامنة خارج التوزيع. علاوة على ذلك، يقدم إطار عمل HD-Painter تقنية متخصصة فائقة الدقة مخصصة للطلاء الداخلي مما يؤدي إلى توسيع نطاقات أكبر، ويسمح لإطار عمل HD-Painter بإكمال المناطق المفقودة في الصورة بدقة تصل إلى 2K.

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.