Connect with us

HD-Painter: إنباط الصور بدقة عالية مع توجيه نصي باستخدام نماذج الانتشار

الذكاء الاصطناعي

HD-Painter: إنباط الصور بدقة عالية مع توجيه نصي باستخدام نماذج الانتشار

mm
HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

نماذج الانتشار لقد قامت بثورة في صناعة الذكاء الاصطناعي والتعلم الآلي، مع تطبيقاتها في الوقت الفعلي أصبحت جزءًا لا يتجزأ من حياتنا اليومية. بعد أن أظهرت نماذج النص إلى الصورة قدراتها الرائعة، ظهرت تقنيات تحرير الصور القائمة على الانتشار، مثل التوليد القابل للتحكم والتركيب الصوري المتخصص والشخصي، وتحرير الصور على مستوى الكائن، والتنوعات المشروطة بالسؤال، والتحرير، كمواضيع بحث ساخنة بسبب تطبيقاتها في صناعة الرؤية الحاسوبية.

ومع ذلك، على الرغم من قدراتها المذهلة ونتائجها الاستثنائية، لا تزال الإطارات النصية إلى الصورة، ولا سيما إطارات إنباط النص إلى الصورة، تحتوي على مجالات محتملة للتنمية. وتشمل هذه القدرة على فهم المشاهد العالمية، خاصة عند إزالة الضوضاء من الصورة في خطوات انتشار عالية. لتackle هذه القضية، قدم الباحثون HD-Painter، وهو إطار تدريبي hoàn toàn يتبع تعليمات السؤال بدقة ويتوسع إلى إنباط الصور بدقة عالية بشكل متسق. يستخدم إطار HD-Painter طبقة الانتباه المتأمل الموجه بالسؤال (PAIntA)، والتي تستخدم معلومات السؤال لتعزيز درجات الانتباه الذاتي، مما يؤدي إلى توليد محاذاة نصية أفضل.

لتحسين تماسك السؤالさらに، يقدم نموذج HD-Painter نهج توجيه درجة الانتباه المعاد تقييمه (RASG). هذا النهج يدمج استراتيجية عينة ما بعد الحدث في شكل عام لمكون DDIM بشكل متسلسل، مما يمنع التحولات اللاتينية غير الموزعة. بالإضافة إلى ذلك، يحتوي إطار HD-Painter على تقنية超 الحل العالي المخصصة للإنباط، مما يسمح له بالتوسع إلى مقاييس أكبر وملء المناطق المفقودة في الصورة بدقة تصل إلى 2K.

HD-Painter: إنباط الصور الموجهة بالنص

لقد كانت نماذج الانتشار النصية إلى الصورة موضوعًا هامًا في صناعة الذكاء الاصطناعي والتعلم الآلي في الأشهر الأخيرة، مع نماذج تظهر قدراتها في الوقت الفعلي عبر تطبيقات عملية مختلفة. أظهرت نماذج التوليد النصي إلى الصورة المسبقة التدريب مثل DALL-E وImagen وStable Diffusion ملاءمتها لإكمال الصورة عن طريق دمج المناطق غير المعروفة المزالة الضوضاء مع المناطق المعروفة المزالة الضوضاء خلال عملية الانتشار العكسي. على الرغم من إنتاج مخرجات بصرية جذابة ومتناسقة جيدًا، تعاني النماذج الحالية من فهم المشهد العالمي، خاصة تحت عملية إزالة الضوضاء في خطوات انتشار عالية. من خلال تعديل نماذج الانتشار النصية إلى الصورة المسبقة التدريب لدمج معلومات سياق إضافية، يمكن تعديلها لتحقيق إنباط الصور الموجهة بالنص.

علاوة على ذلك، داخل نماذج الانتشار، فإن إنباط الصور الموجهة بالنص وإنباط الصور الموجهة بالنص هي مجالات رئيسية للاهتمام للباحثين. يتم تشجيع هذا الاهتمام من حقيقة أن نماذج إنباط الصور الموجهة بالنص يمكنها توليد محتوى في مناطق محددة من الصورة الإدخال بناءً على подсказات نصية، مما يؤدي إلى تطبيقات محتملة مثل تعديل مناطق محددة من الصورة، وتعديل سمات الموضوع مثل الألوان أو الملابس، وإضافة أو استبدال الكائنات. في الخلاصة، حققت نماذج الانتشار النصية إلى الصورة نجاحًا غير مسبوق في الآونة الأخيرة، بسبب قدراتها التوليدية الاستثنائية والبصرية الجذابة.

然而، تعاني معظم الإطارات الحالية من إهمال السؤال في سيناريوهين. الأول هو هيمنة الخلفية عندما تكمل النموذج المنطقة غير المعروفة بالIGNORING السؤال في الخلفية، بينما السيناريو الثاني هو هيمنة الكائن القريب عندما ينتشر النموذج كائنات المنطقة المعروفة إلى المنطقة غير المعروفة باستخدام احتمالية السياق البصري بدلاً من السؤال الإدخالي. ومن الممكن أن تكون هذه القضايا ناتجة عن قدرة إنباط الانتشار الفانيليا على تفسير السؤال النصي بدقة أو مزيجها مع المعلومات السياقية المستلمة من المنطقة المعروفة.

لمواجهة هذه العوائق، يقدم إطار HD-Painter طبقة الانتباه المتأمل الموجه بالسؤال أو PAIntA، والتي تستخدم معلومات السؤال لتعزيز درجات الانتباه الذاتي، مما يؤدي إلى توليد محاذاة نصية أفضل. يستخدم PAIntA التوجيه النصي المحدد لتعزيز درجة الانتباه الذاتي الغرض من تحسين التوليد المحاذي للنص. كما يطبق إطار HD-Painter طريقة توجيه بعد الحدث لتحسين التوليد المحاذي للنص.

HD-Painter: الطريقة والهيكل

قبل أن ننظر إلى الهيكل، من المهم فهم ثلاثة مفاهيم أساسية تشكل أساس إطار HD-Painter: إنباط الصور، وتوجيه بعد الحدث في إطارات الانتشار، و كتل هيكلية مخصصة للإنباط.

الانتشار المستقر والإنباط المستقر

الانتشار المستقر هو نموذج انتشار يعمل في مساحة التشفير الذاتي. لتحقيق التوليد النصي إلى الصورة، يطبق إطار الانتشار المستقر توجيهًا نصيًا لتحقيق العملية.

الانتباه المتأمل الموجه بالسؤال أو PAIntA

نماذج الإنباط الحالية مثل الإنباط المستقر تعتمد بشكل أكبر على السياق البصري حول منطقة الإنباط وت忽略 السؤال الإدخالي.

توجيه درجة الانتباه المعاد تقييمه أو RASG

يتبنى إطار HD-Painter نهج عينة توجيه بعد الحدث لتحسين التوليد المحاذي للنص.

HD-Painter: التجارب والنتائج

لتحليل أدائه، يتم مقارنة إطار HD-Painter بالموديلات الحالية بما في ذلك الإنباط المستقر وGLIDE وBLD.

أفكار ختامية

في هذه المقالة، تحدثنا عن HD-Painter، وهو نهج إنباط صوري بدقة عالية وموجه بنصي بدون تدريب، يعالج التحديات التي تواجهها الإطارات الحالية، بما في ذلك إهمال السؤال وسيطرة الكائن القريب وسيطرة الخلفية.

مهندس بالمهنة، كاتب بالقلب. كونال هو كاتب تقني مع حب عميق وفهم لتقنيات الذكاء الاصطناعي والتعلم الآلي، مخصص لتبسيط المفاهيم المعقدة في هذه المجالات من خلال توثيقه الممتع والمعلوماتي.