رطم النمط الفوري: الحفاظ على النمط في إنشاء النص إلى صورة - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

النمط الفوري: الحفاظ على النمط في إنشاء النص إلى صورة

mm

تم النشر

 on

على مدى السنوات القليلة الماضية، أظهرت نماذج الانتشار القائمة على الضبط تقدمًا ملحوظًا عبر مجموعة واسعة من مهام تخصيص الصور وتخصيصها. ومع ذلك، على الرغم من إمكاناتها، لا تزال نماذج الانتشار الحالية القائمة على الضبط تواجه مجموعة من التحديات المعقدة في إنتاج وإنشاء صور متسقة مع الأسلوب، وقد يكون هناك ثلاثة أسباب وراء ذلك. أولاً، لا يزال مفهوم الأسلوب غير محدد وغير محدد على نطاق واسع، ويشتمل على مجموعة من العناصر بما في ذلك الجو والبنية والتصميم والمواد واللون وغير ذلك الكثير. الأساليب الثانية المعتمدة على الانقلاب تكون عرضة لتدهور النمط، مما يؤدي إلى فقدان متكرر للتفاصيل الدقيقة. أخيرًا، تتطلب الأساليب المعتمدة على المحول ضبطًا متكررًا للوزن لكل صورة مرجعية للحفاظ على التوازن بين إمكانية التحكم في النص وكثافة النمط. 

علاوة على ذلك، فإن الهدف الأساسي لغالبية أساليب نقل الأنماط أو إنشاء صور النمط هو استخدام الصورة المرجعية، وتطبيق نمطها المحدد من مجموعة فرعية معينة أو صورة مرجعية على صورة محتوى مستهدفة. ومع ذلك، فإن العدد الكبير من سمات الأسلوب هو الذي يجعل المهمة صعبة على الباحثين في جمع مجموعات بيانات منمقة، وتمثيل الأسلوب بشكل صحيح، وتقييم نجاح النقل. في السابق، كانت النماذج والأطر التي تتعامل مع عملية النشر القائمة على الضبط الدقيق، تقوم بضبط مجموعة بيانات الصور التي تشترك في نمط مشترك، وهي عملية تستغرق وقتًا طويلاً، وذات إمكانية تعميم محدودة في مهام العالم الحقيقي نظرًا لصعوبة ذلك لجمع مجموعة فرعية من الصور التي تشترك في نفس النمط أو مطابق تقريبًا. 

في هذه المقالة، سنتحدث عن InstantStyle، وهو إطار عمل مصمم بهدف معالجة المشكلات التي تواجهها نماذج النشر الحالية القائمة على الضبط لتوليد الصور وتخصيصها. سنتحدث عن الاستراتيجيتين الرئيسيتين اللتين ينفذهما إطار عمل InstantStyle: 

  1. طريقة بسيطة ولكنها فعالة لفصل النمط والمحتوى عن الصور المرجعية داخل مساحة الميزة، ويتم التنبؤ بها على افتراض أنه يمكن إضافة الميزات الموجودة في نفس مساحة الميزة إلى بعضها البعض أو طرحها من بعضها البعض. 
  2. منع تسرب النمط عن طريق حقن ميزات الصورة المرجعية حصريًا في الكتل الخاصة بالنمط، وتجنب الحاجة إلى استخدام أوزان مرهقة للضبط الدقيق، وغالبًا ما تميز التصميمات ذات المعلمات الثقيلة. 

تهدف هذه المقالة إلى تغطية إطار عمل InstantStyle بعمق، ونستكشف الآلية والمنهجية وبنية الإطار بالإضافة إلى مقارنته بأطر العمل الحديثة. سنتحدث أيضًا عن كيفية إظهار إطار عمل InstantStyle لنتائج الأسلوب المرئي الرائعة، وتحقيق التوازن الأمثل بين إمكانية التحكم في العناصر النصية وكثافة الأسلوب. اذا هيا بنا نبدأ. 

InstantStyle: الحفاظ على النمط في النص وإنشاء الصور

لقد حققت أطر الذكاء الاصطناعي المستندة إلى نشر النص إلى الصور نجاحًا ملحوظًا وملحوظًا عبر مجموعة واسعة من مهام التخصيص والتخصيص، لا سيما في مهام إنشاء الصور المتسقة بما في ذلك تخصيص الكائنات والحفاظ على الصور ونقل الأنماط. ومع ذلك، على الرغم من النجاح الأخير وتعزيز الأداء، يظل نقل الأسلوب مهمة صعبة بالنسبة للباحثين نظرًا لطبيعة الأسلوب غير المحددة وغير المحددة، والتي غالبًا ما تتضمن مجموعة متنوعة من العناصر بما في ذلك الغلاف الجوي والبنية والتصميم والمواد واللون وغير ذلك الكثير. مع ما قيل، فإن الهدف الأساسي من إنشاء صورة منمقة أو نقل النمط هو تطبيق النمط المحدد من صورة مرجعية معينة أو مجموعة فرعية مرجعية من الصور إلى صورة المحتوى المستهدف. ومع ذلك، فإن العدد الكبير من سمات الأسلوب يجعل المهمة صعبة على الباحثين في جمع مجموعات بيانات منمقة، وتمثيل الأسلوب بشكل صحيح، وتقييم نجاح النقل. في السابق، كانت النماذج والأطر التي تتعامل مع عملية النشر القائمة على الضبط الدقيق، تقوم بضبط مجموعة بيانات الصور التي تشترك في نمط مشترك، وهي عملية تستغرق وقتًا طويلاً، وذات إمكانية تعميم محدودة في مهام العالم الحقيقي نظرًا لصعوبة ذلك لجمع مجموعة فرعية من الصور التي تشترك في نفس النمط أو مطابق تقريبًا. 

مع التحديات التي يواجهها النهج الحالي، اهتم الباحثون بتطوير أساليب الضبط الدقيق لنقل الأسلوب أو توليد الصور منمنمة، ويمكن تقسيم هذه الأطر إلى مجموعتين مختلفتين: 

  • النهج الخالية من المحول: تعمل الأساليب والأطر الخالية من المحولات على تعزيز قوة الاهتمام الذاتي ضمن عملية النشر، ومن خلال تنفيذ عملية الاهتمام المشترك، تكون هذه النماذج قادرة على استخراج الميزات الأساسية بما في ذلك المفاتيح والقيم من صور نمط مرجعي معين مباشرةً. 
  • النهج القائم على المحول: من ناحية أخرى، تتضمن الأساليب والأطر القائمة على المحول نموذجًا خفيف الوزن مصممًا لاستخراج تمثيلات الصور التفصيلية من صور النمط المرجعي. يقوم الإطار بعد ذلك بدمج هذه التمثيلات في عملية النشر بمهارة باستخدام آليات الانتباه المتبادل. الهدف الأساسي من عملية التكامل هو توجيه عملية الإنشاء، والتأكد من أن الصورة الناتجة تتماشى مع الفروق الأسلوبية المطلوبة للصورة المرجعية. 

ومع ذلك، على الرغم من الوعود، غالبًا ما تواجه الأساليب الخالية من الضبط بعض التحديات. أولاً، يتطلب النهج الخالي من المحول تبادل المفاتيح والقيم داخل طبقات الاهتمام الذاتي، والتقاط مصفوفات المفتاح والقيمة مسبقًا المشتقة من صور النمط المرجعي. عند تطبيقه على الصور الطبيعية، يتطلب النهج الخالي من المحولات عكس الصورة مرة أخرى إلى الضوضاء الكامنة باستخدام تقنيات مثل DDIM أو انعكاس نماذج الانتشار الضمني. ومع ذلك، فإن استخدام DDIM أو أساليب الانعكاس الأخرى قد يؤدي إلى فقدان التفاصيل الدقيقة مثل اللون والملمس، وبالتالي تقليل معلومات النمط في الصور التي تم إنشاؤها. وعلاوة على ذلك، فإن الخطوة الإضافية التي تقدمها هذه الأساليب هي عملية تستغرق وقتا طويلا، ويمكن أن تشكل عيوبا كبيرة في التطبيقات العملية. من ناحية أخرى، فإن التحدي الأساسي للأساليب المعتمدة على المحول يكمن في تحقيق التوازن الصحيح بين تسرب السياق وكثافة الأسلوب. يحدث تسرب المحتوى عندما تؤدي الزيادة في كثافة النمط إلى ظهور عناصر غير نمطية من الصورة المرجعية في المخرجات التي تم إنشاؤها، حيث تكون نقطة الصعوبة الأساسية هي فصل الأنماط عن المحتوى داخل الصورة المرجعية بشكل فعال. لمعالجة هذه المشكلة، تقوم بعض الأطر بإنشاء مجموعات بيانات مقترنة تمثل نفس الكائن في أنماط مختلفة، مما يسهل استخراج تمثيل المحتوى والأنماط غير المتشابكة. ومع ذلك، وبفضل التمثيل غير المحدد بطبيعته للأسلوب، فإن مهمة إنشاء مجموعات بيانات مزدوجة واسعة النطاق محدودة من حيث تنوع الأنماط التي يمكنها التقاطها، كما أنها عملية كثيفة الاستخدام للموارد أيضًا. 

ولمعالجة هذه القيود، تم تقديم إطار عمل InstantStyle وهو عبارة عن آلية جديدة خالية من الضبط تعتمد على الأساليب القائمة على المحول مع القدرة على التكامل بسلاسة مع طرق الحقن الأخرى القائمة على الاهتمام، وتحقيق فصل المحتوى والأسلوب بشكل فعال. علاوة على ذلك، لا يقدم إطار عمل InstantStyle طريقة واحدة، بل طريقتين فعالتين لإكمال فصل النمط والمحتوى، وتحقيق ترحيل أفضل للأسلوب دون الحاجة إلى تقديم طرق إضافية لتحقيق الفصل أو إنشاء مجموعات بيانات مقترنة. 

علاوة على ذلك، تم استخدام الأطر السابقة المستندة إلى المحول على نطاق واسع في الأساليب المستندة إلى CLIP كمستخرج لميزات الصورة، وقد استكشفت بعض الأطر إمكانية تنفيذ فصل الميزات داخل مساحة الميزة، وعند مقارنتها بعدم تحديد النمط، فمن الأسهل وصف المحتوى بالنص. نظرًا لأن الصور والنصوص تشترك في مساحة الميزات في الأساليب المستندة إلى CLIP، فإن عملية طرح بسيطة لميزات نص السياق وميزات الصورة يمكن أن تقلل من تسرب المحتوى بشكل كبير. علاوة على ذلك، في أغلبية نماذج الانتشار، هناك طبقة معينة في بنيتها تقوم بإدخال معلومات النمط، وتنجز فصل المحتوى والنمط عن طريق حقن ميزات الصورة فقط في كتل نمط محددة. من خلال تنفيذ هاتين الاستراتيجيتين البسيطتين، يستطيع إطار عمل InstantStyle حل مشكلات تسرب المحتوى التي تواجهها غالبية الأطر الحالية مع الحفاظ على قوة الأسلوب. 

لتلخيص ذلك، يستخدم إطار عمل InstantStyle آليتين بسيطتين ومباشرتين ولكن فعالتين لتحقيق فصل فعال بين المحتوى والأسلوب من الصور المرجعية. يعد إطار عمل Instant-Style نموذجًا مستقلاً وخاليًا من الضبط ويظهر أداءً رائعًا في مهام نقل النمط مع إمكانات هائلة للمهام النهائية. 

النمط الفوري: المنهجية والهندسة المعمارية

كما هو موضح من خلال الأساليب السابقة، هناك توازن في حقن شروط النمط في نماذج الانتشار الخالية من الضبط. إذا كانت شدة حالة الصورة عالية جدًا، فقد يؤدي ذلك إلى تسرب المحتوى، بينما إذا انخفضت شدة حالة الصورة بشكل منخفض جدًا، فقد لا يبدو النمط واضحًا بدرجة كافية. أحد الأسباب الرئيسية وراء هذه الملاحظة هو أنه في الصورة، يكون النمط والمحتوى مترابطين، ونظرًا لسمات النمط المتأصلة غير المحددة، فمن الصعب فصل الأسلوب والقصد. ونتيجة لذلك، غالبًا ما يتم ضبط الأوزان الدقيقة لكل صورة مرجعية في محاولة لتحقيق التوازن بين إمكانية التحكم في النص وقوة الأسلوب. علاوة على ذلك، بالنسبة لصورة مرجعية إدخال معينة ووصف النص المقابل لها في الطرق القائمة على الانعكاس، يتم اعتماد أساليب الانعكاس مثل DDIM على الصورة للحصول على مسار الانتشار المقلوب، وهي عملية تقارب معادلة الانعكاس لتحويل الصورة إلى صورة كامنة تمثيل الضوضاء. بناءً على نفس الشيء، والبدء من مسار الانتشار المقلوب جنبًا إلى جنب مع مجموعة جديدة من المطالبات، تولد هذه الأساليب محتوى جديدًا بأسلوب يتماشى مع المدخلات. ومع ذلك، كما هو موضح في الشكل التالي، غالبًا ما يكون نهج عكس DDIM للصور الحقيقية غير مستقر لأنه يعتمد على افتراضات الخطية المحلية، مما يؤدي إلى انتشار الأخطاء، ويؤدي إلى فقدان المحتوى وإعادة بناء الصورة بشكل غير صحيح. 

فيما يتعلق بالمنهجية، بدلاً من استخدام استراتيجيات معقدة لفصل المحتوى والأسلوب عن الصور، يتخذ إطار Instant-Style أبسط نهج لتحقيق أداء مماثل. عند مقارنتها بسمات النمط غير المحددة، يمكن تمثيل المحتوى بنص طبيعي، مما يسمح لإطار النمط الفوري باستخدام أداة تشفير النص من CLIP لاستخراج خصائص نص المحتوى كتمثيلات للسياق. في الوقت نفسه، يقوم إطار عمل Instant-Style بتنفيذ برنامج تشفير الصور CLIP لاستخراج ميزات الصورة المرجعية. من خلال الاستفادة من توصيف ميزات CLIP العالمية، وبعد طرح ميزات نص المحتوى من ميزات الصورة، فإن إطار عمل Instant-Style قادر على فصل النمط والمحتوى بشكل صريح. على الرغم من أنها استراتيجية بسيطة، إلا أنها تساعد إطار عمل Instant-Style على أن يكون فعالًا جدًا في تقليل تسرب المحتوى إلى الحد الأدنى. 

علاوة على ذلك، فإن كل طبقة داخل شبكة عميقة مسؤولة عن التقاط معلومات دلالية مختلفة، والملاحظة الرئيسية من النماذج السابقة هي وجود طبقتين من الاهتمام مسؤولين عن التعامل مع الأسلوب. على وجه التحديد، فإن الكتل.0.الانتباه.1 والكتل السفلية.2.الانتباه.1 هي الطبقات المسؤولة عن التقاط النمط مثل اللون والمواد والغلاف الجوي وطبقة التخطيط المكاني التي تلتقط البنية والتكوين على التوالي. يستخدم إطار عمل Instant-Style هذه الطبقات ضمنيًا لاستخراج معلومات النمط، ويمنع تسرب المحتوى دون فقدان قوة النمط. تعتبر الإستراتيجية بسيطة ولكنها فعالة نظرًا لأن النموذج قد حدد كتل الأنماط التي يمكنها حقن ميزات الصورة في هذه الكتل لتحقيق نقل سلس للنمط. علاوة على ذلك، نظرًا لأن النموذج يقلل بشكل كبير من عدد معلمات المحول، فقد تم تحسين قدرة التحكم في النص للإطار، كما تنطبق الآلية أيضًا على نماذج حقن الميزات الأخرى القائمة على الاهتمام للتحرير والمهام الأخرى. 

النمط الفوري: التجارب والنتائج

يتم تنفيذ إطار Instant-Style على إطار عمل Stable Diffusion XL، ويستخدم محول IR المدرب مسبقًا والمعتمد بشكل شائع كنموذج له للتحقق من صحة منهجيته، وكتم صوت جميع الكتل باستثناء كتل النمط لميزات الصورة. يقوم نموذج Instant-Style أيضًا بتدريب محول IR على 4 ملايين مجموعة بيانات مقترنة بصور نصية كبيرة الحجم من البداية، وبدلاً من تدريب جميع الكتل، يقوم بتحديث كتل النمط فقط. 

لإجراء قدرات التعميم والقوة، يقوم إطار عمل Instant-Style بإجراء العديد من تجارب نقل الأنماط باستخدام أنماط مختلفة عبر محتوى مختلف، ويمكن ملاحظة النتائج في الصور التالية. نظرًا لصورة مرجعية ذات نمط واحد بالإضافة إلى مطالبات مختلفة، يوفر إطار عمل Instant-Style جودة عالية وأسلوبًا متسقًا توليد الصور

علاوة على ذلك، نظرًا لأن النموذج يقوم بإدخال معلومات الصورة فقط في كتل النمط، فإنه قادر على التخفيف من مشكلة تسرب المحتوى بشكل كبير، وبالتالي لا يحتاج إلى إجراء ضبط الوزن. 

بالمضي قدمًا، يعتمد إطار Instant-Style أيضًا بنية ControlNet لتحقيق أسلوب قائم على الصور مع التحكم المكاني، وتظهر النتائج في الصورة التالية. 

عند مقارنتها بأحدث الأساليب السابقة بما في ذلك StyleAlign وB-LoRA وSwapping Self Attention وIP-Adapter، يُظهر إطار عمل Instant-Style أفضل التأثيرات المرئية. 

افكار اخيرة

تحدثنا في هذه المقالة عن Instant-Style، وهو إطار عمل عام يستخدم استراتيجيتين بسيطتين ولكن فعالتين لتحقيق فصل فعال بين المحتوى والأسلوب عن الصور المرجعية. تم تصميم إطار عمل InstantStyle بهدف معالجة المشكلات التي تواجهها نماذج النشر الحالية القائمة على الضبط لتوليد الصور وتخصيصها. ينفذ إطار عمل Instant-Style استراتيجيتين حيويتين: نهج بسيط ولكنه فعال لفصل النمط والمحتوى عن الصور المرجعية داخل مساحة الميزة، ويتم التنبؤ به على افتراض أنه يمكن إضافة الميزات الموجودة في نفس مساحة الميزة إلى بعضها البعض أو طرحها من بعضها البعض. ثانيًا، منع تسرب النمط عن طريق حقن ميزات الصورة المرجعية حصريًا في الكتل الخاصة بالنمط، وتجنب الحاجة إلى استخدام أوزان مرهقة للضبط الدقيق، وغالبًا ما تميز التصميمات ذات المعلمات الثقيلة. 

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.