اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

أشرطة تمرير المفهوم: التحكم الدقيق في نماذج الانتشار باستخدام محولات LoRA

mm
تحديث on

بفضل قدراتهم، النص إلى الصورة نماذج الانتشار أصبحت تحظى بشعبية كبيرة في المجتمع الفني. ومع ذلك، فإن النماذج الحالية، بما في ذلك الأطر الحديثة، غالبًا ما تكافح للحفاظ على السيطرة على المفاهيم والسمات المرئية في الصور التي تم إنشاؤها، مما يؤدي إلى مخرجات غير مرضية. تعتمد معظم النماذج فقط على المطالبات النصية، مما يشكل تحديات في تعديل السمات المستمرة مثل شدة الطقس، أو حدة الظلال، أو تعبيرات الوجه، أو عمر الشخص بدقة. وهذا يجعل من الصعب على المستخدمين النهائيين ضبط الصور لتلبية احتياجاتهم الخاصة. علاوة على ذلك، على الرغم من أن هذه الأطر التوليدية تنتج صورًا واقعية وعالية الجودة، إلا أنها عرضة للتشوهات مثل الوجوه المشوهة أو الأصابع المفقودة.

للتغلب على هذه القيود، اقترح المطورون استخدام أشرطة تمرير المفاهيم القابلة للتفسير. تعد أشرطة التمرير هذه بتحكم أكبر للمستخدمين النهائيين في السمات المرئية، مما يعزز إنشاء الصور وتحريرها ضمن نماذج النشر. تعمل أشرطة تمرير المفهوم في نماذج الانتشار من خلال تحديد اتجاه المعلمة المطابق لمفهوم فردي مع تقليل التداخل مع السمات الأخرى. يقوم إطار العمل بإنشاء أشرطة التمرير هذه باستخدام نماذج الصور أو مجموعة من المطالبات، وبالتالي تحديد الاتجاهات لكل من المفاهيم النصية والمرئية.

في النهاية، استخدام Concept Sliders في تحويل النص إلى صورة نماذج الانتشار يمكن أن يؤدي إلى توليد صور بأقل درجة من التداخل، وتعزيز التحكم في المخرجات النهائية مع زيادة الواقعية المدركة أيضًا دون تغيير محتوى الصور، وبالتالي توليد صور واقعية. في هذه المقالة، سنناقش مفهوم استخدام Concept Sliders في أطر تحويل النص إلى صور بعمق أكبر، ونحلل كيف يمكن أن يؤدي استخدامه إلى صور عالية الجودة تم إنشاؤها بواسطة الذكاء الاصطناعي. 

مقدمة إلى مفهوم المتزلجون

كما ذكرنا سابقًا، غالبًا ما تكافح أطر نشر النص إلى الصورة الحالية للتحكم في المفاهيم والسمات المرئية في الصور التي تم إنشاؤها، مما يؤدي إلى نتائج غير مرضية. علاوة على ذلك، فإن العديد من هذه النماذج تجد صعوبة في تعديل السمات المستمرة، مما يساهم بشكل أكبر في تحقيق نتائج غير مرضية. قد تساعد أشرطة تمرير المفاهيم في التخفيف من هذه المشكلات، وتمكين منشئي المحتوى والمستخدمين النهائيين من خلال التحكم المعزز في عملية إنشاء الصور ومعالجة التحديات التي تواجهها الأطر الحالية.

تعتمد معظم نماذج نشر النص إلى الصورة الحالية على التعديل المباشر للنص للتحكم في سمات الصورة. على الرغم من أن هذا الأسلوب يسمح بتوليد الصور، إلا أنه ليس الأمثل حيث أن تغيير الموجه يمكن أن يغير بنية الصورة بشكل جذري. يتضمن النهج الآخر الذي تستخدمه هذه الأطر تقنيات ما بعد المخصصة، والتي تعمل على عكس عملية الانتشار وتعديل الانتباه المتبادل لتحرير المفاهيم المرئية. ومع ذلك، فإن التقنيات اللاحقة لها قيود، حيث تدعم عددًا محدودًا فقط من التعديلات المتزامنة وتتطلب تصاريح تدخل فردية لكل مفهوم جديد. بالإضافة إلى ذلك، فإنها يمكن أن تقدم تشابكًا مفاهيميًا إذا لم يتم تصميمها بعناية.

في المقابل، تقدم Concept Sliders حلاً أكثر كفاءة لإنشاء الصور. يمكن تطبيق هذه المحولات خفيفة الوزن وسهلة الاستخدام على النماذج المدربة مسبقًا، مما يعزز التحكم والدقة في المفاهيم المرغوبة في تمريرة تداخل واحدة بأقل قدر من التشابك. تتيح أشرطة تمرير المفاهيم أيضًا إمكانية تحرير المفاهيم المرئية التي لا تغطيها الأوصاف النصية، وهي ميزة تميزها عن أساليب التحرير المستندة إلى الموجهات النصية. في حين أن أساليب التخصيص القائمة على الصور يمكن أن تضيف رموزًا مميزة للمفاهيم القائمة على الصور بشكل فعال، إلا أنه من الصعب تنفيذها لتحرير الصور. ومن ناحية أخرى، تسمح أشرطة تمرير المفاهيم للمستخدمين النهائيين بتوفير عدد صغير من الصور المقترنة التي تحدد المفهوم المطلوب. تقوم أشرطة التمرير بعد ذلك بتعميم هذا المفهوم وتطبيقه تلقائيًا على صور أخرى، بهدف تعزيز الواقعية وإصلاح التشوهات كما هو الحال في اليدين.

يسعى Concept Sliders إلى التعلم من المشكلات المشتركة بين أربعة مفاهيم وإطار عمل للذكاء الاصطناعي والنشر ومعالجتها: تحرير الصور، والأساليب القائمة على التوجيه، وتحرير النماذج، والاتجاهات الدلالية.

تعديل الصوره

تركز أطر الذكاء الاصطناعي الحالية إما على استخدام المدخلات الشرطية لتوجيه بنية الصورة، أو أنها تتعامل مع الانتباه المتبادل للصورة المصدر مع موجهها المستهدف لتمكين تحرير صورة واحدة في النص إلى أطر نشر الصور. ونتيجة لذلك، لا يمكن تنفيذ هذه الأساليب إلا على صور فردية، كما أنها تتطلب أيضًا تحسين الأساس الكامن لكل صورة نتيجة لتطور البنية الهندسية عبر الخطوات الزمنية عبر المطالبات. 

الأساليب القائمة على التوجيه

وقد أشار استخدام الأساليب القائمة على التوجيه الخالية من المصنف إلى قدرتها على تحسين جودة الصور التي تم إنشاؤها، وتعزيز محاذاة النص مع الصورة. من خلال دمج مصطلحات التوجيه أثناء التداخل، تعمل الطريقة على تحسين التركيب المحدود الموروثة من أطر الانتشار، ويمكن استخدامها للتوجيه من خلال المفاهيم غير الآمنة في أطر الانتشار. 

تحرير النموذج

يمكن أيضًا اعتبار استخدام Concept Sliders بمثابة تقنية تحرير نموذج تستخدم محولًا منخفض الرتبة لإخراج سمة دلالية واحدة توفر مساحة للتحكم المستمر الذي يتماشى مع السمة. يتم بعد ذلك استخدام أساليب التخصيص القائمة على الضبط الدقيق لتخصيص إطار العمل لإضافة مفاهيم جديدة. علاوة على ذلك، تقترح تقنية النشر المخصص طريقة لضبط طبقات الانتباه المتبادل لدمج مفاهيم مرئية جديدة في نماذج النشر المدربة مسبقًا. على العكس من ذلك، تقترح تقنية نشر النص تحسين ناقل التضمين لتنشيط قدرات النموذج وإدخال المفاهيم النصية في الإطار. 

الاتجاه الدلالي في شبكات GAN

يعد التلاعب بالسمات الدلالية أحد السمات الرئيسية لشبكات الخصومة التوليدية مع العثور على مسارات فضائية كامنة تتماشى بطريقة ذاتية الإشراف. في أطر الانتشار، توجد مسارات الفضاء الكامنة هذه في الطبقات الوسطى من بنية U-Net، والاتجاه الرئيسي للمساحات الكامنة في أطر الانتشار يجسد دلالات عالمية. تقوم أشرطة تمرير المفهوم بتدريب المساحات الفرعية ذات الترتيب المنخفض التي تتوافق مع السمات الخاصة مباشرةً، وتحصل على اتجاهات تحرير دقيقة ومحلية باستخدام أزواج النص أو الصور لتحسين الاتجاهات العامة. 

منزلقات المفهوم: الهندسة المعمارية والعمل

نماذج الانتشار ومحولات LoRA أو ذات الرتبة المنخفضة

تعد نماذج الانتشار في الأساس فئة فرعية من أطر الذكاء الاصطناعي التوليدية التي تعمل على مبدأ تجميع البيانات عن طريق عكس عملية الانتشار. تضيف عملية الانتشار الأمامي في البداية ضوضاء إلى البيانات، وبالتالي الانتقال من حالة منظمة إلى حالة ضوضاء غاوسية كاملة. الهدف الأساسي لنماذج الانتشار هو عكس عملية الانتشار عن طريق تقليل الضوضاء من الصورة تدريجيًا، وأخذ عينات من الضوضاء الغوسية العشوائية لإنشاء صورة. في تطبيقات العالم الحقيقي، الهدف الأساسي لأطر الانتشار هو التنبؤ بالضوضاء الحقيقية عندما يتم تغذية الضوضاء الغوسية الكاملة كمدخلات مع مدخلات إضافية مثل التكييف والخطوة الزمنية. 

تعمل تقنية LoRA أو Low Rank Adaptors على تحليل تحديثات الوزن أثناء الضبط الدقيق لتمكين التكيف الفعال للأطر الكبيرة المدربة مسبقًا في المهام النهائية. تعمل تقنية LoRA على تحليل تحديثات الوزن لطبقة نموذجية مدربة مسبقًا فيما يتعلق بكل من أبعاد الإدخال والإخراج، وتقيد التحديث بمساحة فرعية منخفضة الأبعاد. 

المتزلجون مفهوم

الهدف الأساسي من Concept Sliders هو أن يكون بمثابة نهج لضبط محولات LoRA على إطار نشر لتسهيل درجة أكبر من التحكم في الصور المستهدفة بالمفهوم، ويتم توضيح الشيء نفسه في الصورة التالية. 

عندما تكون مشروطة بالمفاهيم المستهدفة، تتعلم أشرطة تمرير المفاهيم اتجاهات المعلمات ذات الرتبة المنخفضة إما لزيادة أو تقليل التعبير عن سمات معينة. بالنسبة للنموذج ومفهومه المستهدف، فإن الهدف الأساسي لـ Concept Sliders هو الحصول على نموذج محسّن يعدل احتمالية تحسين وقمع السمات الخاصة بالصورة عندما يكون مشروطًا بالمفهوم المستهدف لزيادة احتمالية تعزيز السمات وتقليل الاحتمالية من قمع الصفات باستخدام إعادة المعلمة وصيغة تويدي، يقدم الإطار عملية ضوضاء متغيرة بمرور الوقت، ويعبر عن كل نتيجة كتنبؤ لتقليل الضوضاء. علاوة على ذلك، يقوم هدف فك التشابك بضبط الوحدات في Concept Sliders مع الحفاظ على ثبات الأوزان المدربة مسبقًا، ويتم تعديل عامل القياس الذي تم تقديمه أثناء صياغة LoRA أثناء التداخل. يعمل عامل القياس أيضًا على تسهيل ضبط نقاط قوة التحرير، ويجعل عمليات التحرير أقوى دون إعادة تدريب إطار العمل كما هو موضح في الصورة التالية. 

سهلت أساليب التحرير المستخدمة سابقًا بواسطة الأطر إجراء تعديلات أقوى من خلال إعادة تدريب الإطار مع المزيد من التوجيه. ومع ذلك، فإن قياس عامل القياس أثناء التداخل يؤدي إلى نفس نتائج التحرير دون زيادة تكلفة إعادة التدريب والوقت. 

تعلم المفاهيم البصرية

تم تصميم أشرطة تمرير المفاهيم بطريقة للتحكم في المفاهيم المرئية التي لا تستطيع المطالبات النصية تعريفها بشكل جيد، وتستفيد أشرطة التمرير هذه من مجموعات البيانات الصغيرة التي يتم إقرانها قبلها أو بعدها للتدريب على هذه المفاهيم. يسمح التباين بين أزواج الصور لأشرطة التمرير بتعلم المفاهيم المرئية. علاوة على ذلك، تعمل عملية تدريب Concept Sliders على تحسين مكون LoRA المطبق في كلا الاتجاهين الأمامي والخلفي. ونتيجة لذلك، يتماشى مكون LoRA مع الاتجاه الذي يسبب التأثيرات المرئية في كلا الاتجاهين. 

أشرطة تمرير المفهوم: نتائج التنفيذ

لتحليل المكاسب في الأداء، قام المطورون بتقييم استخدام Concept Sliders بشكل أساسي على انتشار مستقر XL، إطار عمل عالي الدقة بدقة 1024 بكسل مع تجارب إضافية تم إجراؤها على إطار عمل Stable Diffusion v1.4 مع النماذج التي تم تدريبها لمدة 500 حقبة لكل منها. 

منزلقات المفهوم النصي

لتقييم أداء شرائح المفاهيم النصية، يتم التحقق من صحتها على مجموعة من 30 مفهومًا قائمًا على النص، وتتم مقارنة الطريقة مع خطين أساسيين يستخدمان مطالبة نصية قياسية لعدد محدد من الخطوات الزمنية، ثم يبدأ التكوين بواسطة إضافة مطالبات لتوجيه الصورة. كما هو موضح في الشكل التالي، يؤدي استخدام Concept Sliders إلى ارتفاع درجة CLIP باستمرار، وانخفاض مستمر في درجة LPIPS عند مقارنتها بالإطار الأصلي بدون Concept Sliders. 

كما هو واضح في الصورة أعلاه، فإن استخدام Concept Sliders يسهل التحرير الدقيق للسمات المطلوبة أثناء عملية إنشاء الصورة مع الحفاظ على البنية العامة للصورة. 

أشرطة تمرير المفاهيم المرئية

غالبًا ما تجد نماذج نشر النص إلى صورة التي تستخدم المطالبات النصية فقط صعوبة في الحفاظ على درجة أعلى من التحكم في السمات المرئية مثل شعر الوجه أو أشكال العين. لضمان تحكم أفضل في السمات التفصيلية، تستفيد أدوات Concept Sliders من التوجيه النصي الاختياري المقترن بمجموعات بيانات الصور. كما هو موضح في الشكل أدناه، تقوم Concept Sliders بإنشاء أشرطة تمرير فردية لـ "حجم العين" و"شكل الحاجب" التي تلتقط التحولات المطلوبة باستخدام أزواج الصور. 

يمكن تحسين النتائج بشكل أكبر من خلال توفير نصوص محددة بحيث يركز الاتجاه على منطقة الوجه تلك، وينشئ أشرطة تمرير ذات تحكم تدريجي في السمة المستهدفة. 

تأليف المتزلجون

إحدى المزايا الرئيسية لاستخدام Concept Sliders هي قابلية التركيب التي تسمح للمستخدمين بدمج عدة أشرطة تمرير للحصول على قدر معزز من التحكم بدلاً من التركيز على مفهوم واحد في كل مرة، وهو ما يمكن أن يرجع إلى اتجاهات أشرطة التمرير ذات التصنيف المنخفض المستخدمة في Concept Sliders . بالإضافة إلى ذلك، نظرًا لأن Concept Sliders عبارة عن محولات LoRA خفيفة الوزن، فمن السهل مشاركتها، ويمكن أيضًا تركيبها بسهولة نماذج الانتشار. يمكن للمستخدمين أيضًا ضبط مقابض متعددة في وقت واحد لتوجيه الأجيال المعقدة عن طريق تنزيل مجموعات شريط التمرير المثيرة للاهتمام. 

توضح الصورة التالية إمكانيات التركيب لشرائح تمرير المفاهيم، ويتم تكوين أشرطة تمرير متعددة تدريجيًا في كل صف من اليسار إلى اليمين، مما يسمح باجتياز مساحات المفاهيم عالية الأبعاد مع درجة محسنة من التحكم في المفاهيم. 

تحسين جودة الصورة

على الرغم من أن أحدث أطر نشر النص إلى الصور والنماذج التوليدية واسعة النطاق مثل انتشار مستقر XL النماذج قادرة على توليد صور واقعية وعالية الجودة، وغالبًا ما تعاني من تشوهات الصورة مثل الأجسام الباهتة أو الملفوفة على الرغم من أن معلمات هذه الأطر الحديثة مجهزة بالقدرة الكامنة على توليد مخرجات عالية الجودة مع أجيال أقل. يمكن أن يؤدي استخدام Concept Sliders إلى إنشاء صور ذات تشوهات أقل عن طريق فتح الإمكانات الحقيقية لهذه النماذج من خلال تحديد اتجاهات المعلمات ذات الترتيب المنخفض. 

إصلاح الأيدي

لقد كان إنشاء صور بأيدٍ ذات مظهر واقعي دائمًا عائقًا أمام أطر النشر، كما أن استخدام Concept Sliders يتحكم بشكل مباشر في الميل إلى تشويه الأيدي. توضح الصورة التالية تأثير استخدام شرائح مفهوم "الأيدي الثابتة" التي تسمح لإطار العمل بإنشاء صور بأيد تبدو أكثر واقعية. 

إصلاح المتزلجون

لا يمكن أن يؤدي استخدام Concept Sliders إلى إنشاء أيدي أكثر واقعية فحسب، بل أظهر أيضًا إمكاناته في تحسين الواقعية الشاملة للصور التي تم إنشاؤها بواسطة إطار العمل. تحدد Concept Sliders أيضًا اتجاه معلمة واحد منخفض الرتبة يتيح التحول في الصور من مشكلات التشويه الشائعة، وتظهر النتائج في الصورة التالية. 

افكار اخيرة

في هذه المقالة، تحدثنا عن Concept Sliders، وهو نموذج جديد بسيط وقابل للتطوير يتيح التحكم القابل للتفسير في المخرجات المتولدة في نماذج الانتشار. يهدف استخدام Concept Sliders إلى حل المشكلات التي تواجهها أطر نشر النص الحالي للصور والتي تجد صعوبة في الحفاظ على التحكم المطلوب في المفاهيم والسمات المرئية المضمنة في الصورة التي تم إنشاؤها والتي تؤدي غالبًا إلى نتائج غير مرضية. علاوة على ذلك، تجد غالبية نماذج نشر النص إلى الصورة صعوبة في تعديل السمات المستمرة في الصورة التي تؤدي في النهاية إلى مخرجات غير مرضية. قد يسمح استخدام Concept Sliders لأطر نشر النص إلى الصورة بالتخفيف من هذه المشكلات، وتمكين منشئي المحتوى والمستخدمين النهائيين بدرجة معززة من التحكم في عملية إنشاء الصور، وحل المشكلات التي تواجهها الأطر الحالية. 

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.