الذكاء الاصطناعي

مشغلات المفاهيم: التحكم الدقيق في نماذج الانتشار مع محولات LoRA

Published December 12, 2023

Updated April 4, 2026

Kunal Kejriwal

بفضل قدراتها، أصبحت نماذج الانتشار من النص إلى الصورة شائعة جدًا في المجتمع الفني. ومع ذلك، تعاني النماذج الحالية، بما في ذلك الإطارات المتقدمة، من صعوبة في الحفاظ على التحكم في المفاهيم والسمات البصرية في الصور المُنشأة، مما يؤدي إلى نتائج غير مرضية. تعتمد معظم النماذج بشكل حصري على التحفيزات النصية، مما يطرح تحديات في تعديل السمات المستمرة مثل شدة الطقس أو حدة الظلال أو التعبيرات الوجهية أو عمر الشخص بدقة. هذا يجعل من الصعب على المستخدمين النهائيين تعديل الصور لتلائم احتياجاتهم المحددة. بالإضافة إلى ذلك، على الرغم من أن هذه الإطارات التوليدية تنتج صورًا عالية الجودة وواقعية، إلا أنها عرضة للتشوهات مثل الوجوه المشوهة أو الأصابع الناقصة.

للتغلب على هذه القيود، اقترح المطورون استخدام مشغلات المفاهيم القابلة للتفسير. وتعد هذه المشغلات وعدًا أكبر بالتحكم للمستخدمين النهائيين على السمات البصرية، مما يعزز توليد الصور وتنقيحها داخل نماذج الانتشار. تعمل مشغلات المفاهيم في نماذج الانتشار عن طريق تحديد اتجاه المعاملات المتعلقة بمفهوم فردي مع تقليل التداخل مع السمات الأخرى. tạo هذه المشغلات باستخدام صور عينة أو مجموعة من التحفيزات، وبالتالي إنشاء اتجاهات للمفاهيم النصية والبصرية.

في النهاية، يمكن أن يؤدي استخدام مشغلات المفاهيم في نماذج الانتشار من النص إلى الصورة إلى توليد الصور بدرجة أقل من التداخل، وتحسين التحكم في الإخراج النهائي مع زيادة الواقعية المتصورة دون تغيير محتوى الصور، وبالتالي توليد صور واقعية. في هذه المقالة، سنناقش مفهوم استخدام مشغلات المفاهيم في الإطارات النصية إلى الصور بعمق أكبر، وتحليل كيف يمكن أن يؤدي استخدامها إلى توليد صور أفضل جودة بواسطة الذكاء الاصطناعي.

مدخل إلى مشغلات المفاهيم

كما ذكرنا سابقًا، تعاني الإطارات الحالية للنص إلى الصورة من صعوبة في التحكم في المفاهيم والسمات البصرية في الصور المُنشأة، مما يؤدي إلى نتائج غير مرضية. بالإضافة إلى ذلك، تعاني العديد من هذه النماذج من صعوبة في تعديل السمات المستمرة، مما يسهم في نتائج غير مرضية. يمكن أن تساعد مشغلات المفاهيم في تخفيف هذه القضايا، مما يمنح صانعي المحتوى والمستخدمين النهائيين تحكمًا محسّنًا في عملية توليد الصور، ومعالجة التحديات التي تواجهها الإطارات الحالية.

تعتمد معظم نماذج الانتشار الحالية للنص إلى الصورة على تعديل التحفيزات النصية المباشرة للتحكم في سمات الصورة. بينما يسمح هذا النهج بتوليد الصور، إلا أنه ليس مثاليًا لأن تغيير التحفيز يمكن أن يغير هيكل الصورة بشكل كبير. يستخدم نهج آخر من قبل هذه الإطارات تقنيات ما بعد الحقن، والتي تعكس عملية الانتشار وتعديل الانتباهات المتقاطعة لتعديل المفاهيم البصرية. ومع ذلك، فإن تقنيات ما بعد الحقن لها قيود، حيث تدعم فقط عددًا محدودًا من التعديلات المتزامنة وتتطلب تمريرات تداخل فردية لكل مفهوم جديد. بالإضافة إلى ذلك، يمكن أن تؤدي إلى تشابك مفاهيمي إذا لم يتم هندستها بعناية.

في المقابل، تقدم مشغلات المفاهيم حلًا أكثر كفاءة لتوليد الصور. يمكن تطبيق هذه المحولات الخفيفة والسهلة الاستخدام على النماذج المُدربة مسبقًا، مما يعزز التحكم والدقة على المفاهيم المرغوبة في تمرير تداخل واحد مع تداخل أقل. كما تمكن مشغلات المفاهيم من تعديل المفاهيم البصرية التي لا تغطيها التحفيزات النصية، وهو ميزة تميزها عن أساليب التعديل القائمة على التحفيزات النصية. بينما يمكن أن تُضيف أساليب التخصيص القائمة على الصور رموزًا لمفاهيم قائمة على الصور، إلا أنها صعبة التنفيذ لتعديل الصور. مشغلات المفاهيم، من ناحية أخرى، تسمح للمستخدمين النهائيين بتقديم عدد صغير من الصور المتوافقة التي تعرف مفهومًا مرغوبًا. ثم تعمم هذه المشغلات هذا المفهوم وتطبقه تلقائيًا على صور أخرى، بهدف تعزيز الواقعية وتصحيح التشوهات مثل تلك الموجودة في اليدين.

تسعى مشغلات المفاهيم إلى تعلم القضايا الشائعة لأربعة مفاهيم من نماذج الذكاء الاصطناعي والإطارات الانتشارية: تعديل الصور، والأساليب القائمة على التوجيه، وتنقيح النماذج، وأتجاهات المفاهيم الدلالية.

تعديل الصور

تعتمد الإطارات الحالية للنص إلى الصورة على استخدام مدخل مشروط لتحديد هيكل الصورة، أو تعديل الانتباهات المتقاطعة للصورة المصدر مع تحفيزها المستهدف لتمكين تعديل صورة واحدة في إطارات الانتشار للنص إلى الصورة. ونتيجة لذلك، يمكن تنفيذ هذه الأساليب فقط على صور فردية وتتطلب أيضًا تحسين الأساس اللاتنتي لكل صورة نتيجة لتطور الهيكل الهندسي عبر المراحل عبر التحفيزات.

الأساليب القائمة على التوجيه

أظهر استخدام أساليب التوجيه الخالية من تصنيف القدرة على تعزيز جودة الصور المُنشأة، وتحسين التوجيه النصي-صوري. من خلال دمج مصطلحات التوجيه خلال التداخل، تحسن هذه الأساليب القدرة المحدودة على التركيب الموروثة من إطارات الانتشار، ويمكن استخدامها لتوجيه المفاهيم غير الآمنة في إطارات الانتشار.

تنقيح النماذج

يمكن اعتبار استخدام مشغلات المفاهيم أيضًا على أنه تقنية لتنقيح النماذج التي تستخدم محولًا منخفض الرتبة لإخراج سمة دلالية واحدة تتيح التحكم المستمر الذي يتوافق مع السمة. ثم تستخدم أساليب التخصيص القائمة على التنقيح لتحسين الإطار وتضيف مفاهيم جديدة. بالإضافة إلى ذلك، تقترح تقنية الانتشار المخصصة طريقة لتنقيح طبقات الانتباه المتقاطعة لدمج مفاهيم بصرية جديدة في نماذج الانتشار المُدربة مسبقًا. في المقابل، تقترح تقنية الانتشار النصي تحسين متجه التضمين لتنشيط قدرات النموذج وإدخال مفاهيم نصية في الإطار.

اتجاه المفاهيم الدلالية في GANs

تعد تعديل السمات الدلالية واحدة من السمات الرئيسية للنماذج التوليدية المعارضة، وتم العثور على مسارات الفضاء اللاتنتي لتكون موازية بشكل خودي. في إطارات الانتشار، توجد هذه مسارات الفضاء اللاتنتي في الطبقات الوسطى من هيكل U-Net، وتحوز الاتجاه الرئيسي لمسارات الفضاء اللاتنتي في إطارات الانتشار على Семантиات عالمية. تتدرب مشغلات المفاهيم على فضاءات منخفضة الرتبة تتعلق بالسمات الخاصة مباشرة، وتحصل على اتجاهات تحرير دقيقة ومحلية عن طريق استخدام أزواج نصية أو صورية لتحسين الاتجاهات العالمية.

مشغلات المفاهيم: الهيكل والعمل

نماذج الانتشار ومحولات LoRA أو منخفضة الرتبة

تعتبر نماذج الانتشار بشكل أساسي فئة فرعية من إطارات الذكاء الاصطناعي التي تعمل على مبدأ تخليق البيانات عن طريق عكس عملية انتشار. تعمل عملية الانتشار الأمامية على إضافة الضوضاء إلى البيانات، وبالتالي الانتقال من حالة منظمة إلى ضوضاء غاوسية كاملة. الهدف الرئيسي من نماذج الانتشار هو عكس عملية الانتشار عن طريق التخلص التدريجي من الضوضاء، واختبار ضوضاء غاوسية عشوائية لتوليد صورة. في التطبيقات العملية، الهدف الرئيسي من إطارات الانتشار هو توقع الضوضاء الحقيقية عند تغذية الضوضاء الغاوسية الكاملة كمدخل مع مدخلات إضافية مثل التوجيه والمرحلة الزمنية.

تtechnique تقنية محولات LoRA أو منخفضة الرتبة تفرق تحديثات الأوزان خلال التنقيح لتمكين التكيف الفعال للإطارات الكبيرة المُدربة مسبقًا على المهام الجانبية. تفرق تقنية LoRA تحديثات الأوزان لمُدخل مُدرب مسبقًا مع مراعاة كلا البعد الداخل والخارج، وتقييد التحديث إلى فضاء منخفض الأبعاد.

مشغلات المفاهيم

الهدف الرئيسي من مشغلات المفاهيم هو служة كنهج لتنقيح محولات LoRA على إطار انتشار لتمكين درجة أكبر من التحكم في الصور الموجهة للمفاهيم، والذي يظهر في الصورة التالية.

عند التوجيه على مفاهيم مستهدفة، تتعلم مشغلات المفاهيم اتجاهات معاملات منخفضة الرتبة لزيادة أو تقليل تعبير السمات المحددة.对于 نموذج ومفهومه المستهدف، الهدف الرئيسي من مشغلات المفاهيم هو الحصول على نموذج محسّن يعدل احتمالية تعزيز السمات وتقليل احتمالية كبتها للصورة عند التوجيه على المفهوم المستهدف لزيادة احتمالية تعزيز السمات، وتقليل احتمالية كبتها. باستخدام إعادة التمثيل وصيغة Tweedie، تقدم الإطار عملية ضوضاء متغيرة مع مرور الوقت، وتعبر عن كل درجة كتنبؤ بتخلص من الضوضاء. بالإضافة إلى ذلك، يُحدد هدف الفصل في مشغلات المفاهيم وحداتها مع الحفاظ على الأوزان المُدربة مسبقًا. كما يُعد معامل التمايز المقدم خلال صياغة LoRA مُعدلًا خلال التداخل، ويُتيح تعديل قوة التحرير، ويمكن جعل التحريرات أقوى دون إعادة تدريب الإطار كما هو موضح في الصورة التالية.

كانت أساليب التحرير المستخدمة سابقًا من قبل الإطارات تسهل تحريرات أقوى عن طريق إعادة تدريب الإطار مع توجيه متزايد. ومع ذلك، فإن تعديل معامل التمايز خلال التداخل ينتج نفس نتائج التحرير دون زيادة تكلفة إعادة التدريب والزمن.

تعلم المفاهيم البصرية

تم تصميم مشغلات المفاهيم لتحكم المفاهيم البصرية التي لا يمكن أن يحددها التحفيزات النصية جيدًا، وتستخدم هذه المشغلات مجموعات بيانات صغيرة إما موازية قبل أو بعد لتدريب هذه المفاهيم. يسمح التباين بين أزواج الصور لمشغلات المفاهيم بتعلم المفاهيم البصرية. بالإضافة إلى ذلك، يُحدد عملية تدريب مشغلات المفاهيم مكون LoRA المُدخل في كلا الاتجاهين الأمامي والخلفي. ونتيجة لذلك، يتوافق مكون LoRA مع الاتجاه الذي يسبب التأثيرات البصرية في كلا الاتجاهين.

مشغلات المفاهيم: نتائج التنفيذ

لتحليل الزيادة في الأداء، قيم المطورون استخدام مشغلات المفاهيم بشكل رئيسي على Stable Diffusion XL، وهي إطار عالية الدقة بسعة 1024 بكسل مع تجارب إضافية أجريت على إطار Stable Diffusion v1.4، حيث تم تدريب النماذج لمدة 500 عصر لكل منها.

مشغلات المفاهيم النصية

لتحديد أداء مشغلات المفاهيم النصية، تم التحقق منها على مجموعة من 30 مفهومًا نصيًا، وتمت مقارنة الطريقة بثلاثة أسس تستخدم تحفيزًا نصيًا قياسيًا لعدد ثابت من المراحل الزمنية، ثم تبدأ بالتركيب عن طريق إضافة تحفيزات لتوجيه الصورة. كما هو موضح في الشكل التالي، يؤدي استخدام مشغلات المفاهيم إلى زيادة مستمرة في درجة CLIP، وتقليل مستمر في درجة LPIPS عند مقارنتها بالإطار الأصلي بدون مشغلات المفاهيم.

كما هو موضح في الصورة أعلاه، يسهل استخدام مشغلات المفاهيم تحرير دقيق للسمات المرغوبة خلال عملية توليد الصورة مع الحفاظ على هيكل الصورة العام.

مشغلات المفاهيم البصرية

تجد نماذج الانتشار من النص إلى الصورة التي تستخدم فقط التحفيزات النصية صعوبة في الحفاظ على درجة أعلى من التحكم في السمات البصرية مثل الشعر الوجهي أو شكل العين. لضمان التحكم الأفضل في السمات الدقيقة، تستخدم مشغلات المفاهيم توجيهًا نصيًا اختياريًا مع مجموعات بيانات الصور. كما هو موضح في الشكل أدناه، تقوم مشغلات المفاهيم بإنشاء مشغلات فردية لسمات “حجم العين” و”شكل الحواجب” التي تلتقط التحويلات المرغوبة باستخدام أزواج الصور.

يمكن تحسين النتائج بشكل أكبر من خلال تقديم نصوص محددة بحيث يركز الاتجاه على منطقة الوجه هذه، وإنشاء مشغلات مع تحكم متدرج على السمة المستهدفة.

تركيب المشغلات

تعتبر واحدة من المزايا الرئيسية لاستخدام مشغلات المفاهيم هي القابلية للتكوين، مما يسمح للمستخدمين بدمج عدة مشغلات لتحقيق درجة أعلى من التحكم بدلاً من التركيز على مفهوم واحد في الوقت نفسه، ويمكن أن يعزى ذلك إلى اتجاهات المشغلات منخفضة الرتبة المستخدمة في مشغلات المفاهيم. بالإضافة إلى ذلك،由于 مشغلات المفاهيم هي محولات LoRA الخفيفة، فهي سهلة النشر، ويمكن وضعها بسهولة على نماذج الانتشار. يمكن للمستخدمين تعديل عدة مفاتيح في نفس الوقت لتوجيه توليد معقد عن طريق تحميل مجموعات مشغلات مثيرة للاهتمام.

يوضح الصورة التالية القدرة التكوينية لمشغلات المفاهيم، وتركيب عدة مشغلات بشكل متدرج في كل صف من اليسار إلى اليمين، مما يسمح بالتنقل في فضاءات المفاهيم عالية الأبعاد بدرجة أعلى من التحكم في المفاهيم.

تحسين جودة الصورة

على الرغم من أن إطارات الانتشار للنص إلى الصورة المتقدمة ونماذج التوليد الكبيرة مثل نموذج Stable Diffusion XL قادرة على توليد صور واقعية وذات جودة عالية، إلا أنها تعاني من تشوهات مثل الأجسام المبهمة أو الأصابع الناقصة. يمكن أن يؤدي استخدام مشغلات المفاهيم إلى توليد صور بأقل تشوهات عن طريق تفعيل القدرات الحقيقية لهذه النماذج بتحديد اتجاهات المعاملات منخفضة الرتبة.

إصلاح الأيدي

كان توليد صور بأيدي واقعية دائمًا تحديًا لنماذج الانتشار، ويمكن أن يؤدي استخدام مشغلات المفاهيم إلى التحكم المباشر في ميل التشوهات للأيدي. يوضح الصورة التالية تأثير استخدام مشغلات المفاهيم “إصلاح الأيدي” التي تسمح للإطار بتوليد صور بأيدي أكثر واقعية.

مشغلات الإصلاح

يمكن أن يؤدي استخدام مشغلات المفاهيم ليس فقط إلى توليد صور بأيدي أكثر واقعية، ولكنها أظهرت أيضًا إمكاناتها في تحسين الواقعية العامة للصور المُنشأة بواسطة الإطار. يمكن لمشغلات المفاهيم تحديد اتجاه معاملات منخفضة الرتبة يسمح بالتحول في الصور من مشاكل التشوه الشائعة، ويوضح النتائج في الصورة التالية.

أفكار ختامية

في هذه المقالة، ناقشنا مشغلات المفاهيم، وهو نهج جديد وبسيط ومتسلسل يسمح بالتحكم القابل للتفسير في الإخراج المُنتج في نماذج الانتشار. يهدف استخدام مشغلات المفاهيم إلى حل القضايا التي تواجهها الإطارات الحالية للنص إلى الصورة التي تعاني من صعوبة في الحفاظ على التحكم في المفاهيم والسمات البصرية المُدخلة في الصور المُنشأة، مما يؤدي إلى نتائج غير مرضية. بالإضافة إلى ذلك، تعاني معظم نماذج الانتشار للنص إلى الصورة من صعوبة في تعديل السمات المستمرة، مما يؤدي إلى نتائج غير مرضية. يمكن لمشغلات المفاهيم أن تتيح لنماذج الانتشار للنص إلى الصورة التغلب على هذه القضايا، وتمكين صانعي المحتوى والمستخدمين النهائيين من درجة أعلى من التحكم في عملية توليد الصورة، ومعالجة التحديات التي تواجهها الإطارات الحالية.