اتصل بنا للحصول على مزيد من المعلومات

نحو أنظمة LoRA التي يمكنها الصمود في وجه ترقيات إصدارات النموذج

الذكاء الاصطناعي

نحو أنظمة LoRA التي يمكنها الصمود في وجه ترقيات إصدارات النموذج

mm
ChatGPT-4o: اختلاف في "صورة تقريرية لمقال مميز بحجم 1792x1024 لحاوية مليئة بالتماثيل المعدنية المهملة، والتي تضم رجالاً ونساءً واقعيين من جميع الأعمار وجميع الأنواع"

منذ بلدي التغطية الأخيرة من النمو في أجهزة الفيديو LoRAs الخاصة بالهواة Hunyuan (صغيرة، الملفات المدربة مع وجود العديد من النماذج الأساسية التي يمكنها حقن شخصيات مخصصة في نماذج الأساس المكونة من مليارات المعلمات لتحويل النص إلى فيديو وتحويل الصورة إلى فيديو، ارتفع عدد LoRAs ذات الصلة المتاحة في مجتمع Civit بنسبة 185%.

على الرغم من عدم وجود طرق سهلة أو منخفضة الجهد بشكل خاص لإنشاء فيديو Hunyuan LoRA، إلا أن كتالوج المشاهير وLoRAs ذات الطابع الخاص في Civit ينمو يوميًا. المصدر: https://civitai.com/

على الرغم من حقيقة أنه لا توجد طرق سهلة أو منخفضة الجهد بشكل خاص لإنشاء Hunyuan Video LoRA، فإن كتالوج المشاهير والموضوعات LoRAs في Civit ينمو يوميًا. المصدر: https://civitai.com/

نفس المجتمع الذي يسعى جاهداً لتعلم كيفية إنتاج هذه "الشخصيات الإضافية" لشركة Hunyuan Video (HV) هو أيضًا متقرح للإفراج الموعود عن صورة إلى فيديو وظيفة (I2V) في Hunyuan Video.

فيما يتعلق بتوليف الصور البشرية مفتوحة المصدر، فهذا أمر كبير؛ فبالإضافة إلى نمو Hunyuan LoRAs، فإنه قد يمكن المستخدمين من تحويل صور الأشخاص إلى مقاطع فيديو بطريقة لا تؤدي إلى تآكل هويتهم أثناء تطوير الفيديو - وهو ما يحدث حاليًا في جميع مولدات الصور إلى الفيديو الحديثة، بما في ذلك Kling وKaiber وRunwayML المشهور جدًا:

انقر للعب. جيل من الصور إلى مقاطع فيديو من طراز الجيل الثالث توربو المتطور من RunwayML. ومع ذلك، وكما هو الحال مع جميع الطرازات المماثلة والأقل منافسة، لا يحافظ هذا الطراز على هويته الثابتة عندما يُبعد الشخص عن الكاميرا، وتصبح السمات المميزة للصورة الأولية "امرأة انتشار عامة".. المصدر: https://app.runwayml.com/

من خلال تطوير LoRA مخصص للشخصية المعنية، يمكن للمرء، في سير عمل HV I2V، استخدام صورة حقيقية للشخص كنقطة بداية. وهذا "بذرة" أفضل بكثير من إرسال رقم عشوائي إلى المساحة الكامنة للنموذج والاكتفاء بأي سيناريو دلالي ينتج عنه. ومن ثم يمكن للمرء استخدام LoRA، أو LoRAs المتعددة، للحفاظ على اتساق الهوية وتسريحات الشعر والملابس وغيرها من الجوانب المحورية لجيل ما.

من المحتمل أن يمثل توافر مثل هذا المزيج أحد أهم التحولات التاريخية في الذكاء الاصطناعي التوليدي منذ إطلاقه. انتشار مستقر، مع قوة توليد هائلة يتم تسليمها لعشاق المصدر المفتوح، دون التنظيم (أو "الحراسة"، إذا كنت تفضل ذلك) الذي توفره رقباء المحتوى في المحصول الحالي من أنظمة gen vid الشائعة.

أثناء كتابتي لهذا المقال، فإن تحويل الصور إلى مقاطع فيديو باستخدام برنامج Hunyuan هو لم يتم تحديد خيار "ما يجب القيام به" في مستودع Hunyuan Video GitHub، حيث أبلغ مجتمع الهواة (بشكل غير رسمي) عن تعليق على Discord من أحد مطوري Hunyuan، والذي ذكر على ما يبدو أن إصدار هذه الوظيفة قد تم تأجيله إلى وقت لاحق في الربع الأول بسبب النموذج كونها غير خاضعة للرقابة بشكل كبير'.

قائمة التحقق الرسمية لإصدارات الميزات لبرنامج Hunyuan Video. المصدر: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan

قائمة التحقق الرسمية لإصدار الميزة لـ Hunyuan Video. المصدر: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan

سواء كان ذلك دقيقًا أم لا، فقد حقق مطورو المستودعات تقدمًا كبيرًا في بقية قائمة Hunyuan، وبالتالي يبدو أن Hunyuan I2V سيصل في النهاية، سواء كان خاضعًا للرقابة أو غير خاضع للرقابة أو بطريقة ما 'قابلة للفتح'.

ولكن كما يمكننا أن نرى في القائمة أعلاه، فإن إصدار I2V هو على ما يبدو نموذج منفصل تمامًا - مما يجعل من غير المحتمل إلى حد كبير أن تعمل أي من المحاصيل المزدهرة الحالية من HV LoRAs في Civit وأماكن أخرى معه.

في هذا السيناريو المتوقع (حتى الآن)، أطر تدريب LoRA مثل موالف موسوبي و وان ترينر سوف يتم إما التراجع أو إعادة ضبط الأمور فيما يتعلق بدعم النموذج الجديد. وفي الوقت نفسه، سوف يقوم واحد أو اثنان من أكثر رواد الذكاء الاصطناعي على YouTube خبرة في مجال التكنولوجيا (ورواد الأعمال) ببيع حلولهم عبر Patreon حتى يلحق المشهد بالركب.

إرهاق الترقية

لا أحد تقريبًا يعاني من إجهاد الترقية بقدر ما يعاني منه LoRA أو الكون المثالى متحمسون، لأن وتيرة التغيير السريعة والتنافسية في الذكاء الاصطناعي التوليدي تشجع مصانع النماذج مثل Stability.ai وTencent وBlack Forest Labs على إنتاج نماذج أكبر و(أحيانًا) أفضل بأقصى تردد قابل للتطبيق.

نظرًا لأن هذه النماذج الجديدة والمحسنة سيكون لها على الأقل تحيزات مختلفة و الأوزان، وغالبًا ما يكون لها مقياس و/أو بنية مختلفة، وهذا يعني أن مجتمع الضبط الدقيق يجب أن يخرج مجموعات البيانات الخاصة به مرة أخرى ويكرر عملية التدريب الشاقة للإصدار الجديد.

لهذا السبب، تتوفر مجموعة متنوعة من أنواع إصدارات Stable Diffusion LoRA في Civit:

مسار الترقية، كما تم توضيحه في خيارات تصفية البحث في civit.ai

مسار الترقية، كما تم توضيحه في خيارات تصفية البحث في civit.ai

نظرًا لأن أيًا من نماذج LoRA خفيفة الوزن هذه غير قابلة للتشغيل المتبادل مع إصدارات النماذج الأعلى أو الأدنى، ونظرًا لأن العديد منها يعتمد على نماذج شائعة واسعة النطاق يدمج مع التعديلات الدقيقة التي تلتزم بنموذج أقدم، يميل جزء كبير من المجتمع إلى الالتزام بإصدار "تراث"، بنفس الطريقة التي استمرت بها ولاء العملاء لنظام التشغيل Windows XP بعد سنوات من انتهاء الدعم الرسمي السابق.

التكيف مع التغيير

يأتي هذا الموضوع إلى ذهني بسبب ورقة جديدة من شركة Qualcomm AI Research التي تدعي أنها طورت طريقة يمكن من خلالها "ترقية" LoRAs الحالية إلى إصدار نموذجي تم إصداره حديثًا.

مثال على تحويل LoRAs عبر إصدارات النموذج. المصدر: https://arxiv.org/pdf/2501.16559

مثال على تحويل LoRAs عبر إصدارات النموذج. المصدر: https://arxiv.org/pdf/2501.16559

وهذا لا يعني أن النهج الجديد المسمى لورا-اكس، يمكن أن تترجم بحرية بين جميع النماذج من نفس النوع (أي نماذج النص إلى صورة، أو نماذج اللغة الكبيرة [LLMs])؛ لكن المؤلفين أظهروا نسخًا فعالًا لـ LoRA من Stable Diffusion v1.5 > SDXL، وتحويل LoRA لنموذج TinyLlama 3T القائم على النص إلى TinyLlama 2.5T.

ينقل LoRA-X معلمات LoRA عبر نماذج أساسية مختلفة من خلال الحفاظ على محول ضمن الفضاء الفرعي للنموذج المصدر؛ ولكن فقط في أجزاء النموذج المتشابهة بشكل كافٍ عبر إصدارات النموذج.

على اليسار، مخطط للطريقة التي يضبط بها نموذج مصدر LoRA-X المحول، والذي يتم تعديله بعد ذلك ليناسب النموذج المستهدف باستخدام بنيته الداخلية الخاصة. على اليمين، صور تم إنشاؤها بواسطة النماذج المستهدفة SD Eff-v1.0 وSSD-1B، بعد تطبيق المحولات المنقولة من SD-v1.5 وSDXL دون تدريب إضافي.

على اليسار، مخطط للطريقة التي يضبط بها نموذج مصدر LoRA-X المحول، والذي يتم تعديله بعد ذلك ليناسب النموذج المستهدف. على اليمين، صور تم إنشاؤها بواسطة النماذج المستهدفة SD Eff-v1.0 وSSD-1B، بعد تطبيق المحولات المنقولة من SD-v1.5 وSDXL دون تدريب إضافي.

وفي حين أن هذا يوفر حلاً عمليًا للسيناريوهات التي يكون فيها إعادة التدريب غير مرغوب فيه أو مستحيلًا (مثل تغيير الترخيص على بيانات التدريب الأصلية)، فإن الطريقة تقتصر على هياكل النماذج المماثلة، من بين قيود أخرى.

على الرغم من أن هذه غزوة نادرة في مجال لم تتم دراسته بشكل كافٍ، فلن نفحص هذه الورقة بعمق بسبب أوجه القصور العديدة في LoRA-X، كما يتضح من التعليقات الواردة من النقاد والمستشارون في مجلة Open Review.

اعتماد الطريقة على تشابه الفضاء الجزئي يقتصر تطبيقه على النماذج ذات الصلة الوثيقة، وقد قام المؤلفون اعترف في منتدى المراجعة، لا يمكن نقل LoRA-X بسهولة عبر بنيات معمارية مختلفة بشكل كبير

طرق PEFT الأخرى

إن إمكانية جعل أنظمة LoRA أكثر قابلية للنقل عبر الإصدارات المختلفة تشكل مجالاً صغيراً ولكنه مثير للاهتمام من مجالات الدراسة في الأدبيات، والمساهمة الرئيسية التي تقدمها LoRA-X في هذا المسعى هي ادعائها بأنها لا تتطلب أي تدريب. وهذا ليس صحيحاً تماماً، إذا قرأ المرء البحث، ولكنها تتطلب أقل قدر من التدريب مقارنة بكل الطرق السابقة.

LoRA-X هو إدخال آخر في مجموعة ضبط دقيق فعال للمعلمات (PEFT) طرق، والتي تعالج تحدي تكييف النماذج الكبيرة المدربة مسبقًا لمهام محددة دون إعادة تدريب مكثفة. يهدف هذا النهج المفاهيمي إلى تعديل عدد ضئيل من المعلمات مع الحفاظ على الأداء.

ومن أبرزها:

محول X

ال محول X ينقل الإطار محولات دقيقة عبر النماذج مع قدر معين من إعادة التدريب. يهدف النظام إلى تمكين وحدات التوصيل والتشغيل المدربة مسبقًا (مثل كونترول نت وLoRA) من نموذج انتشار أساسي (أي Stable Diffusion v1.5) للعمل مباشرة مع نموذج انتشار مطور مثل SDXL دون إعادة تدريب - وهو ما يعمل بشكل فعال بمثابة "مُحدث عالمي" للمكونات الإضافية.

يحقق النظام ذلك من خلال تدريب شبكة إضافية تتحكم في النموذج المحدث، باستخدام نسخة مجمدة من النموذج الأساسي للحفاظ على موصلات المكونات الإضافية:

مخطط لمحول X. المصدر: https://arxiv.org/pdf/2312.02238

مخطط لمحول X. المصدر: https://arxiv.org/pdf/2312.02238

تم تطوير X-Adapter واختباره في الأصل لنقل المحولات من SD1.5 إلى SDXL، بينما يوفر LoRA-X مجموعة واسعة من الترجمات.

DoRA (التكيف منخفض الرتبة المتحلل بالوزن)

DoRA هي طريقة ضبط دقيقة محسّنة تعمل على تحسين LoRA من خلال استخدام استراتيجية تحليل الوزن التي تشبه إلى حد كبير الضبط الدقيق الكامل:

لا تحاول DORA فقط نسخ محول في بيئة متجمدة، كما تفعل LoRA-X، بل إنها تغير بدلاً من ذلك المعلمات الأساسية للأوزان، مثل الحجم والاتجاه. المصدر: https://arxiv.org/pdf/2402.09353

لا تحاول DORA فقط نسخ المحول في بيئة متجمدة، كما تفعل LoRA-X، ولكنها بدلاً من ذلك تغير المعلمات الأساسية للأوزان، مثل الحجم والاتجاه. المصدر: https://arxiv.org/pdf/2402.09353

يركز DoRA على تحسين عملية الضبط الدقيق نفسها، من خلال تحليل أوزان النموذج إلى الحجم والاتجاه (انظر الصورة أعلاه). بدلاً من ذلك، يركز LoRA-X على تمكين نقل المعلمات الدقيقة الموجودة بين نماذج أساسية مختلفة

ومع ذلك، فإن نهج LoRA-X يتكيف مع إسقاط التقنيات التي تم تطويرها لنظام DORA، وفي الاختبارات التي أجريت ضد هذا النظام القديم، ادعت تحسنًا DINO أحرز هدفاً.

FouRA (تكيف فورييه للرتبة المنخفضة)

نُشر في يونيو 2024، طريقة فورآ يأتي، مثل LoRA-X، من Qualcomm AI Research، ويشارك حتى بعضًا من اختباراته ومواضيعه.

أمثلة على انهيار التوزيع في LoRA، من ورقة FouRA لعام 2024، باستخدام نموذج Realistic Vision 3.0 المدرب باستخدام LoRA وFouRA لمحولات "Blue Fire" و"Origami"، عبر أربع بذور. تُظهر صور LoRA انهيار التوزيع وانخفاض التنوع، بينما تولد FouRA مخرجات أكثر تنوعًا. المصدر: https://arxiv.org/pdf/2406.08798

أمثلة على انهيار التوزيع في LoRA، من ورقة FouRA لعام 2024، باستخدام نموذج Realistic Vision 3.0 المدرب باستخدام LoRA وFouRA لمحولات "Blue Fire" و"Origami"، عبر أربع بذور. تُظهر صور LoRA انهيار التوزيع وانخفاض التنوع، بينما تولد FouRA مخرجات أكثر تنوعًا. المصدر: https://arxiv.org/pdf/2406.08798

تركز FouRA على تحسين تنوع وجودة الصور المولدة من خلال تكييف LoRA في مجال التردد، باستخدام تحويل فورييه النهج.

وهنا، مرة أخرى، كان LoRA-X قادرًا على تحقيق نتائج أفضل من النهج القائم على فورييه لـ FouRA.

على الرغم من أن كلا الإطارين يقعان ضمن فئة PEFT، إلا أن لديهما حالات استخدام ومنهجيات مختلفة للغاية؛ في هذه الحالة، يمكن القول إن FouRA "تصنع الأرقام" لجولة اختبار مع منافسين محدودين مماثلين لمؤلفي الورقة الجديدة.

إس في دي إف

كما أن SVDiff له أهداف مختلفة عن LoRA-X، ولكن تم الاستفادة منه بقوة في الورقة الجديدة. تم تصميم SVDiff لتحسين كفاءة الضبط الدقيق لنماذج الانتشار، وتعديل القيم مباشرة داخل مصفوفات أوزان النموذج، مع الحفاظ على المتجهات المفردة دون تغيير. يستخدم SVDiff SVD مقطوع، تعديل القيم الأكبر فقط، لضبط أوزان النموذج.

يستخدم هذا النهج تقنية زيادة البيانات المسماة قطع - خلط - عدم خلط:

يعمل توليد الموضوعات المتعددة كنظام عزل للمفاهيم في SVDiff. المصدر: https://arxiv.org/pdf/2303.11305

يعمل إنشاء الموضوعات المتعددة كنظام عزل المفاهيم في SVDiff. المصدر: https://arxiv.org/pdf/2303.11305

تم تصميم Cut-Mix-Unmix لمساعدة نموذج الانتشار على تعلم مفاهيم متعددة ومتميزة دون خلطها. الفكرة الأساسية هي التقاط صور لموضوعات مختلفة ودمجها في صورة واحدة. ثم يتم تدريب النموذج باستخدام المطالبات التي تصف صراحة العناصر المنفصلة في الصورة. هذا يجبر النموذج على التعرف على المفاهيم المتميزة والحفاظ عليها بدلاً من مزجها.

أثناء التدريب، يتم إضافة تسوية يساعد المصطلح في منع التداخل بين الموضوعات. وتزعم نظرية المؤلفين أن هذا يسهل تحسين عملية إنشاء موضوعات متعددة، حيث يظل كل عنصر مميزًا بصريًا، بدلاً من دمجه معًا.

تم استبعاد SVDiff من جولة اختبار LoRA-X، بهدف إنشاء مساحة معلمات مضغوطة. بدلاً من ذلك، يركز LoRA-X على إمكانية نقل معلمات LoRA عبر نماذج أساسية مختلفة من خلال العمل داخل المساحة الفرعية للنموذج الأصلي.

الخاتمة

الأساليب التي تمت مناقشتها هنا ليست مقتصرة على PEFT فقط. تشمل الأساليب الأخرى QLoRA وQA-LoRA; ضبط البادئة; الضبط الفوري، و ضبط المحول، من بين آخرين.

ربما يكون "LoRA القابل للترقية" مسعى كيميائيًا؛ بالتأكيد، لا يوجد شيء في الأفق القريب من شأنه أن يمنع مصممي نماذج LoRA من الاضطرار إلى سحب مجموعات البيانات القديمة الخاصة بهم مرة أخرى لإصدار أحدث وأفضل الأوزان. إذا كان هناك بعض النماذج الأولية القياسية المحتملة لمراجعة الأوزان، القادرة على البقاء على قيد الحياة في ظل التغييرات في البنية وتضخم المعلمات بين إصدارات النموذج، فإنها لم تظهر في الأدبيات بعد، وسوف تحتاج إلى الاستمرار في استخراجها من البيانات على أساس كل نموذج على حدة.

 

نُشرت لأول مرة يوم الخميس 30 يناير 2025

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai