الذكاء الاصطناعي
نحو LoRAs التي يمكنها البقاء على قيد الحياة بعد تحديث إصدارات النموذج

منذ تغطيتي الأخيرة لنمو هواية Hunyuan Video LoRAs (ملفات صغيرة ، مدربة يمكنها حقن شخصيات مخصصة في نماذج أساسية متعددة البلايين من المعاملات النصية إلى الفيديو والصورة إلى الفيديو)، زاد عدد LoRAs ذات الصلة المتاحة في مجتمع Civit بنسبة 185٪.

على الرغم من أن هناك طرقًا سهلة أو منخفضة الجهد لإنشاء Hunyuan Video LoRA ، فإن كتالوج المشاهير وال LoRAs المواضيعية في Civit يتوسع يوميًا. مصدر: https://civitai.com/
المجتمع نفسه الذي يهرع لتعلم كيفية إنتاج هذه “شخصيات إضافية” ل Hunyuan Video (HV) cũng يتعرض لآلام المعدة من أجل الإفراج عن وظيفة صورة إلى فيديو (I2V) في Hunyuan Video.
فيما يتعلق بالتركيب البشري المفتوح المصدر ، هذا هو أمر كبير ؛ يمكن أن تمكّن المستخدمين ، عندما ي 结ب مع نمو Hunyuan LoRAs ، من تحويل صور الأشخاص إلى فيديوهات بطريقة لا تؤدي إلى تآكل هويتهم مع تطور الفيديو – وهو ما يحدث حاليًا في جميع مولدات صورة إلى فيديو الحالية ، بما في ذلك Kling و Kaiber و RunwayML الشهير:
انقر للعب. مولد صورة إلى فيديو من RunwayML’s state-of-the-art Gen 3 Turbo model. ومع ذلك ، كما هو الحال مع جميع النماذج الشبيهة والأقل منافسة ، لا يمكنها الحفاظ على هوية متسقة عند تحول الموضوع بعيدًا عن الكاميرا ، وتتغير الميزات الفريدة للصورة الأولية إلى “امرأة انتشار جينية عامة”. مصدر: https://app.runwayml.com/
من خلال تطوير LoRA مخصص للشخصية المعنية ، يمكن ، في تدفق عمل HV I2V ، استخدام صورة حقيقية لها كنقطة بداية. هذا هو بذرة أفضل من إرسال رقم عشوائي إلى مساحة النموذج اللاتنتية والاستقرار على السيناريو الدلالي الناتج. يمكن بعد ذلك استخدام LoRA ، أو LoRAs متعددة ، للحفاظ على توافق الهوية والشعر والملابس والجوانب الحاسمة الأخرى للتنمية.
من المحتمل أن تمثل توافر مثل هذه المجموعة واحدة من أكبر التحولات في الذكاء الاصطناعي التوليدي منذ إطلاق Stable Diffusion ، مع تسليم قوة توليدية هائلة إلى هواة مفتوحي المصدر ، دون التنظيم (أو “الحاجز” ، إذا كنت تفضل) المقدم من مراقبي المحتوى في نظام فيديو الجيل الحالي الشهير.
في الوقت الذي أكتب فيه ، يعتبر Hunyuan صورة إلى فيديو مهمة غير محددة في مستودع Hunyuan Video GitHub ، مع تقارير المجتمع الهواة (عن طريق الشهادة) تعليقًا على Discord من مطور Hunyuan ، الذي أشار ظاهريًا إلى أن إطلاق هذه الوظيفة قد تم تأجيله إلى وقت لاحق في Q1 بسبب نموذج كونها “غير محجوزة جدًا”.

قائمة التحقق الرسمية لإطلاق الميزات في Hunyuan Video. مصدر: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan
صحيح أو غير صحيح ، فإن مطورو المستودع قد سلموا بشكل كبير على بقية قائمة Hunyuan ، وبالتالي يبدو أن Hunyuan I2V على وشك الوصول في النهاية ، سواء كان محجوزًا أو غير محجوز أو بطريقة ما “قابل للفتح”.
ولكن كما نرى في القائمة أعلاه ، يبدو أن إصدار I2V هو نموذج منفصل تمامًا – مما يجعل من غير المحتمل أن تعمل أي من Hunyuan LoRAs الحالية المتزايدة في Civit وآخرون معها.
في هذا السيناريو (الذي أصبح قابليًا للتوقع الآن) ، ستكون إطارات تدريب LoRA مثل Musubi Tuner و OneTrainer إما متأخرة أو معادة فيما يتعلق بالدعم الجديد للنموذج. وفي غضون ذلك ، سيكون أحد أو اثنين من ألمع الشخصيات التقنية (والرياديين) على YouTube يحتجزون حلولهم عبر Patreon حتى يلحق بهم المشهد.
إرهاق التحديث
يختبر几乎 لا أحد إرهاق التحديث كما يفعل هواة LoRA أو التحسين الدقيق ، لأن وتيرة التغيير السريع والتنافسي في الذكاء الاصطناعي التوليدي يشجع مصانع النماذج مثل Stability.ai و Tencent و Black Forest Labs على إنتاج نماذج أكبر وأفضل (في بعض الأحيان) بتواتر قابل للتطبيق最大.
منذ أن يكون لهذه النماذج الجديدة والمحسنة على الأقل تحيزات ووزن مختلفين ، وأكثر شيوعًا سيكون لها مقياس و / أو هيكل مختلف ، هذا يعني أن مجتمع التحسين الدقيق يجب أن يحصل على مجموعات البيانات مرة أخرى ويعيد عملية التدريب الشاقة للنسخة الجديدة.
لهذا السبب ، تتوفر مجموعة متنوعة من أنواع LoRA من Stable Diffusion في Civit:

مسار التحديث ، كما هو موضح في خيارات مرشح البحث في civit.ai
منذ أن لا تتوافق أي من هذه نماذج LoRA الخفيفة مع إصدارات النموذج الأعلى أو الأقل ، ولأن العديد منها يعتمد على دمج شائع وتنقيح يلائم نموذجًا أقدم ، فإن جزءًا كبيرًا من المجتمع ي倾م إلى الالتزام بإصدار “تراثي” ، بنفس الطريقة التي استمرت فيها ولاء العملاء ل Windows XP لسنوات بعد انتهاء الدعم الرسمي.
التكيف مع التغيير
يأتي هذا الموضوع إلى الأذهان بسبب ورقة جديدة من Qualcomm AI Research التي تدعي أنها طورت طريقة يمكن من خلالها “تحديث” LoRAs الحالية إلى إصدار نموذج جديد.

تحويل مثال لل LoRAs عبر إصدارات النموذج. مصدر: https://arxiv.org/pdf/2501.16559
هذا لا يعني أن النهج الجديد ، بعنوان LoRA-X ، يمكن أن يترجم بحرية بين جميع النماذج من نفس النوع (أي نماذج نص إلى صورة ، أو نماذج لغة كبيرة [LLMs]) ؛ ولكن المؤلفون قد أثبتوا تحويلًا فعالًا ل LoRA من Stable Diffusion v1.5 إلى SDXL ، و تحويل LoRA لنماذج TinyLlama 3T النصية إلى TinyLlama 2.5T.
LoRA-X ينقل معاملات LoRA عبر نماذج قاعدة مختلفة من خلال الحفاظ على المحول داخل فضاء النموذج المصدر ؛ ولكن فقط في أجزاء من النموذج التي تكون متشابهة بشكل كافٍ عبر إصدارات النموذج.

على اليسار ، مخطط لطريقة التي يقوم بها نموذج LoRA-X المصدر بضبط المحول ، الذي يتم بعد ذلك تعديله لتناسب النموذج المستهدف. على اليمين ، صور تم توليدها بواسطة نماذج المستهدف SD Eff-v1.0 و SSD-1B ، بعد تطبيق محولات تم نقلها من SD-v1.5 و SDXL دون تدريب إضافي.
على الرغم من أن هذا يوفر حلًا عمليًا للسيناريوهات التي لا يُ жел فيها إعادة التدريب أو يكون ذلك مستحيلًا (مثل تغيير ترخيص بيانات التدريب الأصلية) ، فإن الطريقة مقيدة بنماذج معمارية متشابهة ، من بين قيود أخرى.
نهج PEFT الأخرى
تعد إمكانية جعل LoRAs أكثر قابلية للنقل عبر الإصدارات خيطًا صغيرًا ولكن مثيرًا للاهتمام في الأدب ، ويقدم مساهمة LoRA-X الرئيسية في هذا السعي قوله إنه لا يتطلب أي تدريب.
LoRA-X هو مدخل آخر في قانون PEFT ، الذي يعالج تحدي تعديل نماذج كبيرة مسبقة التدريب على مهام محددة دون إعادة التدريب الشامل. يهدف هذا النهج المفاهيمي إلى تعديل عدد قليل من المعاملات مع الحفاظ على الأداء.
من بين هذه النماذج البارزة:
X-Adapter
إطار X-Adapter ينقل محولات متعددة عبر نماذج مع بعض التدريب. يهدف النظام إلى تمكين الوحدات المسبقة التدريب (مثل ControlNet و LoRA) من نموذج انتشار قاعدة (أي Stable Diffusion v1.5) للعمل مباشرة مع نموذج انتشار محسّن مثل SDXL دون إعادة التدريب – ويفعل ذلك بشكل فعال ك “مُحسّن عالمي” للإضافات.
DoRA (Weight-Decomposed Low-Rank Adaptation)
DoRA هو نهج تحسين دقيق محسّن يُحسّن LoRA باستخدام استراتيجية تحلل الوزن التي تشبه بشكل أوثق التحسين الدقيق الكامل:

DoRA لا يحاول فقط نسخ المحول في بيئة مجمدة ، كما يفعل LoRA-X ، ولكن بدلاً من ذلك يغير معاملات أساسية للأوزان ، مثل الحجم والاتجاه. مصدر: https://arxiv.org/pdf/2402.09353
FouRA (Fourier Low Rank Adaptation)
نشرت في يونيو 2024 ، طريقة FouRA تأتي ، مثل LoRA-X ، من Qualcomm AI Research ، وتشارك بعض استطلاعات الاختبار والمواضيع.

أمثلة على انهيار التوزيع في LoRA ، من ورقة FouRA 2024 ، باستخدام نموذج Realistic Vision 3.0 المُدرَّب مع LoRA و FouRA لـ “Blue Fire” و “Origami” أسلوب المحولات ، عبر أربعة بذور. تظهر صور LoRA انهيار التوزيع وانخفاض التنوع ، في حين يولد FouRA مخرجات أكثر تنوعًا. مصدر: https://arxiv.org/pdf/2406.08798
SVDiff
SVDiff لها أهداف مختلفة عن LoRA-X ، ولكنها تستخدم بشكل قوي في الورقة الجديدة. تم تصميم SVDiff لتحسين كفاءة التحسين الدقيق لنماذج الانتشار ، ويتعديل مباشرةً القيم داخل مصفوفات الأوزان ، مع الحفاظ على المتجهات المنفردة غير متغيرة. يستخدم SVDiff SVD المنقوص ، ويتعديل فقط أكبر القيم ، لتعديل أوزان النموذج.
الاستنتاج
الأساليب المذكورة هنا ليست وحدها ساكني PEFT. تشمل الأخرى QLoRA و QA-LoRA و Prefix Tuning و Prompt-Tuning و adapter-tuning ، من بين أخرى.
“LoRA القابل للتحديث” هو ، ربما ، مطاردة كيميائية ؛ من المؤكد أن هناك لا شيء على الفور الذي سيمنع مصممي LoRA من سحب مجموعات البيانات القديمة مرة أخرى لأحدث وأعظم الأوزان ، إذا كان هناك بعض النموذج البروتوتيبي القياسي للتحديثات الأوزان ، قادرة على البقاء على قيد الحياة من التغييرات في الهيكل والوزن المتضخم بين إصدارات النموذج ، فإنه لم يظهر في الأدب بعد ، وسيتعين استخلاصه بشكل مستمر من البيانات على أساس كل نموذج.
نشر لأول مرة يوم الخميس ، 30 يناير 2025












