Connect with us

النضال من أجل التخصيص بدون إطلاق في الذكاء الاصطناعي التوليدي

زاوية Anderson

النضال من أجل التخصيص بدون إطلاق في الذكاء الاصطناعي التوليدي

mm
Timothy Chalomet replaces Jack Nicholson in The Shining (1980), thanks to the new HyperLoRA system. Source: https://arxiv.org/pdf/2503.16944

إذا كنت تريد وضع نفسك في أداة شائعة لإنشاء الصور أو الفيديو – ولكنك لست مشهورًا بما يكفي ليتعرف عليك نموذج الأساس – ستحتاج إلى تدريب نموذج تعديل منخفض الرتبة (LoRA) باستخدام مجموعة من صورك الخاصة. بمجرد إنشائه ، يسمح النموذج المخصص LoRA للنموذج التوليدي بتشمل هويتك في الإخراج في المستقبل.

يُطلق على هذا عادةً التخصيص في قطاع أبحاث 합성 الصور والفيديو. ظهر لأول مرة بعد بضعة أشهر من ظهور Stable Diffusion في صيف 2022 ، مع مشروع DreamBooth من Google Research ، الذي يقدم نماذج تخصيص عالية السعة ، في مخطط مغلق المصدر تم تبنيه لاحقًا من قبل الهواة وإصداره إلى المجتمع.

تبع ذلك نماذج LoRA ، ووفرت تدريبًا أسهل وأحجام ملفات أخف ، مع عدم وجود خسارة في الجودة أو خسارة طفيفة ، وسيطرت بسرعة على مشهد التخصيص لاستقرار الانبعاث المستقر وورثته ، مثل Flux ، والآن نماذج فيديو توليدية جديدة مثل Hunyuan Video و Wan 2.1.

اغسل و أعد

المشكلة هي ، كما لاحظنا من قبل ، أن كل مرة يتم إصدار نموذج جديد ، يحتاج إلى جيل جديد من LoRAs للتدريب ، مما ي представляет احتكاكًا كبيرًا على منتجي LoRA ، الذين قد يتدربون على مجموعة من النماذج المخصصة فقط ليكتشفوا أن تحديث النموذج أو نموذج جديد شائع يعني أنهم يجب أن يبدأوا من جديد.

لذلك ، أصبحت مناهج التخصيص بدون إطلاق خيطًا قويًا في الأدب مؤخرًا. في هذا السيناريو ، بدلاً من الحاجة إلى تحضير مجموعة بيانات وتنفيذ نموذج فرعي ، يمكنك ببساطة توفير صورة أو أكثر للموضوع الذي سيتم حقنه في التوليد ، وسيقوم النظام بتحليل هذه المصادر الإدخال إلى مخرج مخلوط.

فيما يلي نرى أن نظامًا من هذا القبيل (هنا باستخدام PuLID) يمكن أيضًا دمج قيم الهوية في نقل الأسلوب:

أمثلة على نقل الهوية الوجهية باستخدام نظام PuLID. مصدر: https://github.com/ToTheBeginning/PuLID?tab=readme-ov-file

أمثلة على نقل الهوية الوجهية باستخدام نظام PuLID. مصدر: https://github.com/ToTheBeginning/PuLID?tab=readme-ov-file

في حين أن استبدال نظام شاق ومهترئ مثل LoRA بمحول عام هو فكرة رائعة (و شائعة) ، إلا أنه تحدي أيضًا ؛ الانتباه الشديد للتفاصيل والتغطية المكتسبة في عملية تدريب LoRA صعب جدًا لمحاكاته في نموذج IP-Adapter نمطي ، والذي يجب أن يطابق مستوى تفاصيل LoRA ومرونته بدون ميزة سابقة لتحليل مجموعة شاملة من صور الهوية.

HyperLoRA

مع هذا في الاعتبار ، هناك ورقة جديدة مثيرة للاهتمام من ByteDance تقترح نظامًا يولد رمز LoRA الفعلي في الوقت الفعلي ، وهو فريد من نوعه بين الحلول بدون إطلاق:

على اليسار ، الصور الإدخال. يمين ذلك ، مجموعة مرنة من الإخراج بناءً على الصور الإدخال ، مما ينتج بشكل فعال عمليات تزييف عميقة لممثلي أنتوني هوبكينز وآن هاثاواي.

على اليسار ، الصور الإدخال. يمين ذلك ، مجموعة مرنة من الإخراج بناءً على الصور الإدخال ، مما ينتج بشكل فعال عمليات تزييف عميقة لممثلي أنتوني هوبكينز وآن هاثاواي. مصدر: https://arxiv.org/pdf/2503.16944

تنص الورقة على:

‘تقنيات المحول مثل IP-Adapter تجميد معاملات النموذج الأساسي وتوظف هيكلًا قابلًا للتركيب لتمكين الاستدلال بدون إطلاق ، ولكنها غالبًا ما تظهر نقصًا في الطبيعية والصدق ، والتي لا يجب إغفالها في مهام合성 الصور.

‘نقدم طريقة توليد محددة بالمعاملات ، وهي HyperLoRA ، التي تستخدم شبكة قابلة للتركيب محددة بالمعاملات لتوليد أوزان LoRA ، ودمج الأداء الممتاز ل LoRA مع khảية بدون إطلاق مخطط المحول.

‘من خلال هيكل الشبكة والاستراتيجية التدريبية المصممة بعناية ، نحقق توليد صور شخصية بدون إطلاق (دعمًا لمدخلات الصورة المفردة والمتعددة) مع واقعية فوتوغرافية عالية ، وصدق ، وتنسيق.

أكثر ما هو مفيد ، يمكن استخدام النظام كما تم تدريبه مع ControlNet الحالي ، مما يسمح بمستوى عالٍ من الخصوصية في التوليد:

يظهر تيموثي تشالوميت في ظهور غير متوقع في فيلم The Shining (1980) ، بناءً على ثلاث صور إدخال في HyperLoRA.

يظهر تيموثي تشالوميت في ظهور غير متوقع في فيلم ‘The Shining’ (1980) ، بناءً على ثلاث صور إدخال في HyperLoRA ، مع قناع ControlNet يحدد الإخراج (بالاشتراك مع نص محفز).

فيما يتعلق بwhether سيتم إتاحة النظام الجديد لمستخدمي النهاية ، يمتلك ByteDance سجلًا معقولًا في هذا الصدد ، حيث أصدروا الإطار القوي LatentSync لتنسيق الشفاه ، وأصدروا للتو الإطار InfiniteYou.

سلبًا ، لا تُظهر الورقة أي إشارة إلى عزم على الإصدار ، وموارد التدريب اللازمة لإعادة إنشاء العمل باهظة الثمن لدرجة أن من الصعب على مجتمع الهواة إعادة إنشائه (كما فعلوا مع DreamBooth).

الورقة الجديدة بعنوان HyperLoRA: Parameter-Efficient Adaptive Generation for Portrait Synthesis ، وهي من سبعة باحثين عبر ByteDance وByteDance’s مكتب الإبداع الذكي المخصص.

الطريقة

تستخدم الطريقة الجديدة نموذج الانبعاث اللاتنتي Stable Diffusion (LDM) SDXL كنموذج أساسي ، على الرغم من أن المبادئ تبدو قابلة للتطبيق على نماذج الانبعاث بشكل عام (مع ذلك ، قد تجعل متطلبات التدريب – انظر أدناه – من الصعب تطبيقها على نماذج الفيديو التوليدية).

يتم تقسيم عملية التدريب ل HyperLoRA إلى ثلاث مراحل ، كل منها مصمم لتحديد وتحفيز المعلومات المحددة في الأوزان المكتسبة. الهدف من هذه الإجراء المحاط هو منع ميزات الهوية ذات الصلة من التلوث بالعناصر غير ذات الصلة مثل الملابس أو الخلفية ، في نفس الوقت تحقيق التقارب السريع والاستقرار.

مخطط مفاهيمي ل HyperLoRA. يتم تقسيم النموذج إلى 'Hyper ID-LoRA' لميزات الهوية و 'Hyper Base-LoRA' للخلفية والملابس. يقلل هذا التجزئة من تسرب الميزات. خلال التدريب ، يتم تجميد قاعدة SDXL والمشفرات ، ويتم تحديث وحدات HyperLoRA فقط. عند الاستدلال ، يتم استخدام ID-LoRA فقط لتوليد الصور المخصصة.

مخطط مفاهيمي ل HyperLoRA. يتم تقسيم النموذج إلى ‘Hyper ID-LoRA’ لميزات الهوية و ‘Hyper Base-LoRA’ للخلفية والملابس. يقلل هذا التجزئة من تسرب الميزات. خلال التدريب ، يتم تجميد قاعدة SDXL والمشفرات ، ويتم تحديث وحدات HyperLoRA فقط. عند الاستدلال ، يتم استخدام ID-LoRA فقط لتوليد الصور المخصصة.

المرحلة الأولى تركز بالكامل على تعلم ‘Base-LoRA’ (الأسفل-اليسار في صورة المخطط أعلاه) ، الذي يلتقط تفاصيل غير ذات صلة بالهوية.

لإجبار هذا التجزئة ، قام الباحثون عمدًا بتعتيم الوجه في صور التدريب ، مما سمح للنموذج بالتركيز على أشياء مثل الخلفية والإضاءة والوضع – ولكن ليس الهوية. يخدم هذا المرحلة “دافئة” كمرشح ، بإزالة الانحرافات منخفضة المستوى قبل بدء التعلم المحدد للهوية.

في المرحلة الثانية ، يتم إدخال ‘ID-LoRA’ (العلوي-اليسار في صورة المخطط أعلاه). هنا ، يتم ترميز الهوية الوجهية باستخدام مسارات موازية: CLIP Vision Transformer (CLIP ViT) لميزات الهياكل و InsightFace AntelopeV2 encoder لممثلات الهوية المجردة.

منهج انتقالي

تساعد ميزات CLIP النموذج على التقارب بسرعة ، ولكنها تتعرض لخطر التعلم الزائد ، في حين أن تضمينات Antelope أكثر استقرارًا ولكنها أبطأ في التدريب. لذلك يبدأ النظام بالاعتماد بشكل أكبر على CLIP ، ويتدرج تدريجيًا في Antelope ، لتجنب عدم الاستقرار.

في المرحلة النهائية ، يتم تجميد طبقات الانتباه الموجهة بواسطة CLIP بالكامل. فقط وحدات الانتباه المرتبطة ب AntelopeV2 تستمر في التدريب ، مما يسمح للنموذج بتحسين الحفاظ على الهوية دون تدهور دقة أو عمومية المكونات المكتسبة مسبقًا.

هذه الهيكل المرحلي هو في الأساس محاولة ل فك الارتباط. يتم فصل ميزات الهوية وميزات غير الهوية ، ثم يتم تحسينها بشكل مستقل. إنه رد منهجي على أوضاع فشل التخصيص المعتادة: انجراف الهوية ، وتنسيق منخفض ، وتعلم زائد لميزات عرضية.

بينما تزن

بعد أن استخلصت CLIP ViT و AntelopeV2 ميزات هيكلية وميزات هوية محددة من صورة بورتريه معينة ، يتم تمرير الميزات المكتسبة عبر مُعاد توزيع المُستلم (مشتق من مشروع IP-Adapter المذكور أعلاه) – وهو وحدة تحويلية خفيفة تُخرِج مجموعة مدمجة من المعاملات.

يتم استخدام两个 مُعاد توزيع منفصلان: واحد لتوليد أوزان Base-LoRA (التي ترمز إلى خلفية وعناصر غير هوية) وآخر لتوليد أوزان ID-LoRA (التي تركز على هوية الوجه).

مخطط ل بنية شبكة HyperLoRA.

مخطط ل بنية شبكة HyperLoRA.

يتم بعد ذلك الجمع الخطي للمعاملات الإخراجية مع مجموعة من مصفوفات أساس LoRA المكتسبة ، مما ينتج أوزان LoRA كاملة بدون الحاجة إلى التدريب الدقيق للنموذج الأساسي.

يسمح هذا النهج للنظام بتوليد أوزان مخصصة كاملًا في الوقت الفعلي ، باستخدام فقط مشفرات الصور والتعيين الخفيف ، مع الاستفادة من khảية LoRA لتعديل سلوك النموذج الأساسي مباشرة.

البيانات والاختبارات

لتدريب HyperLoRA ، استخدم الباحثون جزءًا من 4.4 مليون صورة وجه من مجموعة بيانات LAION-2B (التي تعرف الآن أفضل ك مصدر البيانات لأول نماذج Stable Diffusion في عام 2022).

تم استخدام InsightFace لتصفية الأوجه غير البورتريه والصور المتعددة. تم بعد ذلك إضافة تعليقات إلى الصور باستخدام نظام BLIP-2 للتعليق.

فيما يتعلق ب توسيع البيانات ، تم قص الصور بشكل عشوائي حول الوجه ، ولكن دائمًا مع التركيز على منطقة الوجه.

كان على رتبة LoRA أن تتوافق مع الذاكرة المتاحة في إعداد التدريب. لذلك ، تم تعيين رتبة LoRA ل ID-LoRA إلى 8 ، و رتبة Base-LoRA إلى 4 ، في حين تم استخدام تجميع التدرج بثماني خطوات لتحقيق حجم باتش أكبر مما كان ممكنًا في الأجهزة.

تدرب الباحثون على وحدات Base-LoRA و ID-LoRA (CLIP) و ID-LoRA (تضمين الهوية) على التوالي ل 20K و 15K و 55K تكرار ، على التوالي. خلال تدريب ID-LoRA ، قاموا بعينة من ثلاث سيناريوهات شرطية باحتمالات 0.9 و 0.05 و 0.05.

تم تنفيذ النظام باستخدام PyTorch و Diffusers ، وتم تشغيل عملية التدريب الكاملة لمدة عشرة أيام على 16 NVIDIA A100 GPUs*.

اختبارات ComfyUI

قام المؤلفون ببناء سير عمل في منصة ComfyUI لتحليل HyperLoRA مقارنة بثلاث طرق منافسة: InstantID؛ IP-Adapter ، في شكل IP-Adapter-FaceID-Portrait؛ و PuLID المذكور أعلاه. تم استخدام بذور متسقة ، ومحفزات ، وأساليب عينة عبر جميع الإطارات.

يلاحظ المؤلفون أن الأساليب المعتمدة على المحول (بدلاً من LoRA) تتطلب عادةً مقاييس توجيه تصنيف أقل حرية ، في حين أن LoRA (بما في ذلك HyperLoRA) أكثر تسامحًا في هذا الصدد.

لذلك ، استخدم الباحثون نقطة التحقق المفتوحة للمصدر LEOSAM’s Hello World عبر الاختبارات. للاختبارات الكمية ، تم استخدام مجموعة بيانات Unsplash-50 الصورية.

المقاييس

للمقاييس الإيمانية ، قاس المؤلفون تشابه الوجه باستخدام مسافات جيبية بين تضمينات الصور CLIP (CLIP-I) وتضمينات الهوية (ID Sim) المستخرجة عبر CurricularFace ، وهو نموذج لم يتم استخدامه خلال التدريب.

توليد كل طريقة أربعة صور رأس عالية الدقة لكل هوية في مجموعة الاختبار ، مع ت平均 النتائج.

تم تقييم القابلية للتعديل في كلاهما من خلال مقارنة نتائج CLIP-I بين الإخراج مع وبدون وحدات الهوية (لمعرفة مقدار التغيير الذي تسببت به قيود الهوية في الصورة)؛ وقياس انسجام الصورة والنص CLIP (CLIP-T) عبر عشرات вариات المحفزات التي تغطي أسلوب الشعر ، الإكسسوارات ، الملابس ، و الخلفيات.

شمل المؤلفون نموذج Arc2Face في المقارنات – نموذج أساسي تم تدريبه على تعليقات ثابتة ومناطق وجه مقطوعة.

ل HyperLoRA ، تم اختبار两个 متغير: واحد يستخدم فقط وحدة ID-LoRA ، وآخر يستخدم كلا ID-LoRA و Base-LoRA ، مع الأخير موزونًا عند 0.4. في حين أن Base-LoRA حسنت الإيمانية ، إلا أنها قيدت القابلية للتعديل قليلاً.

نتائج المقارنة الكمية الأولية.

نتائج المقارنة الكمية الأولية.

من الاختبارات الكمية ، يعلق المؤلفون:

‘ساعد Base-LoRA على تحسين الإيمانية ولكن قيد القابلية للتعديل. على الرغم من أن تصميمنا يفصل بين ميزات الصورة إلى LoRAs مختلفة ، فمن الصعب تجنب تسربها بشكل متبادل. لذلك ، يمكننا تعديل وزن Base-LoRA لتناسب سيناريوهات التطبيق المختلفة.

‘达نا HyperLoRA (الكمية والهوية) تحقق أفضل وأفضل تشابه للوجه بينما يظهر InstantID تفوقًا في تشابه الهوية ولكن إيمانية أقل.

‘يجب考虑 كلا هذين المقاييس معًا لتقييم الإيمانية ، حيث أن تشابه الهوية أكثر مجردًا وإيمانية الوجه تعكس تفاصيل أكثر.

في الاختبارات النوعية ، تبرز التبادلات المهمة في الاقتراح الأساسي (يرجى ملاحظة أننا لا نملك مساحة لإعادة إنتاج جميع الصور للنتائج النوعية ، ونحيل القارئ إلى الورقة الأصلية لمزيد من الصور بدقة أفضل):

مقارنة نوعية. من الأعلى إلى الأسفل ، تم استخدام المحفزات التالية: قميص أبيض وأذنان ذئب (انظر الورقة لأمثلة إضافية).

مقارنة نوعية. من الأعلى إلى الأسفل ، تم استخدام المحفزات التالية: ‘قميص أبيض’ و ‘أذنان ذئب’ (انظر الورقة لأمثلة إضافية).

هنا يعلق المؤلفون:

‘جلد الصور التي تم توليدها بواسطة IP-Adapter و InstantID يظهر بنسيج واضح ومصنوع ، وهو قريب من الواقعية.

‘هذا هو عيب شائع في الأساليب المعتمدة على المحول. يحسن PuLID من هذه المشكلة عن طريق تقليل الغزو إلى النموذج الأساسي ، ويتفوق على IP-Adapter و InstantID ولكن لا يزال يعاني من التمويه وعدم وجود تفاصيل.

‘في المقابل ، يعدل LoRA مباشرةً أوزان النموذج الأساسي بدلاً من إدخال وحدات انتباه إضافية ، وعادة ما ينتج صورًا مفصلة وواقعية.

يصر المؤلفون على أن HyperLoRA يعدل أوزان النموذج الأساسي مباشرةً بدلاً من الاعتماد على وحدات انتباه خارجية ، ويتحافظ على القدرة غير الخطية لأساليب LoRA التقليدية ، مما قد يوفر ميزة في الإيمانية ويمكن أن يؤدي إلى تحسين 捕获 تفاصيل دقيقة مثل لون العين.

الاستنتاج

التيار المستمر لنظم التخصيص بدون إطلاق على مدار الأشهر الثمانية عشر الماضية اتخذ ، في هذه المرحلة ، طابعًا من اليأس. لم يكن العديد من العروض قد حقق تقدمًا ملحوظًا على حالة الفن ؛ وتلك التي قامت بتحسينه قليلاً تميل إلى أن يكون لديها متطلبات تدريب باهظة أو متطلبات استدلال معقدة أو مكلفة للغاية.

في حين أن نظام HyperLoRA يمتلك نظامًا تدريبيًا يصعب ابتلاعه مثل العديد من الدخلات المماثلة الحديثة ، على الأقل ينتهي به المطاف بنموذج يمكنه التعامل مع التخصيص المخصص من الصندوق.

من المادة التكميلية للورقة ، نلاحظ أن سرعة الاستدلال ل HyperLoRA أفضل من IP-Adapter ، ولكن أسوأ من الطريقتين الأخريين – وأن هذه الأرقام تستند إلى NVIDIA V100 GPU ، وهو ليس عتاد استهلاكي نموذجي (على الرغم من أن بطاقات NVIDIA الجديدة “المنزلية” يمكن أن تتطابق أو تتجاوز هذه الأقصى 32GB من VRAM).

سرعات الاستدلال للطرق المنافسة ، بالمللي ثانية.

سرعات الاستدلال للطرق المنافسة ، بالمللي ثانية.

من العادل القول إن التخصيص بدون إطلاق لا يزال مشكلة غير محلولة من منظور عملي ، منذ أن تكون متطلبات الأجهزة المهمة ل HyperLoRA متعارضة بشكل واضح مع khảيته لإنتاج نموذج أساسي حقيقي على المدى الطويل.

 

* تمثل 640GB أو 1280GB من VRAM ، حسب النموذج المستخدم (هذا غير محدد)

نشر لأول مرة يوم الإثنين ، 24 مارس 2025

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai