نماذج ومنصات الذكاء الاصطناعي
AnimateLCM: تعزيز الرسوم المتحركة لطرازات الانتشار الشخصية
على مدار السنوات القليلة الماضية ، حققت نماذج الانتشار نجاحًا كبيرًا واعترافًا بtasks الخلق الصورة والفيديو. نماذج انتشار الفيديو ، على وجه الخصوص ، كانت تحظى باهتمام كبير بسبب khảية إنتاجها لفيديوهات ذات تماسك عالٍ وكذلك دقة. هذه النماذج تنتج فيديوهات عالية الجودة من خلال توظيف عملية تنظيف تكرارية في هيكلها التي تحول تدريجياً الضوضاء عالية الأبعاد إلى بيانات حقيقية.
Stable Diffusion هي واحدة من أكثر النماذج تمثيلاً لtasks الخلق الصورة ، وتن赖 على AutoEncoder المتغير (VAE) لتحويل بين الصورة الحقيقية والميزات الكامنة المخفضة. هذا يسمح للنموذج بتقليل التكاليف التوليدية ، في حين أن آليات الانتباه المتقاطع في هيكله تسهل توليد الصور المشروطة بالنص. في الآونة الأخيرة ، بنى إطار Stable Diffusion أساسًا لعدة محولات قابلة للتشغيل التي تحقق المزيد من الإبداع والفعالية في توليد الصور أو الفيديوهات. ومع ذلك ، فإن العملية التوليدية التكرارية التي يemploها معظم نماذج انتشار الفيديو تجعل عملية توليد الصور بطيئة ومكلفة نسبيًا ، مما يحد من تطبيقاتها.
في هذا المقال ، سنناقش AnimateLCM ، نموذج انتشار شخصي مع محولات يهدف إلى توليد فيديوهات عالية الدقة بأقل عدد من الخطوات والتكاليف الحاسوبية. إطار AnimateLCM مستوحى من نموذج الاتساق ، الذي يسرع العينة بأقل عدد من الخطوات من خلال تقطير نماذج انتشار الصور المسبقة التدريب. بالإضافة إلى ذلك ، تمديد ناجح لنموذج الاتساق ، نموذج الاتساق الكامن (LCM) ، يسهل توليد الصور المشروطة. بدلاً من إجراء تعلم الاتساق مباشرة على مجموعة بيانات الفيديو الخام ، يقترح إطار AnimateLCM استراتيجية تعلم اتساق منفصلة. هذه الاستراتيجية تفصل بين تقطير الأولويات لتوليد الحركة وتوليد الصور ، مما يسمح للنموذج بتعزيز الجودة البصرية للمحتوى المولّد وتحسين كفاءة التدريب في نفس الوقت. بالإضافة إلى ذلك ، يقترح نموذج AnimateLCM تدريب المحولات من الصفر أو تعديل المحولات الحالية لنموذج الاتساق المقطر للفيديو. هذا يسهل دمج محولات قابلة للتشغيل في عائلة نماذج الانتشار المستقر لتحقيق وظائف مختلفة دون الإضرار بسرعة العينة.
يهدف هذا المقال إلى تغطية إطار AnimateLCM بالتفصيل. سنستكشف الآلية والمنهجية وهيكل الإطار ، بالإضافة إلى مقارنته مع إطارات توليد الصور والفيديوهات المتقدمة. لذا ، دعونا نبدأ.
AnimateLCM: رسوم متحركة لطرازات الانتشار الشخصية
نماذج الانتشار كانت الإطار المفضّل لtasks الخلق الصورة وتوليد الفيديو بسبب كفاءتها وقدراتها على tasks التوليد. يعتمد معظم نماذج الانتشار على عملية تنظيف تكرارية لتوليد الصور التي تحول الضوضاء عالية الأبعاد إلى بيانات حقيقية تدريجياً. على الرغم من أن هذه الطريقة تؤدي نتائج مرضية إلى حد ما ، فإن العملية التكرارية وعدد العينات التكرارية يبطئان عملية التوليد ويزيدان من المتطلبات الحاسوبية لنماذج الانتشار ، والتي تكون أبطأ بكثير من الإطارات التوليدية الأخرى مثل GAN أو الشبكات التوليدية المعارضة.
في السنوات القليلة الماضية ، تم اقتراح نماذج الاتساق كبديل لنماذج الانتشار التكرارية لتسريع عملية التوليد مع الحفاظ على المتطلبات الحاسوبية ثابتة. النقطة الرئيسية في نماذج الاتساق هي أنهم يتعلمون خرائط الاتساق التي تحافظ على اتساق المسارات التي قدمها نماذج الانتشار المسبقة التدريب. عملية تعلم نماذج الاتساق تسمح لها بتوليد صور عالية الجودة بأقل عدد من الخطوات ، وتلغي الحاجة إلى التكرارات الحاسوبية المكلفة.
كما أن نموذج الاتساق الكامن (LCM) ، الذي بني على إطار الانتشار المستقر ، يمكن دمجه في واجهة المستخدم على الويب مع المحولات الحالية لتحقيق مجموعة من الوظائف الإضافية مثل الترجمة الصورة إلى صورة في الوقت الفعلي.
dẫnنا إلى AnimateLCM ، إطار توليد فيديو عالي الدقة يحتاج إلى عدد قليل من الخطوات لtasks توليد الفيديو. بعد نموذج الاتساق الكامن ، يعامل إطار AnimateLCM عملية الانتشار العكسي على أنها حل لتدفق الاحتمال المُحسّن بموجب التوجيه الخالي من الفئة. ومع ذلك ، بدلاً من إجراء تعلم الاتساق على بيانات الفيديو الخام مباشرة ، والتي تتطلب موارد تدريب وكفاءة حاسوبية عالية ، ويتم إجراء تعلم الاتساق بشكل سيئ ، يقترح إطار AnimateLCM استراتيجية تعلم اتساق منفصلة.
تجرى استراتيجية تعلم الاتساق المنفصلة في إطار AnimateLCM بتقطير نماذج الانتشار المستقر إلى نماذج اتساق الصور ، ثم تمدد نماذج الاتساق والانتشار إلى 3D لاستيعاب الميزات الثلاثية الأبعاد. أخيرًا ، يتم الحصول على نموذج اتساق الفيديو من خلال تقطير البيانات الفيديوية.
بالإضافة إلى ذلك ، لتحسين جودة الفيديو المولّد ، يقترح إطار AnimateLCM استخدام استراتيجية تهيئة. منذ أن بني إطار AnimateLCM على إطار الانتشار المستقر ، يمكن استبدال الأوزان المكانية لنموذج الاتساق الفيديوي المُدرَّب بالوزن المُتاح علنًا لنموذج انتشار الصور الشخصي لتحقيق نتائج توليد مبتكرة.

بالإضافة إلى ذلك ، لتدريب محولات محددة من الصفر أو لجعل المحولات المتاحة علنًا أكثر ملاءمة ، يقترح إطار AnimateLCM استراتيجية تسريع فعالة للمحولات التي لا تتطلب تدريب نماذج المعلم.
يمكن تلخيص مساهمات إطار AnimateLCM على النحو التالي: يهدف الإطار المقترح إلى تحقيق توليد فيديو عالي الدقة وسريع وعالية الدقة ، ولتحقيق ذلك ، يقترح إطار AnimateLCM استراتيجية تقطير منفصلة تفصل بين الأولويات لتوليد الحركة وتوليد الصور ، مما يؤدي إلى جودة توليد أفضل وتحسين كفاءة التدريب.
InstantID: المنهجية والهيكل
في جوهره ، يعتمد إطار InstantID على نماذج الانتشار و استراتيجيات سرعة العينة. نماذج الانتشار ، المعروفة أيضًا باسم نماذج التوليد القائمة على الدرجات ، أظهرت قدرات توليد صورة ملحوظة. تحت إرشاد اتجاه الدرجة ، تطبق استراتيجية العينة التكرارية التي تنفذها نماذج الانتشار تنظيفًا للبيانات الملوثة بالضوضاء تدريجياً.
تعتمد كفاءة نماذج الانتشار على واحدة من الأسباب الرئيسية التي تجعلها تستخدم على نطاق واسع في نماذج انتشار الفيديو من خلال التدريب على طبقات زمنية إضافية. من ناحية أخرى ، تساعد استراتيجيات تسريع العينة وتسريع العينة على معالجة سرعات التوليد البطيئة في نماذج الانتشار. طريقة التسريع القائمة على التقطير调 ت调 الأوزان الأصلية لنماذج الانتشار مع هيكل متقدم أو جدول زمني لتحسين سرعة التوليد.
متابعًا ، بني إطار InstantID على إطار الانتشار المستقر ، مما يسمح لـ InstantID بتطبيق المفاهيم ذات الصلة. يعامل النموذج عملية الانتشار الأمامية المتقطعة على أنها معادلة تفاضلية عادية متواصلة في الوقت. بالإضافة إلى ذلك ، إطار الانتشار المستقر هو امتداد لنموذج DDPM أو نموذج الانتشار التوليدي المتقطع ، حيث يتم إزعاج نقطة البيانات التدريبية تدريجياً بسلسلة ماركوفية متقطعة مع نواة إزعاج تسمح لتوزيع البيانات الملويثة في كل خطوة زمنية لتكون متوافقًا مع التوزيع.
لتحقيق توليد فيديو عالي الدقة بأقل عدد من الخطوات ، يعتمد إطار AnimateLCM على نماذج الانتشار المستقر القائمة على الفيديو لتتبع خاصية الاتساق الذاتي. يتكون الهيكل التدريبي العام لإطار AnimateLCM من استراتيجية تعلم اتساق منفصلة لتعديل المعلم وتعلم اتساق فعال.

الانتقال من نماذج الانتشار إلى نماذج الاتساق
يقدم إطار AnimateLCM تعديله الخاص لنموذج الانتشار المستقر (DM) إلى نموذج الاتساق (CM) وفقًا لتصميم نموذج الاتساق الكامن (LCM). من الجدير بالذكر أن نماذج الانتشار المستقر تعتمد على تنبؤ الضوضاء المضافة إلى العينات ، وهي في الواقع نماذج انتشار سيغما. هذا يتناقض مع نماذج الاتساق التي تهدف إلى التنبؤ بحل مسار PF-ODE مباشرة.
تعلم الاتساق المنفصل
للمساهمة في عملية تقطير الاتساق ، لاحظ المطورون أن البيانات المستخدمة للتدريب تؤثر بشكل كبير على جودة التوليد النهائية لنماذج الاتساق. ومع ذلك ، فإن المشكلة الرئيسية مع مجموعات البيانات المتاحة حاليًا هي أنها غالبًا ما تتكون من بيانات مائية أو منخفضة الجودة ، وقد تحتوي على عناوين قصيرة أو غامضة.
بالنظر إلى توافر مجموعات بيانات عالية الجودة ومفلترة ، يقترح إطار AnimateLCM فصل تقطير الأولويات لتوليد الحركة وتوليد الصور. بشكل أكثر تحديدًا ، يقوم إطار AnimateLCM أولاً بتقطير نماذج الانتشار المستقر إلى نماذج اتساق الصور باستخدام مجموعات بيانات نصوص الصور عالية الجودة والمفلترة.
التعديل الخالي من المعلم
نماذج الانتشار المستقر والمحولات القابلة للتشغيل غالبًا ما تتوافق معًا. ومع ذلك ، لاحظ أن المحولات القابلة للتشغيل ، على الرغم من أنها تعمل إلى حد ما ، تميل إلى فقدان السيطرة على التفاصيل حتى عندما يتم تدريب معظم هذه المحولات مع نماذج انتشار الصور.
AnimateLCM: التجارب والنتائج
يستخدم إطار AnimateLCM نموذج الانتشار المستقر v1-5 كنموذج أساسي ، وينفذ حل ODE DDIM لأغراض التدريب. كما يطبق إطار AnimateLCM نموذج الانتشار المستقر v1-5 مع أوزان الحركة المفتوحة المصدر كنموذج انتشار فيديو معلم مع إجراء التجارب على مجموعة بيانات WebVid2M دون أي بيانات إضافية أو محسنة.
بالإضافة إلى ذلك ، يستخدم إطار AnimateLCM مجموعة بيانات TikTok مع نصوص نصية قصيرة معروضة من BLIP لتوليد فيديو قابل للتحكم.
النتائج الكمية
تُظهر الصورة التالية نتائج طريقة التوليد بخطوات أربع التي يطبقها إطار AnimateLCM في توليد الفيديو من النص وتوليد الفيديو من الصورة وتوليد الفيديو القابل للتحكم.

الخاتمة
في هذا المقال ، ناقشنا إطار AnimateLCM ، نموذج انتشار شخصي مع محولات يهدف إلى توليد فيديوهات عالية الدقة بأقل عدد من الخطوات والتكاليف الحاسوبية. إطار AnimateLCM مستوحى من نموذج الاتساق الذي يسرع العينة بأقل عدد من الخطوات من خلال تقطير نماذج انتشار الصور المسبقة التدريب.












