رطم DynamiCrafter: تحريك الصور ذات المجال المفتوح باستخدام أدوات نشر الفيديو - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

DynamiCrafter: تحريك الصور ذات المجال المفتوح باستخدام Video Diffusion Priors

mm

تم النشر

 on

DynamiCrafter: تحريك الصور ذات المجال المفتوح باستخدام Video Diffusion Priors

رؤية الحاسوب يعد الرسوم المتحركة للصور أحد أكثر المجالات إثارة وبحثًا جيدًا داخل مجتمع الذكاء الاصطناعي اليوم، وعلى الرغم من التحسين السريع لنماذج رؤية الكمبيوتر، إلا أن التحدي الطويل الأمد الذي لا يزال يزعج المطورين هو الرسوم المتحركة للصور. حتى اليوم، تكافح أطر الرسوم المتحركة للصور لتحويل الصور الثابتة إلى نظيراتها من الفيديو التي تعرض ديناميكيات طبيعية مع الحفاظ على المظهر الأصلي للصور. تقليديًا، تركز أطر الرسوم المتحركة للصور بشكل أساسي على تحريك المشاهد الطبيعية بحركات خاصة بالمجال مثل شعر الإنسان أو حركات الجسم، أو الديناميكيات العشوائية مثل السوائل والسحب. على الرغم من أن هذا النهج يعمل إلى حد ما، إلا أنه يحد من إمكانية تطبيق أطر الرسوم المتحركة هذه على المحتوى المرئي الأكثر عمومية. 

علاوة على ذلك، تركز أساليب الرسوم المتحركة التقليدية للصور بشكل أساسي على تركيب الحركات المتذبذبة والعشوائية، أو على التخصيص لفئات كائنات محددة. ومع ذلك، فإن العيب الملحوظ في هذا النهج هو الافتراضات القوية المفروضة على هذه الأساليب والتي تحد في النهاية من إمكانية تطبيقها خاصة عبر السيناريوهات العامة مثل الرسوم المتحركة للصور ذات المجال المفتوح. على مدى السنوات القليلة الماضية، نماذج T2V أو تحويل النص إلى فيديو لقد أثبتوا نجاحًا ملحوظًا في إنشاء مقاطع فيديو حية ومتنوعة باستخدام المطالبات النصية، وهذا العرض التوضيحي لنماذج T2V هو ما يشكل الأساس لإطار عمل DynamiCrafter. 

يعد إطار عمل DynamiCrafter محاولة للتغلب على القيود الحالية لنماذج الرسوم المتحركة للصور وتوسيع إمكانية تطبيقها على السيناريوهات العامة التي تتضمن صور العالم المفتوح. يحاول إطار عمل DynamiCrafter تجميع محتوى ديناميكي لصور المجال المفتوح، وتحويلها إلى مقاطع فيديو متحركة. الفكرة الرئيسية وراء DynamiCrafter هي دمج الصورة كدليل في العملية التوليدية في محاولة للاستفادة من الحركة قبل النص الموجود بالفعل في نماذج نشر الفيديو. بالنسبة لصورة معينة، يقوم نموذج DynamiCrafter أولاً بتنفيذ محول الاستعلام الذي يعرض الصورة في مساحة تمثيل سياق غني محاذية للنص، مما يسهل نموذج الفيديو لاستيعاب محتوى الصورة بطريقة متوافقة. ومع ذلك، لا يزال نموذج DynamiCrafter يكافح للحفاظ على بعض التفاصيل المرئية في مقاطع الفيديو الناتجة، وهي مشكلة يتغلب عليها نموذج DynamiCrafter عن طريق تغذية الصورة الكاملة لنموذج الانتشار عن طريق تسلسل الصورة مع الضوضاء الأولية، وبالتالي استكمال النموذج بصورة أكثر دقة معلومة. 

تهدف هذه المقالة إلى تغطية إطار عمل DynamiCrafter بعمق، ونستكشف الآلية والمنهجية وبنية الإطار إلى جانب مقارنته بأحدث أطر إنشاء الصور والفيديو. اذا هيا بنا نبدأ. 

DynamiCrafter: الرسوم المتحركة لصور المجال المفتوح

غالبًا ما يوفر تحريك الصورة الثابتة تجربة بصرية جذابة للجمهور حيث يبدو أنه يعيد الحياة إلى الصورة الثابتة. على مر السنين، استكشفت العديد من الأطر طرقًا مختلفة لتحريك الصور الثابتة. نفذت أطر الرسوم المتحركة الأولية أساليب تعتمد على المحاكاة الفيزيائية والتي ركزت على محاكاة حركة كائنات محددة. ومع ذلك، نظرًا للنمذجة المستقلة لكل فئة من فئات الكائنات، لم تكن هذه الأساليب فعالة ولم تكن قابلة للتعميم. لتكرار حركات أكثر واقعية، ظهرت الأساليب المرجعية التي تنقل معلومات الحركة أو المظهر من الإشارات المرجعية مثل مقاطع الفيديو إلى عملية التوليف. على الرغم من أن النهج المرجعي حقق نتائج أفضل مع تماسك زمني أفضل بالمقارنة مع النهج القائم على المحاكاة، إلا أنه كان بحاجة إلى إرشادات إضافية حدت من تطبيقاته العملية. 

في السنوات الأخيرة، ركزت غالبية أطر الرسوم المتحركة بشكل أساسي على تحريك المشاهد الطبيعية باستخدام حركات عشوائية أو خاصة بالمجال أو متذبذبة. وعلى الرغم من أن النهج الذي تنفذه هذه الأطر يعمل إلى حد ما، فإن النتائج التي تولدها هذه الأطر ليست مرضية، مع وجود مجال كبير للتحسين. لقد ألهمت النتائج الرائعة التي حققتها النماذج التوليدية لتحويل النص إلى فيديو في السنوات القليلة الماضية مطوري إطار عمل DynamiCrafter للاستفادة من القدرات التوليدية القوية لنماذج تحويل النص إلى فيديو لتحريك الصور. 

الأساس الرئيسي لإطار عمل DynamiCrafter هو دمج صورة مشروطة في محاولة للتحكم في عملية إنشاء الفيديو نماذج نشر النص إلى الفيديو. ومع ذلك، فإن الهدف النهائي لتحريك الصور لا يزال غير تافه نظرًا لأن تحريك الصور يتطلب الحفاظ على التفاصيل بالإضافة إلى فهم السياقات المرئية الضرورية لإنشاء الديناميكيات. ومع ذلك، حاولت نماذج نشر الفيديو متعددة الوسائط التي يمكن التحكم فيها مثل VideoComposer تمكين إنشاء الفيديو بتوجيه مرئي من الصورة. ومع ذلك، فإن هذه الأساليب ليست مناسبة للرسوم المتحركة للصور لأنها إما تؤدي إلى تغييرات زمنية مفاجئة أو انخفاض التوافق البصري مع صورة الإدخال بسبب آليات حقن الصور الأقل شمولاً. ولمواجهة هذه العقبة، يقترح إطار عمل DyaniCrafter أسلوب حقن مزدوج التدفق، يتكون من إرشادات التفاصيل المرئية، وتمثيل السياق المحاذي للنص. يسمح أسلوب الحقن ثنائي التدفق لإطار عمل DynamiCrafter بالتأكد من أن نموذج نشر الفيديو يقوم بتجميع المحتوى الديناميكي المحفوظ بالتفاصيل بطريقة تكميلية. 

بالنسبة لصورة معينة، يقوم إطار عمل DynamiCrafter أولاً بعرض الصورة في مساحة تمثيل السياق المحاذية للنص باستخدام شبكة تعلم السياق المصممة خصيصًا. لكي نكون أكثر تحديدًا، تتكون مساحة تمثيل السياق من محول استعلام قابل للتعلم لتعزيز تكيفه مع نماذج الانتشار، وجهاز تشفير صور CLIP مُدرب مسبقًا لاستخراج ميزات الصورة المحاذية للنص. يستخدم النموذج بعد ذلك ميزات السياق الغنية باستخدام طبقات الانتباه المتبادل، ويستخدم النموذج دمجًا مسورًا لدمج ميزات النص هذه مع طبقات الانتباه المتبادل. ومع ذلك، فإن هذا النهج يتاجر بتمثيلات السياق المستفادة مع التفاصيل المرئية المحاذية للنص والتي تسهل الفهم الدلالي لسياق الصورة مما يسمح بتوليف ديناميكيات معقولة وحيوية. علاوة على ذلك، في محاولة لتكملة التفاصيل المرئية الإضافية، يقوم الإطار بربط الصورة الكاملة مع الضوضاء الأولية لنموذج الانتشار. ونتيجة لذلك، يضمن نهج الحقن المزدوج الذي يطبقه إطار عمل DynamiCrafter المطابقة البصرية بالإضافة إلى المحتوى الديناميكي المعقول لصورة الإدخال. 

مع المضي قدمًا، أظهرت نماذج الانتشار أو DMs أداءً رائعًا وبراعة إنتاجية في إنشاء T2I أو تحويل النص إلى صورة. لتكرار نجاح نماذج T2I في توليد الفيديو، تم اقتراح نماذج VDM أو Video Diffusion Models التي تستخدم بنية U-New المُعاملة للزمكان في مساحة البكسل لنمذجة مقاطع الفيديو منخفضة الدقة. إن نقل الدروس المستفادة من أطر T2I إلى أطر T2V سيساعد في تقليل تكاليف التدريب. على الرغم من أن VDM أو Video Diffusion Models لديها القدرة على إنشاء مقاطع فيديو عالية الجودة، إلا أنها تقبل فقط المطالبات النصية باعتبارها التوجيه الدلالي الوحيد الذي قد لا يعكس نوايا المستخدم الحقيقية أو قد يكون غامضًا. ومع ذلك، فإن نتائج غالبية نماذج VDM نادرًا ما تلتزم بالصورة المدخلة وتعاني من مشكلة التغير الزمني غير الواقعي. يعتمد نهج DynamiCrafter على نماذج نشر الفيديو المكيفة بالنص والتي تستفيد من ديناميكيتها الغنية السابقة لتحريك الصور ذات المجال المفتوح. وهو يفعل ذلك من خلال دمج تصميمات مخصصة لتحسين الفهم الدلالي والتوافق مع الصورة المدخلة. 

DynamiCrafter: الطريقة والهندسة المعمارية

بالنسبة لصورة ثابتة معينة، يحاول إطار عمل DyanmiCrafter تحريك الصورة صورة إلى فيديو أي إنتاج مقطع فيديو قصير. يرث مقطع الفيديو المحتويات المرئية من الصورة، ويعرض ديناميكيات طبيعية. ومع ذلك، هناك احتمال أن تظهر الصورة في الموقع العشوائي لتسلسل الإطارات الناتج. يعد ظهور الصورة في موقع عشوائي نوعًا خاصًا من التحدي الذي يتم ملاحظته في مهام إنشاء الفيديو المكيف بالصورة مع متطلبات المطابقة المرئية العالية. يتغلب إطار عمل DynamiCrafter على هذا التحدي من خلال الاستفادة من السوابق التوليدية لنماذج نشر الفيديو المدربة مسبقًا. 

ديناميكيات الصورة من نشر الفيديو مسبقًا

عادةً ما تُعرف نماذج نشر النص المفتوح إلى الفيديو بأنها تعرض محتوى مرئيًا ديناميكيًا مُصممًا على أساس أوصاف النص. لتحريك صورة ثابتة باستخدام النصوص المولدة للفيديو، يجب على الأطر أولاً إدخال المعلومات المرئية في عملية إنشاء الفيديو بطريقة شاملة. علاوة على ذلك، بالنسبة للتوليف الديناميكي، يجب أن يستوعب نموذج T2V الصورة لفهم السياق، في حين يجب أن يكون قادرًا أيضًا على الحفاظ على التفاصيل المرئية في مقاطع الفيديو التي تم إنشاؤها. 

تمثيل سياق النص المحاذي

لتوجيه عملية إنشاء الفيديو باستخدام سياق الصورة، يحاول إطار عمل DynamiCrafter عرض الصورة في مساحة تضمين متوافقة مما يسمح لنموذج الفيديو باستخدام معلومات الصورة بطريقة متوافقة. بعد ذلك، يستخدم إطار عمل DynamiCrafter برنامج تشفير الصور لاستخراج ميزات الصورة من الصورة المدخلة حيث يتم إنشاء تضمينات النص باستخدام برنامج تشفير نص CLIP مُدرب مسبقًا. الآن، على الرغم من أن الرموز الدلالية العالمية من برنامج تشفير الصور CLIP تتماشى مع التسميات التوضيحية للصورة، إلا أنها تمثل في المقام الأول المحتوى المرئي على المستوى الدلالي، وبالتالي تفشل في التقاط المدى الكامل للصورة. يقوم إطار عمل DynamiCrafter بتنفيذ الرموز المرئية الكاملة من الطبقة الأخيرة من برنامج تشفير CLIP لاستخراج معلومات أكثر اكتمالاً نظرًا لأن هذه الرموز المرئية تظهر دقة عالية في مهام إنشاء الصور المشروطة. علاوة على ذلك، يستخدم الإطار تضمينات السياق والنص للتفاعل مع ميزات U-Net الوسيطة باستخدام طبقات الانتباه المتبادل المزدوجة. يسهل تصميم هذا المكون قدرة النموذج على استيعاب ظروف الصورة بطريقة تعتمد على الطبقة. علاوة على ذلك، نظرًا لأن الطبقات المتوسطة في بنية U-Net ترتبط بشكل أكبر بأوضاع الكائنات أو أشكالها، فمن المتوقع أن تؤثر ميزات الصورة على مظهر مقاطع الفيديو في الغالب خاصة وأن الطبقات ذات النهايتين أكثر ارتباطًا بالمظهر. 

إرشادات التفاصيل المرئية

يستخدم إطار عمل DyanmiCrafter تمثيل سياق غني بالمعلومات يسمح لنموذج نشر الفيديو في بنيته بإنتاج مقاطع فيديو تشبه الصورة المدخلة بشكل وثيق. ومع ذلك، كما هو موضح في الصورة التالية، قد يعرض المحتوى الذي تم إنشاؤه بعض التناقضات بسبب القدرة المحدودة لأداة تشفير CLIP المدربة مسبقًا للحفاظ على معلومات الإدخال بالكامل، حيث تم تصميمها لمحاذاة اللغة والميزات المرئية. 

لتعزيز التوافق البصري، يقترح إطار عمل DynamiCrafter تزويد نموذج نشر الفيديو بتفاصيل مرئية إضافية مستخرجة من الصورة المدخلة. ولتحقيق ذلك، يقوم نموذج DyanmiCrafter بربط الصورة الشرطية مع الضوضاء الأولية لكل إطار ويغذيها إلى مكون U-Net المخفض للضوضاء كإرشاد. 

نموذج التدريب

يدمج إطار عمل DynamiCrafter الصورة الشرطية من خلال مسارين متكاملين يلعبان دورًا مهمًا في التوجيه التفصيلي والتحكم في السياق. لتسهيل الأمر، يستخدم نموذج DynamiCrafter عملية تدريب من ثلاث خطوات

  1. في الخطوة الأولى، يقوم النموذج بتدريب شبكة تمثيل سياق الصورة. 
  2. في الخطوة الثانية، يقوم النموذج بتكييف شبكة تمثيل سياق الصورة مع نموذج تحويل النص إلى فيديو. 
  3. في الخطوة الثالثة والأخيرة، يقوم النموذج بضبط شبكة تمثيل سياق الصورة بالاشتراك مع مكون التوجيه التفصيلي المرئي. 

لتكييف معلومات الصورة للتوافق مع نموذج تحويل النص إلى فيديو (T2V)، يقترح إطار عمل DynamiCrafter تطوير شبكة تمثيل السياق، P، المصممة لالتقاط التفاصيل المرئية المحاذية للنص من الصورة المحددة. نظرًا لأن P يتطلب العديد من خطوات التحسين للتقارب، فإن نهج إطار العمل يتضمن تدريبه في البداية باستخدام نموذج أبسط لتحويل النص إلى صورة (T2I). تسمح هذه الإستراتيجية لشبكة تمثيل السياق بالتركيز على التعرف على سياق الصورة قبل دمجها مع نموذج T2V من خلال التدريب المشترك مع P والطبقات المكانية، على عكس الطبقات الزمنية، لنموذج T2V. 

لضمان توافق T2V، يقوم إطار عمل DyanmiCrafter بدمج صورة الإدخال مع ضوضاء لكل إطار، والاستمرار في ضبط الطبقات المكانية لكل من P ونموذج التمييز المرئي (VDM). يتم اختيار هذه الطريقة للحفاظ على سلامة الرؤى الزمنية الحالية لنموذج T2V دون التأثيرات الضارة لدمج الصور الكثيفة، والتي يمكن أن تضر بالأداء وتبتعد عن هدفنا الأساسي. علاوة على ذلك، يستخدم الإطار استراتيجية الاختيار العشوائي لإطار فيديو كشرط للصورة لتحقيق هدفين: (XNUMX) لتجنب قيام الشبكة بتطوير نمط يمكن التنبؤ به يربط بشكل مباشر الصورة المدمجة بموقع إطار محدد، و(XNUMX) تشجيع تمثيل سياق أكثر قابلية للتكيف عن طريق منع توفير معلومات صارمة للغاية لأي إطار معين. 

DynamiCrafter: التجارب والنتائج

يقوم إطار عمل DynamiCrafter أولاً بتدريب شبكة تمثيل السياق وطبقات الصورة المتقاطعة على Stable Diffusion. ثم يحل الإطار محل انتشار مستقر مكون مع VideoCrafter وإجراء المزيد من الضبط الدقيق لشبكة تمثيل السياق والطبقات المكانية للتكيف، ومع تسلسل الصور. في الاستدلال، يعتمد الإطار أداة أخذ العينات DDIM مع إرشادات خالية من المصنف متعدد الشروط. علاوة على ذلك، لتقييم التماسك الزمني وجودة مقاطع الفيديو المركبة في كل من النطاقين الزمني والمكاني، يقوم الإطار بالإبلاغ عن FVD أو Frechet Video Distance، بالإضافة إلى KVD أو Kernel Video Distance، ويقيم أداء اللقطة الصفرية على جميع الطرق معايير MSR-VTT وUCF-101. للتحقيق في المطابقة الإدراكية بين النتائج التي تم إنشاؤها وصورة الإدخال، يقدم الإطار PIC أو توافق الإدخال الإدراكي، ويعتمد مقياس المسافة الإدراكية DreamSim كدالة للمسافة. 

يوضح الشكل التالي المقارنة المرئية للمحتوى المتحرك الذي تم إنشاؤه بأنماط ومحتوى مختلف. 

كما يمكن ملاحظته، من بين جميع الطرق المختلفة، يلتزم إطار عمل DynamiCrafter بحالة الصورة المدخلة بشكل جيد، وينتج مقاطع فيديو متماسكة مؤقتًا. يحتوي الجدول التالي على إحصائيات من دراسة مستخدم أجريت على 49 مشاركًا لمعدل التفضيل للتماسك الزمني (TC)، وجودة الحركة (MC) إلى جانب معدل الاختيار للتوافق البصري مع صورة الإدخال. (إيك). كما يمكن ملاحظته، فإن إطار عمل DynamiCrafter قادر على التفوق في الأداء على الأساليب الحالية بفارق كبير. 

ويوضح الشكل التالي النتائج التي تم تحقيقها باستخدام طريقة الحقن ثنائي التيار ونموذج التدريب. 

افكار اخيرة

تحدثنا في هذه المقالة عن DynamiCrafter، وهي محاولة للتغلب على القيود الحالية لنماذج الرسوم المتحركة للصور وتوسيع نطاق تطبيقها على السيناريوهات العامة التي تتضمن صور العالم المفتوح. يحاول إطار عمل DynamiCrafter تجميع محتوى ديناميكي لصور المجال المفتوح، وتحويلها إلى مقاطع فيديو متحركة. الفكرة الرئيسية وراء DynamiCrafter هي دمج الصورة كدليل في العملية التوليدية في محاولة للاستفادة من الحركة قبل النص الموجود بالفعل في نماذج نشر الفيديو. بالنسبة لصورة معينة، يقوم نموذج DynamiCrafter أولاً بتنفيذ محول الاستعلام الذي يعرض الصورة في مساحة تمثيل سياق غني محاذية للنص، مما يسهل نموذج الفيديو لاستيعاب محتوى الصورة بطريقة متوافقة. ومع ذلك، لا يزال نموذج DynamiCrafter يكافح للحفاظ على بعض التفاصيل المرئية في مقاطع الفيديو الناتجة، وهي مشكلة يتغلب عليها نموذج DynamiCrafter عن طريق تغذية الصورة الكاملة لنموذج الانتشار عن طريق تسلسل الصورة مع الضوضاء الأولية، وبالتالي استكمال النموذج بصورة أكثر دقة معلومة. 

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.