نماذج ومنصات الذكاء الاصطناعي
DynamiCrafter: Animation of Open-Domain Images with Video Diffusion Priors
الرؤية الحاسوبية هي واحدة من أكثر المجالات إثارة ودراسة داخل مجتمع الذكاء الاصطناعي اليوم، وعلى الرغم من التحسين السريع للنماذج الحاسوبية للرؤية، لا يزال هناك تحدي قديم يزعج المطورين وهو تحريك الصور. حتى اليوم، تعاني إطارات تحريك الصور في تحويل الصور الثابتة إلى مقاطع فيديو متحركة تعرض ديناميكيات طبيعية مع الحفاظ على المظهر الأصلي للصور. تقليدياً، تركز إطارات تحريك الصور بشكل رئيسي على تحريك المشاهد الطبيعية مع حركات محددة مثل حركة الشعر أو الجسم، أو الديناميات العشوائية مثل السوائل والغيوم. على الرغم من أن هذا النهج يعمل إلى حد ما، إلا أنه يقيد تطبيق إطارات التحريك هذه على محتوى مرئي أكثر عمومية.
علاوة على ذلك، تركز النهج التقليدية لتحريك الصور بشكل رئيسي على合成 الحركات المتذبذبة والديناميات العشوائية، أو على تخصيص فئات معينة من الأجسام. ومع ذلك، فإن هناك عيبًا ملحوظًا في هذا النهج هو افتراضات قوية تُفرض على هذه الطرق، مما يحد في النهاية من تطبيقها، خاصة في السيناريوهات العامة مثل تحريك الصور المفتوحة. خلال السنوات القليلة الماضية، أظهرت نماذج النص إلى الفيديو نجاحًا ملحوظًا في توليد فيديوهات متعددة وغنية باستخدام نصوص إرشادية، وهذا هو الأساس الذي يعتمد عليه إطار DynamiCrafter.
إطار DynamiCrafter هو محاولة لتحقيق العبور الحالي لنموذج تحريك الصور وتوسيع تطبيقه إلى سيناريوهات عامة تتضمن صورًا مفتوحة. يهدف إطار DynamiCrafter إلى合成 محتوى ديناميكي لصور مفتوحة، مما يُحولها إلى فيديوهات متحركة. الفكرة الرئيسية وراء DynamiCrafter هي دمج الصورة كتوجيه في عملية التوليد، في محاولة لاستخدام السابق الحركي للنماذج التقليدية للنص إلى الفيديو.对于 صورة معينة، يُطبق نموذج DynamiCrafter أولاً محول استفسار يُحول الصورة إلى مساحة تمثيل سياق غني متوافق، مما يُسهل على نموذج الفيديو هضم محتوى الصورة بطريقة متوافقة. ومع ذلك، لا يزال نموذج DynamiCrafter يعاني من صعوبة في الحفاظ على بعض التفاصيل البصرية في الفيديوهات الناتجة، وهو مشكلة يُغلب عليها نموذج DynamiCrafter عن طريق تغذية الصورة الكاملة إلى نموذج الاختلاط عن طريق دمج الصورة مع الضوضاء الأولية، وبالتالي إمداد النموذج بمعلومات صورة أكثر دقة.
تهدف هذه المقالة إلى تغطية إطار DynamiCrafter بعمق، ونستكشف آليته وطريقة عمله وهيكله ومقارنته مع إطارات توليد الصور والفيديوهات الحالية. لذا، دعونا نبدأ.
DynamiCrafter: Animation of Open-Domain Images
غالبًا ما يقدم تحريك صورة ثابتة تجربة بصرية مشوقة للجمهور، حيث يبدو أنها تُحيل الصورة الثابتة إلى الحياة. على مر السنين، استكشف العديد من الإطارات طرقًا مختلفة لتحريك الصور الثابتة. تطبيق الإطارات الأولي لتحريك الصور استخدمت نهجًا قائمًا على محاكاة فيزيائية تركز على محاكاة حركة الأجسام المحددة. ومع ذلك، بسبب نمذجة كل فئة من الأجسام بشكل مستقل، لم تكن هذه النهج فعالة ولا تملك عمومية. لتكرار حركات أكثر واقعية، ظهرت طرق مرجعية نقلت معلومات الحركة أو المظهر من إشارات مرجعية مثل الفيديوهات إلى عملية التوليد. على الرغم من أن نهج المرجع أظهر نتائج أفضل مع انسجام زمني أفضل مقارنة بالنهج القائم على المحاكاة، إلا أنه احتاج إلى توجيه إضافي الذي قيد تطبيقاته العملية.
في السنوات الأخيرة، يركز معظم إطارات التحريك بشكل رئيسي على تحريك المشاهد الطبيعية مع حركات عشوائية أو محددة أو متذبذبة. على الرغم من أن النهج المُطبق من قبل هذه الإطارات يعمل إلى حد ما، فإن النتائج التي تُنتجها هذه الإطارات ليست مرضية، مع وجود فرصة كبيرة للتحسين. النتائج المذهلة التي حققها نماذج النص إلى الفيديو في السنوات القليلة الماضية ألهمت مطورين إطار DynamiCrafter للاستفادة من القدرات التوليدية القوية لنماذج النص إلى الفيديو لتحريك الصور.
الفكرة الرئيسية وراء إطار DynamiCrafter هي دمج صورة مشروطة في محاولة لتوجيه عملية توليد الفيديو لنموذج النص إلى الفيديو الاختلاطي. ومع ذلك، لا يزال هدف تحريك الصور غير بسيط، حيث يتطلب الحفاظ على التفاصيل و理解 السياق البصري اللازم لإنشاء ديناميكيات. ومع ذلك، نموذج فيديو الاختلاط المتحكم به متعدد الوضعيات مثل VideoComposer حاول تمكين توليد الفيديو بتوجيه بصرية من صورة. ومع ذلك، هذه النهج ليست مناسبة لتحريك الصور لأنها تؤدي إلى تغييرات زمنية مفاجئة أو انسجام بصرية منخفض مع الصورة الإدخالية بسبب آليات حقن الصورة الأقل شمولاً. لمواجهة هذا العائق، يُقترح إطار DynamiCrafter نهج حقن ثنائي التيار، يتألف من توجيه التفاصيل البصرية وتمثيل السياق المنسق مع النص. يسمح نهج الحقن المزدوج لإطار DynamiCrafter بضمان توليد محتوى ديناميكي محفوظ للتفاصيل في طريقة مكملة.

对于 صورة معينة، يُحول إطار DynamiCrafter أولاً الصورة إلى مساحة تمثيل سياق متوافق باستخدام شبكة تعلم سياق خاصة. وبشكل أكثر تحديداً، تتكون مساحة تمثيل السياق من محول استفسار قابل للتعلم لتعزيز التكيف مع نموذج الاختلاط، ومُشفر صورة مسبق التدريب من CLIP لاستخراج سمات الصورة المنسقة مع النص. ثم يستخدم النموذج سمات السياق الغنية باستخدام طبقات الانتباه المتقاطع، ويستخدم دمج بوابة لدمج هذه السمات النصية مع طبقات الانتباه المتقاطع. ومع ذلك، هذا النهج يُبادل تمثيلات السياق المُتعلمة مع تفاصيل بصرية منسقة مع النص، مما يُسهل فهمًا семантиًا للسياق الصوري، مما يسمح بتركيب ديناميكيات معقولة وواضحة. بالإضافة إلى ذلك، في محاولة لتقديم تفاصيل بصرية إضافية، يُدمج الإطار الكامل للصورة مع الضوضاء الأولية في نموذج الاختلاط. وبالتالي، يضمن نهج الحقن المزدوج المُطبق من إطار DynamiCrafter الانسجام البصري والديناميكي المحتمل للصورة الإدخالية.
متحركًا إلى الأمام، أظهرت نماذج الاختلاط أو DM أداءً رائعًا وقدرات توليدية في توليد الصور من النص. لتكرار نجاح نماذج النص إلى الصورة في توليد الفيديو، تم اقتراح نماذج الاختلاط للفيديو أو VDM، والتي تستخدم هيكلًا متجزيءًا في مساحة البكسل لنمذجة فيديوهات منخفضة الدقة. يمكن أن يساعد نقل المعرفة من نماذج النص إلى الصورة إلى نماذج النص إلى الفيديو في تقليل تكاليف التدريب. على الرغم من أن نماذج VDM قادرة على توليد فيديوهات عالية الجودة، إلا أنها تقبل فقط نص الإرشاد كتوجيه семантиكي وحيد، وهو ما قد لا يعكس نوايا المستخدم الحقيقية أو قد يكون غامضًا. ومع ذلك، نادرًا ما تتوافق نتائج معظم نماذج VDM مع الصورة الإدخالية وتعاني من مشكلة التغيير الزمني غير الواقعي. يُبنى نهج DynamiCrafter على نماذج الاختلاط للفيديو مشروطة بالنص، التي تستفيد من السابق الديناميكي الغني لتحريك الصور المفتوحة. يفعل ذلك من خلال دمج تصاميم مخصصة لتحسين الفهم Семантиكي والامتثال للصورة الإدخالية.
DynamiCrafter: Method and Architecture
对于 صورة ثابتة معينة، يُحاول إطار DynamiCrafter تحويل الصورة إلى فيديو قصير. يرث الفيديو المحتوى البصري من الصورة، ويعرض ديناميكيات طبيعية. ومع ذلك، هناك إمكانية أن تظهر الصورة في موقع عشوائي من تسلسل الإطارات الناتج. ظهور الصورة في موقع عشوائي هو تحدي خاص يُلاحظ في مهام توليد الفيديو مشروطة بالصورة مع متطلبات انسجام بصرية عالية. يُغلب إطار DynamiCrafter على هذا التحدي باستخدام السابق التوليدي لنماذج الاختلاط للفيديو المسبقة التدريب.
Image Dynamics from Video Diffusion Prior
عادةً ما تعرض نماذج النص إلى الفيديو الاختلاطية المفتوحة محتوى بصرية ديناميكي مشروط بالوصف النصي. لتحريك صورة ثابتة مع سابق النص إلى الفيديو التوليدي، يجب على الإطارات أولاً حقن المعلومات البصرية في عملية توليد الفيديو بطريقة شاملة. بالإضافة إلى ذلك، من أجل التوليد الديناميكي، يجب على نموذج النص إلى الفيديو هضم الصورة لفهم السياق، كما يجب أن يكون قادرًا على الحفاظ على التفاصيل البصرية في الفيديوهات المُولدة.

Text Aligned Context Representation
لتحريك الفيديو بتوجيه من السياق الصوري، يُحاول إطار DynamiCrafter أولاً تحويل الصورة إلى مساحة تمثيل متوافق، مما يسمح لنموذج الفيديو باستخدام معلومات الصورة بطريقة متوافقة. بعد ذلك، يستخدم إطار DynamiCrafter مُشفر الصورة لاستخراج سمات الصورة من الصورة الإدخالية، حيث يتم توليد التمثيلات النصية باستخدام مُشفر نص مسبق التدريب من CLIP. ومع ذلك، على الرغم من أن الرموز Семантиكية العالمية من مُشفر الصورة من CLIP متوافقة مع عناوين الصور، إلا أنها تمثل المحتوى البصري على مستوى Семантиكي، وبالتالي لا تُحصل على كامل مدى الصورة. يُطبق إطار DynamiCrafter رموز بصرية كاملة من الطبقة الأخيرة من مُشفر CLIP لاستخراج معلومات أكثر كمال، حيث تُظهر هذه الرموز البصرية دقة عالية في مهام توليد الصور المشروطة. بالإضافة إلى ذلك، يستخدم الإطار التمثيلات السياقية والنصية للتفاعل مع سمات وسيطية من U-Net باستخدام طبقات الانتباه المتقاطع المزدوج. تصميم هذا المكون يُسهل على النموذج امتصاص الشروط الصورية بطريقة تعتمد على الطبقات.
Visual Detail Guidance
يستخدم إطار DynamiCrafter تمثيل سياق غني بالمعلومات، مما يسمح لنموذج الاختلاط للفيديو في هيكله بتوليد فيديوهات تشبه الصورة الإدخالية عن كثب. ومع ذلك، كما هو موضح في الصورة التالية، قد تظهر المحتوى المُولد بعض التناقضات بسبب القدرة المحدودة لمُشفر CLIP المسبق التدريب على الحفاظ على المعلومات الإدخالية بشكل كامل، حيث تم تصميمه لتوافق اللغة والسمات البصرية.

为了 تحسين الانسجام البصري، يُقترح إطار DynamiCrafter تقديم نموذج الاختلاط للفيديو بالتفاصيل البصرية الإضافية المُستخرجة من الصورة الإدخالية. لتحقيق ذلك، يُدمج نموذج DynamiCrafter الصورة المشروطة مع الضوضاء الأولية لكل إطار ويعيدها إلى مكون U-Net المُلوث كتوجيه.
Training Paradigm
يُدمج إطار DynamiCrafter الصورة المشروطة من خلال两个 تيارين مكملين يلعبان دورًا هامًا في توجيه التفاصيل والسيطرة على السياق. لتحقيق ذلك، يستخدم نموذج DynamiCrafter عملية تدريب ثلاثية الخطوات
- في الخطوة الأولى، يُدرب نموذج DynamiCrafter شبكة تمثيل السياق.
- في الخطوة الثانية، يُكيف نموذج DynamiCrafter شبكة تمثيل السياق مع نموذج النص إلى الفيديو.
- في الخطوة الثالثة والأخيرة، يُحسن نموذج DynamiCrafter شبكة تمثيل السياق بشكل مشترك مع مكون توجيه التفاصيل البصرية.
لتحويل المعلومات الصورية لتوافق نموذج النص إلى الفيديو، يُقترح إطار DynamiCrafter تطوير شبكة تمثيل سياق، P، مصممة لاستخلاص تفاصيل بصرية منسقة مع النص من الصورة المعطاة. مع الاعتراف بأن شبكة تمثيل السياق تتطلب العديد من خطوات التحسين للوصول إلى الانحدار، يُ涉ي نهج الإطار تطوير شبكة تمثيل السياق أولاً باستخدام نموذج النص إلى الصورة الأبسط. تسمح هذه الاستراتيجية لشبكة تمثيل السياق بالتركيز على التعلم من السياق الصوري قبل دمجها مع نموذج النص إلى الفيديو من خلال التدريب المشترك مع P وطبقات المساحة من نموذج النص إلى الفيديو، بدلاً من الطبقات الزمنية.
为了 ضمان توافق النص إلى الفيديو، يُدمج إطار DynamiCrafter الصورة الإدخالية مع الضوضاء لكل إطار، ثم يُحسن كلاً من شبكة تمثيل السياق وطبقات المساحة من نموذج التمييز البصري. يتم اختيار هذا النهج للحفاظ على صحة رؤى نموذج النص إلى الفيديو الحالية دون التأثير السلبي للدمج الكثيف للصورة، الذي قد يُؤثر على الأداء ويُبعد عن الهدف الرئيسي. بالإضافة إلى ذلك، يستخدم الإطار استراتيجية اختيار إطار فيديو عشوائيًا كشرط صورة لتحقيق هدفين: (i) تجنب تطوير الشبكة لنمط قابل للتنبؤ يرتبط مباشرةً بالصورة المدمجة مع موقع إطار معين، و(ii) تشجيع تمثيل سياق أكثر مرونة من خلال منع تقديم معلومات قاسية جدًا لأي إطار معين.
DynamiCrafter: Experiments and Results
يُدرب إطار DynamiCrafter أولاً شبكة تمثيل السياق وطبقات الانتباه المتقاطع على Stable Diffusion. ثم يُستبدل مكون Stable Diffusion بنموذج VideoCrafter ويُحسن شبكة تمثيل السياق وطبقات المساحة للاستيعاب مع دمج الصورة. عند الاستدلال، يُعتمد إطار DynamiCrafter على عينة DDIM مع توجيه متعدد الحالات خالي من الفئة. بالإضافة إلى ذلك، لتقييم الانسجام الزمني وجودة الفيديوهات المُولدة في كل من المجالات الزمنية والمكانية، يُبلغ الإطار عن مسافة الفيديو الفريتشية (FVD) ومسافة الفيديو النواة (KVD)، ويُقيم الأداء بدون تدريب مسبق على جميع طرق اختبارات MSR-VTT وUCF-101. لتحقيق الانسجام البصري بين النتائج المُولدة والصورة الإدخالية، يُقترح إطار DynamiCrafter مفهوم الانسجام البصري للدخول (PIC) ويعتمد مقياس المسافة البصرية DreamSim كدالة للمسافة.
تُظهر الصورة التالية المقارنة البصرية للمحتوى المتحرك المُولد بأساليب وأسلوب مختلف.

كما يمكن ملاحظة، بين جميع الأساليب المختلفة، يمتثل إطار DynamiCrafter جيدًا للصورة الإدخالية وينتج فيديوهات متسقة زمنيًا. تُظهر الجدول التالي إحصائيات من دراسة مستخدم مع 49 مشاركًا لمعدل التفضيل للانسجام الزمني (T.C) و جودة الحركة (M.C) إلى جانب معدل الاختيار للامتثال البصري للصورة الإدخالية (I.C). كما يمكن ملاحظة، يُ 능 إطار DynamiCrafter لتفوق الأساليج الحالية بفارق كبير.

تُظهر الصورة التالية النتائج التي تم الحصول عليها باستخدام نهج الحقن المزدوج ونهج التدريب.

Final Thoughts
في هذه المقالة، تحدثنا عن إطار DynamiCrafter، وهو محاولة لتحقيق العبور الحالي لنموذج تحريك الصور وتوسيع تطبيقه إلى سيناريوهات عامة تتضمن صورًا مفتوحة. يُحاول إطار DynamiCrafter توليد محتوى ديناميكي لصور مفتوحة، مما يُحولها إلى فيديوهات متحركة. الفكرة الرئيسية وراء إطار DynamiCrafter هي دمج الصورة كتوجيه في عملية التوليد، في محاولة لاستخدام السابق الحركي لنماذج النص إلى الفيديو الاختلاطية.对于 صورة معينة، يُطبق نموذج DynamiCrafter أولاً محول استفسار يُحول الصورة إلى مساحة تمثيل سياق غني متوافق، مما يُسهل على نموذج الفيديو هضم محتوى الصورة بطريقة متوافقة. ومع ذلك، لا يزال نموذج DynamiCrafter يعاني من صعوبة في الحفاظ على بعض التفاصيل البصرية في الفيديوهات الناتجة، وهو مشكلة يُغلب عليها نموذج DynamiCrafter عن طريق تغذية الصورة الكاملة إلى نموذج الاختلاط، وبالتالي إمداد النموذج بمعلومات صورة أكثر دقة.












