Connect with us

DynamiCrafter: Animation of Images in Open Domain with Priors of Video Diffusion

الذكاء الاصطناعي

DynamiCrafter: Animation of Images in Open Domain with Priors of Video Diffusion

mm
DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

الرؤية الحاسوبية هي واحدة من أكثر المجالات إثارة وتحقيقًا في مجتمع الذكاء الاصطناعي اليوم، وعلى الرغم من التحسين السريع للنماذج الحاسوبية للرؤية، لا يزال هناك تحدي قديم يزعج المطورين وهو تحريك الصور. حتى اليوم، تعاني إطارات تحريك الصور في تحويل الصور الثابتة إلى مقاطع فيديو متوافقة معها، مع الحفاظ على المظهر الأصلي للصور. تقليديًا، تركز إطارات تحريك الصور بشكل رئيسي على تحريك المشاهد الطبيعية مع حركات محددة بالdomain أو متذبذبة، أو ديناميات عشوائية مثل السوائل والغيوم. على الرغم من أن هذا النهج يعمل إلى حد ما، إلا أنه يقيد قابلية تطبيق إطارات التحريك هذه على محتوى مرئي أكثر عمومية.

علاوة على ذلك، تركز المناهج التقليدية لتحريك الصور بشكل رئيسي على تخليق حركات متذبذبة وعشوائية، أو تخصيصها لفئات كائنات معينة. ومع ذلك، فإن العيب البارز في هذا النهج هو افتراضات قوية تُفرض على هذه الطرق، مما يقيد في النهاية قابلية تطبيقها، خاصة في سيناريوهات عامة مثل تحريك الصور في المجال المفتوح. خلال السنوات القليلة الماضية، أظهرت نماذج نص إلى فيديو نجاحًا ملحوظًا في توليد فيديوهات حية ومتنوعة باستخدام نصوص إرشادية، وهذا هو الأساس الذي يعتمد عليه إطار DynamiCrafter.

يتمثل إطار DynamiCrafter في محاولة لتحقيق الانطلاق من القيود الحالية لنماذج تحريك الصور وتوسيع قابلية تطبيقها إلى سيناريوهات عامة تتضمن صورًا في مجال مفتوح. يهدف إطار DynamiCrafter إلى تخليق محتوى ديناميكي لصور المجال المفتوح، وتحويلها إلى فيديوهات متحركة. الفكرة الرئيسية وراء DynamiCrafter هي دمج الصورة كتوجيه في عملية التوليد، في محاولة للاستفادة من السابقة الحركية للنماذج التقليدية من نص إلى فيديو.

لصورة معينة، يطبق نموذج DynamiCrafter أولاً متحول استعلام يُروج الصورة إلى مساحة تمثيل سياق غني متوافق مع النص، مما يُسهل على نموذج الفيديو هضم محتوى الصورة بطريقة متوافقة. ومع ذلك، لا يزال نموذج DynamiCrafter يعاني من صعوبة في الحفاظ على بعض التفاصيل البصرية في الفيديوهات الناتجة، وهو مشكلة يُغلب عليها من خلال تغذية الصورة الكاملة إلى نموذج الاختلاط عن طريق دمج الصورة مع الضوضاء الأولية، وبالتالي إمداد النموذج بمعلومات صورة أكثر دقة.

تهدف هذه المقالة إلى تغطية إطار DynamiCrafter بعمق، ونستكشف الآلية والمنهجية وهيكل الإطار إلى جانب مقارنته مع إطارات توليد الصور والفيديوهات الحالية.

DynamiCrafter : تحريك الصور في المجال المفتوح

غالبًا ما يقدم تحريك صورة ثابتة تجربة بصرية مشوقة للجمهور، حيث يبدو أن يُحِيي الصورة الثابتة. على مر السنين، استكشفت العديد من الإطارات طرقًا مختلفة لتحريك الصور الثابتة. نفذت الإطارات الأولى لتحريك الصور نهجًا قائمًا على المحاكاة الفيزيائية، الذي ركز على محاكاة حركة كائنات معينة. ومع ذلك، بسبب نمذجة كل فئة كائن بشكل مستقل، لم تكن هذه النهج فعالة ولا قابلة للتعميم.

في السنوات الأخيرة، ركزت معظم إطارات التحريك بشكل رئيسي على تحريك المشاهد الطبيعية مع حركات متذبذبة أو محددة بالdomain. على الرغم من أن النهج المطبق من قبل هذه الإطارات يعمل إلى حد ما، إلا أن النتائج التي تولدها هذه الإطارات ليست مرضية، مع وجود فرصة كبيرة للتحسين. النجاحات المذهلة التي حققها نماذج نص إلى فيديو في السنوات القليلة الماضية، ألهمت مطورين إطار DynamiCrafter للاستفادة من القدرات التوليدية القوية لنماذج نص إلى فيديو لتحريك الصور.

تُعتبر الصورة الشرطية هي الأساس الرئيسي لإطار DynamiCrafter، حيث يُحاول دمج صورة شرطية في محاولة لتحديد عملية توليد الفيديو لنماذج الاختلاط من نص إلى فيديو. ومع ذلك، لا يزال هدف تحريك الصور غير بسيط، حيث يتطلب الحفاظ على التفاصيل وفهم السياقات البصرية الأساسية لإنشاء ديناميات.

DynamiCrafter : الطريقة والهيكل

لصورة معينة، يُحاول إطار DynamiCrafter تحريك الصورة إلى فيديو، أي إنتاج مقطع فيديو قصير. يرث المقطع الفيديو المحتوى البصري من الصورة، ويعرض ديناميات طبيعية. ومع ذلك، هناك إمكانية أن تظهر الصورة في موقع عشوائي من تسلسل الإطارات الناتج.

الديناميات من السابقة الاختلاطية للفيديو

عادةً ما تعرض نماذج الاختلاط من نص إلى فيديو في المجال المفتوح محتوى بصرية ديناميكيًا يتم نمذجته شرطًا على وصف النص. لتحريك صورة ثابتة باستخدام سابقة توليدية من نص إلى فيديو، يجب على الإطارات أولاً إدراج المعلومات البصرية في عملية توليد الفيديو بطريقة شاملة.

تمثيل السياق المتوافق مع النص

لتحريك فيديو بسياق صورة، يُحاول إطار DynamiCrafter إسقاط الصورة في مساحة تمثيل متوافقة، مما يسمح لنموذج الفيديو باستخدام معلومات الصورة بطريقة متوافقة.

توجيه التفاصيل البصرية

يُطبق إطار DynamiCrafter تمثيلًا غنيًا بالسياق يسمح لنموذج الاختلاط للفيديو في هيكله بإنتاج فيديوهات تشبه الصورة المدخلة بشكل وثيق.

DynamiCrafter : التجارب والنتائج

يُدرج إطار DynamiCrafter أولاً شبكة تمثيل السياق وطبقات الاهتمام المتقاطع للصورة على نموذج الاختلاط المستقر. ثم يُستبدل مكون الاختلاط المستقر بVideoCrafter ويُحسن شبكة تمثيل السياق وطبقات المساحة للاستيعاب مع التماسك.

أفكار ختامية

في هذه المقالة، تحدثنا عن DynamiCrafter، وهو محاولة لتحقيق الانطلاق من القيود الحالية لنماذج تحريك الصور وتوسيع قابلية تطبيقها إلى سيناريوهات عامة تتضمن صورًا في مجال مفتوح.

مهندس بالمهنة، كاتب بالقلب. كونال هو كاتب تقني مع حب عميق وفهم لتقنيات الذكاء الاصطناعي والتعلم الآلي، مخصص لتبسيط المفاهيم المعقدة في هذه المجالات من خلال توثيقه الممتع والمعلوماتي.