الذكاء الاصطناعي

نظام جديد لتحويل فيديوهات الشخصيات باستخدام استقرار التبديل الزمني

Published September 25, 2024

Updated April 3, 2026

Martin Anderson

A capture from the project page of MIMO (https://menyifang.github.io/projects/MIMO/index.html), depicting a motion-driven wolf creature.

مبادرة جديدة من مجموعة Alibaba توفر واحدة من أفضل الطرق التي رأيتها لإنشاء شخصيات انسانية ثلاثية الأبعاد من نموذج أساسي يستند إلى Stable Diffusion.

يُطلق على النظام اسم MIMO (MIMicking with Object Interactions)، ويستخدم مجموعة من التكنولوجيات والوحدات الشهيرة، بما في ذلك نماذج انسانية ثلاثية الأبعاد قائمة على CGI و AnimateDiff، لتمكين استبدال الشخصيات بثبات زمني في الفيديوهات – أو لتشغيل الشخصية بوسطة وضع هيكلي محدد من قبل المستخدم.

هنا نرى شخصيات محسوبة من مصدر صورة واحد، ومدفوعة بحركة مسبقة:

[انقر على الفيديو أدناه للتشغيل]

من مصادر صور فردية، ثلاث شخصيات متنوعة مدفوعة بتسلسل وضع ثلاثي الأبعاد (الجانب الأيمن) باستخدام نظام MIMO. انظر صفحة المشروع والفيديو المصاحب على يوتيوب (مضمن في نهاية هذا المقال) لمزيد من الأمثلة والدقة الأعلى. مصدر: https://menyifang.github.io/projects/MIMO/index.html

يمكن دمج الشخصيات المولدة، والتي يمكن أيضًا استيرادها من إطارات في الفيديوهات وطرق أخرى متنوعة، في لقطات من العالم الحقيقي.

يقدم نظام MIMO نظامًا جديدًا يولد ثلاثة ترميزات منفصلة، لكل من الشخصية والمشهد والتحديد (أي التخفي، عندما يمر كائن أو شخص ما أمام الشخصية الموصوفة). يتم دمج هذه الترميزات في وقت الاستدلال.

[انقر على الفيديو أدناه للتشغيل]

يمكن لـ MIMO استبدال الشخصيات الأصلية بشخصيات فوتوغرافية أو مصممة بشكل واقعي تتبع الحركة من الفيديو المستهدف. انظر صفحة المشروع والفيديو المصاحب على يوتيوب (مضمن في نهاية هذا المقال) لمزيد من الأمثلة والدقة الأعلى.

تم تدريب النظام على نموذج Stable Diffusion V1.5، باستخدام مجموعة بيانات مخصصة من قبل الباحثين، ومكونة بالتساوي من فيديوهات العالم الحقيقي والمحاكاة.

المشكلة الكبيرة في فيديوهات التبديل هي الثبات الزمني، حيث يظهر محتوى الفيديو إما يتلاشى أو “يتطور” بطرق غير مرغوب فيها لتمثيل الشخصيات بشكل متسق.

بدلاً من ذلك، يستخدم نظام MIMO بشكل فعال صورة واحدة كخريطة لتوجيه متسق، يمكن تحريكها وضبطها بواسطة نموذج CGI SMPL المضمن.

منذ أن يكون المرجع المحوري متسقًا، ونموذج القاعدة الذي تم تدريبه على النظام محسّن بمواد حركية ممثلة كافية، فإن قدرات النظام لخرج متسق زمنيًا أعلى من المعيار العام للأفاتار القائم على التبديل.

[انقر على الفيديو أدناه للتشغيل]

أمثلة إضافية للشخصيات المولدة بواسطة MIMO. انظر صفحة المشروع والفيديو المصاحب على يوتيوب (مضمن في نهاية هذا المقال) لمزيد من الأمثلة والدقة الأعلى.

يصبح من المزيد الشائع استخدام الصور الفردية كمرجع لفعالية تمثيلات العصبية، إما بمفردها أو بطريقة متعددة، معاً مع نصوص التحفيز. على سبيل المثال، نظام LivePortrait الشهير لتحويل الوجه يمكن أيضًا生成 وجوه محتلة بشكل معقول من صور الوجه الفردية.

ي相信 الباحثون أن المبادئ المستخدمة في نظام MIMO يمكن توسيعها إلى أنظمة واطارات مولدة جديدة ومبتكرة.

الورقة الجديدة الجديدة بعنوان MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling، ويأتي من أربعة باحثين في معهد Alibaba Group للكمبيوتر الذكي. العمل له صفحة مشروع محتوية بالفيديوهات و صفحة مشروع و فيديو مصاحب على يوتيوب، وهو أيضًا مضمن في نهاية هذا المقال.

الطريقة

يحقق نظام MIMO فصلًا تلقائيًا و غير مُرقب للمكونات المكانية الثلاث المذكورة، في هيكل نهاية إلى نهاية (أي أن جميع العمليات الفرعية متكاملة في النظام، ويتعين على المستخدم فقط توفير المواد المدخلة).

[الملحق id=”attachment_206431″ align=”alignnone” width=”933″] المخطط المفاهيمي لنظام MIMO. مصدر: https://arxiv.org/pdf/2409.16160 المخطط المفاهيمي لنظام MIMO. مصدر: https://arxiv.org/pdf/2409.16160[/الملحق]

الأجسام في الفيديوهات المصدر تُترجم من 2D إلى 3D، في البداية باستخدام مقدر العمق الأحادي Depth Anything. يتم استخراج العنصر البشري في أي إطار باستخدام طرق مُعدلة من مشروع Tune-A-Video.

تُترجم هذه السمات إلى مكونات فيديوية ثلاثية الأبعاد عبر هيكل Segment Anything 2 من Facebook Research.

يتم الحصول على طبقة المشهد نفسها عن طريق إزالة الأجسام المكتشفة في الطبقات الأخرى، مما يوفر بشكل فعال قناعًا من طابع روتوسكوب تلقائيًا.

للحصول على الحركة، يتم استخراج مجموعة من الرموز اللاتنية للمكون البشري وترسيخها في نموذج SMPL ثلاثي الأبعاد القياسي، الذي توفر حركاته السياق للمحتوى البشري المُحسّن.

يتم الحصول على خريطة سمات 2D للمحتوى البشري بواسطة مُحسّن رسومات قابل للتفريق مُشتق من مبادرة 2020 من NVIDIA. بالجمع بين البيانات الثلاثية الأبعاد المُحسنة من SMPL والبيانات الثنائية الأبعاد المُحسنة بواسطة طريقة NVIDIA، فإن الرموز اللاتنية التي تمثل “الشخص العصبي” لها مرجعية قوية لسياقها النهائي.

في هذه المرحلة، من الضروري إنشاء مرجع شائع مطلوب في الهياكل التي تستخدم SMPL – الوضع القياسي. هذا مشابه بشكل عام ل “‘رجل فيتروفيان’” لليوناردو دا فينشي، حيث يمثل نموذجًا صفرًا يمكن قبول المحتوى والتشويه معه.

تُمثل هذه التشويهات، أو “الانحرافات عن القاعدة”، الحركة البشرية، في حين يحافظ نموذج SMPL على الرموز اللاتنية التي تشكل الهوية البشرية التي تم استخراجها، وتمثل بذلك التمثيل الصحيح للشخصية الناتجة من حيث الوضع والتنسيق.

[الملحق id=”attachment_206432″ align=”alignnone” width=”391″] مثال على وضع قياسي في نموذج SMPL. مصدر: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264 مثال على وضع قياسي في نموذج SMPL. مصدر: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264[/الملحق]

فيما يتعلق بمشكلة الارتباط (مدى انعطاف البيانات المدربة عندما تمتد إلى ما وراء حدودها وارتباطاتها المُدرَبة)، يُصرّ الباحثون على ما يلي:

‘لتحقيق فصل كامل بين المظهر والإطارات الفيديوية المُوضعة، الحل المثالي هو تعلم التمثيل البشري الديناميكي من الفيديو الأحادي العيني وتحويله من مساحة المُوضعة إلى المساحة القياسية. ‘

‘نظرًا للكفاءة، نستخدم طريقة مبسطة تُحول الصورة البشرية المُوضعة مباشرة إلى النتيجة القياسية باستخدام نموذج إعادة وضع بشري مُسبق التدريب. يتم تغذية الصورة القياسية المُحسنة إلى مشفرات الهوية لتحصل على رمز الهوية.

‘هذا التصميم البسيط يُمكّن من فصل كامل لسمات الهوية والحركة. بعد [Animate Anyone،] ، تشمل مشفرات الهوية مشفر صورة CLIP وتركيب شبكة مرجعية لتضمين السمات العالمية والمحلية، [على التوالي].’

للمشهد والتحديد، يتم استخدام مشفر وثابت التنكيب التبايني (VAE – في هذه الحالة المُشتق من نشر 2013) لتحويل عناصر المشهد والتحديد إلى الفضاء اللاتني. يتم التعامل مع التناقضات بواسطة طريقة التصحيح من مشروع ProPainter 2023 ProPainter.

مرةً ما يتم تجميعها وتصحيحها بهذه الطريقة، ستوفر الخلفية وأي كائنات تحديد في الفيديو قناعًا للشخصية البشرية المتحركة.

تُغذى هذه السمات المنفصلة إلى هيكل U-Net يعتمد على هيكل Stable Diffusion V1.5. يتم إضافة رمز المشهد الكامل إلى الضوضاء اللاتنية الأصلية للنظام. يتم دمج المكون البشري بواسطة طبقات الانتباه الذاتي والانتباه المتقاطع، على التوالي.

ثم يتم إخراج النتيجة المُصحّحة عبر مشفر VAE.

البيانات والاختبارات

للتدريب، أنشأ الباحثون مجموعة بيانات فيديوهات بشرية بعنوان HUD-7K، والتي تتكون من 5000 فيديو بشري حقيقي و 2000 تحريك مُحاكى تم إنشاؤها بواسطة نظام En3D. لم تَتَطلب الفيديوهات الحقيقية أي تعليمات، بسبب الطبيعة غير الدلالية لإجراءات استخراج الأشكال في هيكل MIMO.

تم تدريب النموذج على ثمانية من وحدات معالجة الرسومات A100 من NVIDIA (على الرغم من أن الورقة لا تحدد ما إذا كانت هذه النماذج من نوع 40GB أو 80GB VRAM)، لمدة 50 تكرارًا، باستخدام 24 إطارًا فيديويًا وحجم باكت يبلغ 4، حتى التوصل.

تم تدريب وحدة الحركة للنظام على أوزان AnimateDiff. خلال عملية التدريب، تم تجميد أوزان مشفر VAE ومشفر صورة CLIP (على عكس التحسين الدقيق الكامل، الذي سيكون له تأثير أوسع على نموذج أساسي).

على الرغم من أن نظام MIMO لم يُختبر ضد أنظمة مماثلة، قام الباحثون بتحليله على تسلسلات حركة صعبة غير موزعة من AMASS و Mixamo. وشملت هذه الحركات التسلق واللعب والرقص.

كما قاموا بتحليل النظام على فيديوهات بشرية في البرية. في كلتا الحالتين، تقارير الورقة “المتانة العالية” لهذه الحركات ثلاثية الأبعاد غير المُدرَجة، من زوايا مختلفة.

على الرغم من أن الورقة تقدم نتائج صور ثابتة متعددة تُظهر فعالية النظام، فإن الأداء الحقيقي لنظام MIMO يُقيم بشكل أفضل مع نتائج الفيديو الواسعة المقدمة في صفحة المشروع وفي الفيديو على يوتيوب المضمن أدناه (الذي تم استخلاص الفيديوهات منه في بداية هذا المقال).

يُختتم الباحثون:

‘تُظهر النتائج التجريبية أن طريقةنا تمكّن ليس فقط من التحكم المرن في الشخصية والحركة والمشهد، ولكن أيضًا من قابلية التوسع إلى شخصيات عشوائية، والعمومية إلى حركات ثلاثية الأبعاد جديدة، والتطبيق على المشاهد التفاعلية. ‘

‘نحن أيضًا نعتقد أن حلنا، الذي يأخذ في الاعتبار الطبيعة ثلاثية الأبعاد الحقيقية ويكون ترميزًا تلقائيًا للفيديو ثنائي الأبعاد إلى مكونات مكانية هرمية، يمكن أن يلهم الأبحاث المستقبلية لتركيب فيديو ثلاثي الأبعاد.

‘علاوة على ذلك، نعتقد أن إطارنا لا يناسب فقط توليد فيديوهات الشخصيات، ولكن يمكن أيضًا تعديله لتحكم في مهام توليد فيديو أخرى.’

الختام

من المُفرّح رؤية نظام أفاتار يعتمد على Stable Diffusion يبدو قادرًا على استقرار زمني如此 – لا سيما لأن أفاتار Gaussian يبدو أنه يحصل على الأرض العالية في هذا القطاع البحثي المحدد.

الأفاتار المُصمّم المُجسّد في النتائج فعال، وعلى الرغم من أن مستوى الواقعية التي يمكن أن ينتجها MIMO لا يُقارن حاليًا بما هو قادر على إنتاج Gaussian Splatting، فإن المزايا المتنوعة لإنشاء شخصيات بشرية متسقة زمنيًا في شبكة عصبية لاتنية متسقة семантиًا (LDM) كبيرة.

https://www.youtube.com/watch?v=skw9lPKFfcE

* تحويلي لمراجع الباحثين الداخلية إلى روابط، وحيثما لزم الأمر، روابط خارجية توضيحية.

نُشر لأول مرة يوم الأربعاء، 25 سبتمبر 2024

Related Topics:AnimateDiff MIMO Stable Diffusion temporal stability

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai