زاوية Anderson
تقدم ملحوظ في فيديو الذكاء الاصطناعي الموجه من قبل الإنسان

ملاحظة: يحتوي موقع المشروع على 33 فيديو عالي الدقة يلعب تلقائيًا ، بإجمالي نصف غيغابايت ، مما أdestabilized نظامي عند التحميل. لهذا السبب ، لن أربطه مباشرة. يمكن للقراء العثور على URL في ملخص الورقة أو ملف PDF إذا اختاروا.
يعد واحد من الأهداف الرئيسية في أبحاث合성 الفيديو الحالية توليد أداء فيديو كامل مدفوع بالذكاء الاصطناعي من صورة واحدة. هذا الأسبوع ، نشرت ورقة جديدة من Bytedance Intelligent Creation ما قد يكون النظام الأكثر شمولاً من هذا النوع حتى الآن ، قادرًا على إنتاج رسومات متحركة كاملة وجزئية للجسم ، التي تجمع بين التفاصيل التعبيرية للوجه والدقة في الحركة الكبيرة ، مع تحقيق تحسين في استمرار الهوية – وهو مجال حيث غالبًا ما تفشل حتى الأنظمة التجارية الرائدة.
في المثال أدناه ، نرى أداءً مدفوعًا بممثل (أعلى 왼쪽) ومشتقًا من صورة واحدة (أعلى يمين) ، يوفر عرضًا مرنًا ومتقنًا بشكلremarkable ، دون أي من المشاكل المعتادة حول إنشاء حركات كبيرة أو “التنبؤ” بمناطق محجوبة (أي أجزاء من الملابس وزوايا الوجه التي يجب استنتاجها أو اختراعها لأنها غير مرئية في الصورة المصدر الوحيدة) :
المحتوى الصوتي. انقر للعب. يولَد أداء من مصدرين ، بما في ذلك التزامن الشفوي ، الذي يعتبر عادةً حكرًا على الأنظمة المساعدة المخصصة. هذا هو إصدار مخفض من الموقع المصدر (انظر الملاحظة في بداية المقال – ينطبق على جميع الفيديوهات المضمنة هنا).
على الرغم من أننا يمكن أن نرى بعض التحديات المتبقية المتعلقة باستمرار الهوية مع كل مقطع ، إلا أن هذا هو أول نظام رأيته يمتاز بعموم (وليس دائمًا) الحفاظ على الهوية خلال فترة مستدامة دون استخدام LoRAs :
المحتوى الصوتي. انقر للعب. أمثلة أخرى من مشروع DreamActor.
يستخدم النظام الجديد ، الذي يسمى DreamActor ، نظام تحكم هجين ثلاثي يمنح اهتمامًا مكرسًا للتعبير الوجهي و دوران الرأس وتصميم الهيكل العظمي ، وبالتالي يتيح أداءات مدفوعة بالذكاء الاصطناعي حيث لا يعاني الجانب الوجهي ولا الجسم على حساب الآخر – وهي قدرة نادرة ، وربما غير معروفة ، بين الأنظمة المماثلة.
تحت ، نرى واحدًا من هذه الجوانب ، دوران الرأس ، في العمل. الكرة الملونة في زاوية كل مصغرة نحو اليمين تشير إلى نوع من Gimbal الافتراضي الذي يحدد توجيه الرأس بشكل مستقل عن الحركة الوجهية والتعبير ، الذي يتم تشغيله بواسطة ممثل (أسفل 왼쪽).
انقر للعب. تمثل الكرة متعددة الألوان هنا محور دوران رأس.Avatar ، بينما يتم تشغيل التعبير بواسطة وحدة منفصلة ويتأثر بأداء الممثل (موجود هنا أسفل 왼쪽).
واحدة من الوظائف الأكثر إثارة للاهتمام في المشروع ، والتي لا يتم تضمينها بشكل صحيح في اختبارات الورقة ، هي قدرته على استخلاص حركة التزامن الشفوي مباشرة من الصوت – وهي قدرة تعمل بشكل غير عادي جيد حتى بدون فيديو ممثل مدفوع.
لقد قام الباحثون بالمواجهة مع أفضل المتسابقين في هذا السعي ، بما في ذلك Runway Act-One و LivePortrait ، وreported أن DreamActor كان قادرًا على تحقيق نتائج كمية أفضل.
منذ أن يمكن للباحثين تحديد معاييرهم الخاصة ، فإن النتائج الكمية ليست بالضرورة معيارًا تجريبيًا ؛ ولكن الاختبارات النوعية المصاحبة تبدو أن تدعم استنتاجات المؤلفين.
لسوء الحظ ، هذا النظام لا يُقصد إطلاقه للجمهور ، والقيمة الوحيدة التي يمكن للجماعة استخراجها من العمل هي في إمكانية إعادة إنتاج المناهج المحددة في الورقة (كما تم القيام به بنتائج ملحوظة للنظام المصدق عليه Equally closed-source Google Dreambooth في 2022).
تنص الورقة على * :
‘تحريك الصور البشرية قد يكون له مخاطر اجتماعية ، مثل سوء الاستخدام لإنشاء فيديوهات مزيفة. يمكن استخدام التكنولوجيا المقترحة لإنشاء فيديوهات مزيفة للأشخاص ، ولكن الأدوات الكشفية الحالية [Demamba ، Dormant] يمكنها اكتشاف هذه الاكتشافات.
‘للتقليل من هذه المخاطر ، فإن القواعد الأخلاقية الواضحة وإرشادات الاستخدام المسؤول ضروريان. سوف نقيّد الوصول إلى نماذجنا الأساسية ورموزنا بشكل صارم لمنع سوء الاستخدام.’
من الطبيعي أن تكون الاعتبارات الأخلاقية من هذا النوع مفيدة من الناحية التجارية ، لأنها توفر مبررًا للوصول إلى نموذج API فقط ، والذي يمكن بعد ذلك تحويله إلى عملة. قامت Bytedance بذلك مرة واحدة في 2025 ، من خلال جعل OmniHuman متاحًا للائحة المدفوعة على موقع Dreamina. لذلك ، نظرًا لأن DreamActor قد يكون منتجًا أقوى ، يبدو هذا هو النتيجة المحتملة. ما يبقى لم يُبنى هو مدى khả năng مبدأاته ، في حدود ما يُشرح في الورقة ، لمساعدة مجتمع المصدر المفتوح.
الورقة الجديدة الجديدة بعنوان DreamActor-M1: Holistic ، Expressive and Robust Human Image Animation with Hybrid Guidance ، ويأتي من ستة باحثين من Bytedance.
الطريقة
يهدف نظام DreamActor المقترح في الورقة إلى توليد رسومات متحركة من صورة مرجعية و فيديو مدفوع ، باستخدام إطار Diffusion Transformer (DiT) المعدل للفضاء الlatent (يبدو أنه بعض نكهة Stable Diffusion ، على الرغم من أن الورقة تشير فقط إلى المنشور الرئيسي للعام 2022).
بدلاً من الاعتماد على الوحدات الخارجية لمعالجة التكييف المرجعي ، يدمج المؤلفون ميزات المظهر والحركة مباشرة داخل هيكل DiT ، مما يسمح بالتفاعل عبر الفضاء والزمن من خلال الانتباه :

schema للنظام الجديد: DreamActor يコード pose ، facial motion ، و appearance إلى latents منفصلة ، ويجمعها مع noised video latents التي تم إنتاجها بواسطة 3D VAE. يتم دمج هذه الإشارات داخل Diffusion Transformer باستخدام self- و cross-attention ، مع Pesos المشتركة عبر الفروع. يتم إشراف على النموذج من خلال مقارنة الإخراج الملوث بالمقارنة مع video latents النظيفة. Source: https://arxiv.org/pdf/2504.01724
لتحقيق ذلك ، يستخدم النموذج 3D variational autoencoder مسبقًا لترميز كل من فيديو الإدخال والصورة المرجعية. يتم patchified هذه اللاتنتس ، و concatenation ، و feeding إلى DiT ، الذي يعالجها بشكل مشترك.
هذه الهندسة تختلف عن الممارسة الشائعة لتعليق شبكة ثانوية للإدخال المرجعي ، والتي كانت النهج المستخدم في المشاريع المؤثرة Animate Anyone و Animate Anyone 2.
بدلاً من ذلك ، يبني DreamActor الاندماج في النموذج الرئيسي نفسه ، مما يبسط التصميم ويحسن تدفق المعلومات بين الإشارات المظهرية والحركية. يتم تدريب النموذج باستخدام flow matching بدلاً من الهدف القياسي للانتشار (Flow matching يتدرب على نماذج الانتشار عن طريق التنبؤ المباشر بحقول السرعة بين البيانات والضوضاء ، وتجاوز تقدير النتيجة).
توجيه الحركة الهجين
يجمع أسلوب توجيه الحركة الهجين الذي ي告诉 الرسومات المتحركة رأسية من 3D جسم هياكل و كرات رأس ؛ تمثيلات وجهية ضمنية مستخرجة بواسطة face encoder مسبقًا ؛ و tokens مظهر مرجعية مستخرجة من الصورة المصدر.
تتم دمج هذه العناصر داخل Diffusion Transformer باستخدام آليات انتباه منفصلة ، مما يسمح للنظام بالتنسيق بين الحركة الكلية والتعبير الوجهي والهوية البصرية خلال عملية التوليد.
لأول مرة ، بدلاً من الاعتماد على معالم الوجه ، يستخدم DreamActor تمثيلات وجهية ضمنية لتوجيه توليد التعبير ، مما يبدو أنه يسمح بالسيطرة الدقيقة على الديناميات الوجهية بينما يفصل الهوية و دوران الرأس عن التعبير.
لإنشاء هذه التمثيلات ، يتم أولاً كشف منطقة الوجه وتقليمها في كل إطار من فيديو الإدخال ، وتحجيمها إلى 224×224. يتم معالجة الوجوه المقلمة بواسطة face motion encoder مسبقًا على PD-FGC ، ثم يتم تشغيله بواسطة طبقة MLP.

PD-FGC ، المستخدم في DreamActor ، يولد رأسًا متكلمًا من صورة مرجعية مع سيطرة منفصلة على التزامن الشفوي (من الصوت) ، وتوجيه الرأس ، وحركة العين ، والتعبير (من فيديوهات منفصلة) ، مما يسمح بالتحكم الدقيق والمنفصل لكل منها. Source: https://arxiv.org/pdf/2211.14506
النتيجة هي تسلسل من tokens حركة الوجه ، التي يتم حقنها في Diffusion Transformer من خلال طبقة cross-attention.
نفس الإطار ي hỗ trợ أيضًا نسخة مدفوعة بالصوت ، حيث يتم تدريب محول منفصل ل映ية الإدخال الصوتي مباشرة إلى tokens حركة الوجه. هذا يجعل من الممكن توليد رسومات متحركة وجهية متزامنة – بما في ذلك حركات الشفاه – دون فيديو مدفوع.
المحتوى الصوتي. انقر للعب. التزامن الشفوي المستخرج مباشرة من الصوت ، دون فيديو مدفوع بالممثل. الإدخال الوحيد هو الصورة الثابتة الموجودة في أعلى اليمين.
ثانيًا ، لتحكم توجيه الرأس بشكل مستقل عن التعبير الوجهي ، يقدم النظام تمثيلًا لكرة رأس ثلاثية الأبعاد (انظر الفيديو المضمن في هذه المقالة) ، الذي يفصل الديناميات الوجهية عن الحركة الكلية ، مما يحسن الدقة والمرونة خلال الرسومات المتحركة.
تتم إنشاء كرات الرأس عن طريق استخراج معلمات الوجه ثلاثية الأبعاد – مثل الدوران ووضع الكاميرا – من فيديو الإدخال باستخدام طريقة FaceVerse لتتبع الوجه.

schema لمشروع FaceVerse. Source: https://www.liuyebin.com/faceverse/faceverse.html
تتم استخدام هذه المعلمات لتحويل كرة ملونة تم 투影 على مستوى الصورة ثنائية الأبعاد ، متوافقة مكانيًا مع رأس الإدخال. حجم الكرة يطابق حجم رأس الإدخال ، ولونها يعكس توجيه الرأس. هذا التجريد يقلل من تعقيد تعلم الحركة ثلاثية الأبعاد ، مما يساعد على الحفاظ على أشكال الرأس المزخرفة أو المبالغ فيها في الشخصيات المستخرجة من الرسومات المتحركة.

تجسيد للكرة المرجعية التي تؤثر على توجيه الرأس.
أخيرًا ، لتحكم الحركة الكلية ، يستخدم النظام هياكل جسمية ثلاثية الأبعاد مع تطبيع طول العظام التكيفي. يتم تقدير معلمات الجسم واليد باستخدام 4DHumans و HaMeR ، كلاهما يعملان على نموذج SMPL-X الجسم.

SMPL-X يطبق شبكة parametirc على الجسم البشري الكامل في الصورة ، متوافقة مع وضع المقدر و التعبير ، مما يسمح بتعديل الوضع باستخدام الشبكة كدليل حجمي. Source: https://arxiv.org/pdf/1904.05866
من هذه الإخراج ، يتم اختيار المفاصل الرئيسية ، وتحويلها إلى 2D ، وربطها في خرائط هيكلية خطية. على عكس الطرق مثل Champ ، التي ترسم شبكات جسمية كاملة ، هذا النهج يتجنب فرض مسبق لشكل معين ، وبالاعتماد فقط على الهيكل العظمي ، يتم تشجيع النموذج على استنتاج شكل الجسم والمظهر مباشرة من الصور المرجعية ، مما يقلل من انحيازًا تجاه أشكال جسمية محددة ، ويحسن التعميم عبر مجموعة من الأوضاع والبنيات.
خلال التدريب ، يتم ربط الهياكل العظمية ثلاثية الأبعاد مع كرات الرأس وتمريرها عبر محول وضع ، الذي يخرج ميزات يتم دمجها مع noised video latents لإنشاء tokens الضوضاء المستخدمة بواسطة Diffusion Transformer.
في وقت الاستدلال ، يتم احتساب الفرق الهيكلي بين المواضيع عن طريق تطبيع أطوال العظام.
النموذج المسبق SeedEdit يتحويل كل من الصور المرجعية والمدفوعة إلى تكوين قانوني стандартي. ثم يتم استخدام RTMPose لاستخراج نسب الهيكل ، التي يتم استخدامها لتعديل هيكل الإدخال لتطابق تشريح الموضوع المرجعي.
<img class="size-full wp-image-215168" src="https://www.unite.ai/wp-content/uploads/2025/04/inference-pipeline.jpg" alt="نظرة عامة على خط أنابيب الاستدلال. يمكن أن تتم إنشاء مراجع وهمية لتحسين إشارات المظهر ، بينما يتم استخراج إشارات التحكم الهجينة – الحركة الوجهية الضمنية والوضع الصريح من كرات الرأس والهياكل العظمية – من فيديو الإدخال. ثم يتم تغذيتها إلى نموذج DiT لإنتاج إخراج متحرك ، مع حركة الوجه مفصولة عن وضع الجسم ، مما يسمح باستخدام الصوت كمدفوع. Source: https://arxiv.org/pdf/2504.01724
توجيه المظهر
لتحسين إمكانات المظهر ، خاصة في المناطق المحجوبة أو النادرة ، يضيف النظام مراجع وهمية مستخرجة من فيديو الإدخال.
انقر للعب. النظام يتنبأ بالحاجة إلى تقديم مناطق محجوبة بدقة وثبات. هذا هو أقرب ما رأيته في مشروع من هذا النوع إلى نهج bitmap-texture شبيه بالرسومات الحاسوبية.
تتم اختيار هذه الإطارات الإضافية لتنوع الوضع باستخدام RTMPose ، وتمريرها باستخدام تشابه CLIP-قائم لضمان استمرارها في الاتساق مع هوية الموضوع.
جميع الإطارات المرجعية (الأساسية والوهمية) يتم ترميزها بواسطة نفس المرمز البصري ودمجها من خلال آلية انتباه ذاتي ، مما يسمح للنموذج بالوصول إلى إشارات مظهرية مكملة. هذا الإعداد يحسن تغطية التفاصيل مثل مناظير الوجه أو نصوص الأطراف. يتم دائمًا استخدام المراجع الوهمية خلال التدريب ويمكن استخدامها اختياريًا خلال الاستدلال.
التدريب
تم تدريب DreamActor في ثلاث مراحل لتقديم التعقيد وتحسين الاستقرار.
في المرحلة الأولى ، تم استخدام فقط هياكل جسمية ثلاثية الأبعاد وكرات رأس ، مع استبعاد تمثيلات الوجه. هذا سمح للنموذج الأساسي لجوانب الفيديو ، الذي تم تطبيقه من MMDiT ، بالتعرف على الرسومات المتحركة البشرية دون أن يتعرض لضغط التحكم الدقيق.
في المرحلة الثانية ، تمت إضافة تمثيلات الوجه الضمنية ، مع تجميد جميع المعلمات الأخرى. فقط محول حركة الوجه وطبقات انتباه الوجه تم تدريبهما في هذه النقطة ، مما سمح للنموذج بالتعلم من التفاصيل التعبيرية بشكل منفصل.
في المرحلة النهائية ، تم unfreezing جميع المعلمات لتحقيق التحسين المشترك عبر المظهر والوضع والديناميات الوجهية.
البيانات والاختبارات
للفаза الاختبارية ، يتم 초기ته من نقطة تحقق مسبقًا لنموذج صورة إلى فيديو DiT وتم تدريبه في ثلاث مراحل: 20,000 خطوة لكل من المرحلتين الأوليين و 30,000 خطوة للمرحلة الثالثة.
لتحسين التعميم عبر مدد ودوائر مختلفة ، تم أخذ عينات مقاطع فيديو بشكل عشوائي بأطوال بين 25 و 121 إطار. ثم تم تحجيمها إلى 960x640px ، مع الحفاظ على نسبة الجانب.
تم إجراء التدريب على ثمانية (China-focused) NVIDIA H20 GPUs ، كل منها مع 96GB من VRAM ، باستخدام AdamW مع معدل تعلم (tolerably high) 5e−6.
في وقت الاستدلال ، تحتوي كل مقطع فيديو على 73 إطار. لتحافظ على الاتساق عبر المقاطع ، يتم إعادة استخدام آخر لاتنت من مقطع كأول لاتنت للمقطع التالي ، مما يسياق المهمة كتوليد صورة إلى فيديو متسلسل.
تم تطبيق توجيه تصنيف حر مع وزن 2.5 لكل من الصور المرجعية وإشارات التحكم.
قام المؤلفون بإنشاء مجموعة بيانات تدريبية (لا توجد مصادر مذكورة في الورقة) تتكون من 500 ساعة من الفيديو من مجالات متنوعة ، وتampilkan أمثلة على (من بين أمور أخرى) الرقص والرياضة والسينما والخطابة العامة. تم تصميم مجموعة البيانات لتقديم طيفًا واسعًا من الحركة والتعابير البشرية ، مع توزيع متساوٍ بين اللقطات الكاملة واللقطات النصفية.
لتحسين جودة合成 الوجه ، تم دمج Nersemble في عملية تحضير البيانات.

أمثلة من مجموعة Nersemble ، المستخدمة لتعزيز البيانات ل DreamActor. Source: https://www.youtube.com/watch?v=a-OAWqBzldU
للتقييم ، استخدم الباحثون مجموعة بياناتهم أيضًا كمرجع لتقدير التعميم عبر سيناريوهات مختلفة.
تم قياس أداء النموذج باستخدام معايير قياسية من الأعمال السابقة: Fréchet Inception Distance (FID) ؛ Structural Similarity Index (SSIM) ؛ Learned Perceptual Image Patch Similarity (LPIPS) ؛ و Peak Signal-to-Noise Ratio (PSNR) لجودة الإطار. تم استخدام Fréchet Video Distance (FVD) لتقييم الاتساق الزمني وواقعية الفيديو بشكل عام.
أجرى المؤلفون تجارب على مهام الرسومات المتحركة للجسم والبورتريه ، جميعها تستخدم صورة مرجعية واحدة (مستهدفة).
لرسومات الجسم المتحركة ، تم مقارنة DreamActor-M1 مع Animate Anyone و Champ و MimicMotion و DisPose.

المقارنات الكمية ضد الإطارات المنافسة.
على الرغم من أن PDF يوفر صورة ثابتة كمقارنة بصرية ، قد يبرز أحد مقاطع الفيديو من موقع المشروع الفرق بشكل أوضح :
المحتوى الصوتي. انقر للعب. مقارنة بصرية عبر الإطارات المنافسة. الفيديو المدفوع يظهر في أعلى 왼쪽 ، و似乎 استنتاج المؤلفين بأن DreamActor ينتج أفضل النتائج معقول.
للاختبارات المتحركة للبورتريه ، تم تقييم النموذج ضد LivePortrait و X-Portrait و SkyReels-A1 و Act-One.

المقارنات الكمية لرسومات البورتريه المتحركة.
يلاحظ المؤلفون أن طريقةهم تفوز في الاختبارات الكمية ، ويدعون أنها أيضًا متفوقة نوعيًا.
المحتوى الصوتي. انقر للعب. أمثلة على مقارنات رسومات البورتريه المتحركة.
يمكن القول إن الثالث والأخير من مقاطع الفيديو الموجودة في الفيديو أعلاه يظهر التزامن الشفوي أقل اقناعًا مقارنة ببعض الإطارات المنافسة ، على الرغم من أن الجودة بشكل عام هي عالية بشكلremarkable.
الاستنتاج
في توقع الحاجة إلى نصوص متوقعة ولكن غير موجودة في الصورة المصدر الوحيدة التي تغذي هذه الإعادة ، قام Bytedance بتوجيه واحد من أكبر التحديات التي تواجه توليد الفيديو القائم على الانتشار – نصوص متسقة ومستدامة. الخطوة المنطقية التالية بعد إتقان这种 النهج سيكون إنشاء خريطة مرجعية من مقطع الفيديو الأولي الذي يمكن تطبيقه على توليدات مختلفة ، للحفاظ على المظهر دون LoRAs.
على الرغم من أن هذا النهج سيكون بمثابة مرجع خارجي ، إلا أنه لا يختلف عن تقنية texture-mapping في تقنيات الرسومات الحاسوبية التقليدية ، وواقعية الواقعية والمصداقية أعلى بكثير من تلك الطرق القديمة.
قال ذلك ، الجانب الأكثر إثارة للاهتمام في DreamActor هو نظام التوجيه الهجين الثلاثي ، الذي يربط الفجوة التقليدية بين合成 الوجه والجسم البشري بطريقة عبقرية.
فقط تبقى رؤية ما إذا كان بعض هذه المبادئ الأساسية يمكن استخدامه في عروض أكثر سهولة ; كما هو الحال ، يبدو DreamActor محتومًا لأن يصبح عرضًا آخر ل合성 كخدمة ، مقيدًا بشدة بقيود الاستخدام وعدم جدوى التجربة الشاملة مع هيكل تجاري.
* استبدالي للروابط بدلاً من المؤلفين ؛ المراجع داخل النص
† كما ذكرنا سابقًا ، لا يزال غير واضح ما هو نكهة Stable Diffusion المستخدمة في هذا المشروع.
نشر لأول مرة يوم الجمعة ، 4 أبريل 2025












