زاوية Anderson
إضافة الحوار إلى الفيديو الحقيقي باستخدام الذكاء الاصطناعي

يمكن لإطار العمل الجديد للذكاء الاصطناعي إعادة كتابة أو إزالة أو إضافة كلمات شخص في الفيديو دون إعادة التصوير ، في نظام منتهي إلى منتهي.
منذ ثلاث سنوات ، لكانت الإنترنت مستاءة من أي واحد من 20-30 إطار عمل للفيديو المتغير بواسطة الذكاء الاصطناعي التي تنشر في المنافذ الأكاديمية أسبوعيا ؛ كما هو الحال الآن ، أصبح هذا النوع الشعبي من البحث أكثر إنتاجية لدرجة أنه يشكل تقريبا فرعا جديدا من “سلوك الذكاء الاصطناعي” ، وأنا أغطي عددا أقل من هذه الإصدارات مما كنت أفعل من قبل ب سنتين أو ثلاث سنوات.
然而 ، أحد الإصدارات الحالية في هذا السياق جذب انتباهي: نظام متكامل يمكن أن يتدخل في مقاطع الفيديو الحقيقية ويضع كلاما جديدا في الفيديو الحالي (بدلا من إنشاء مقطع جدير بالتوليد من وجه أو إطار ، وهو أمر أكثر شيوعا).
في الأمثلة أدناه ، والتي قمت بتحريرها معا من مجموعة من مقاطع الفيديو المتاحة في موقع المشروع ، نرى أولا مقطع المصدر الحقيقي ، ثم ، في الأسفل ، الكلام المضاف بواسطة الذكاء الاصطناعي في منتصف المقطع ، بما في ذلك 합성 الصوت وتناغم الشفاه:
انقر للعب.التحرير المحلي مع الخياطة – واحدة من الطرق التي طُوِّرت ل FacEDiT. يرجى الرجوع إلى موقع المصدر للحصول على دقة أفضل.المصدر – https://facedit.github.io/
هذا النهج هو واحد من ثلاثة طُوِّر لطريقة جديدة ، وهذا الأخير بعنوان “التحرير المحلي مع الخياطة” ، وهو الذي يهم المؤلفين (وكذلك نفسي). اساسا ، يتم تمديد المقطع باستخدام واحدة من الإطارات الوسطى كنقطة بداية للتفسير الجديد بواسطة الذكاء الاصطناعي ، والإطار الحقيقي المتتالي كهدف يجب أن يتوافق معه المقطع المولّد.
يُطارح المؤلفون هذا النهج لتحليل الوجه والصوت كأول طريقة متكاملة منتهي إلى منتهي لتعديل الفيديو بواسطة الذكاء الاصطناعي ، مع ملاحظة إمكانية إطار عمل متكامل مثل هذا للانتاج التلفزيوني والسينمائي:
‘يحتاج صانعو الأفلام والمنتجون الإعلاميون أحيانا إلى تعديل أجزاء معينة من مقاطع الفيديو المسجلة – ربما كان كلمة مخطئة أو تغير السيناريو بعد التصوير. على سبيل المثال ، في المشهد الأيقوني من تيتانيك (1997) حيث تقول روز ، “لن أتركك أبدا ، جاك” ، قد يقرر المخرج لاحقا أن يكون “لن أنساك أبدا ، جاك”.
‘تتطلب التغييرات التقليدية إعادة التصوير لل مشهد بأكمله ، وهو ما يعتبر مكلفا ومستهلكا للوقت. يوفر التحرير التحدثي بوجه mặt بديلا عمليا عن طريق تعديل حركة الوجه تلقائيا لتطابق الكلام المنقح ، مما يلغي الحاجة إلى إعادة التصوير.’
على الرغم من أن التحريرات بواسطة الذكاء الاصطناعي من هذا النوع قد تواجه مقاومة ثقافية أو صناعية ، إلا أنها قد تشكل نوعا جديدا من الوظائف في أنظمة التأثيرات البصرية بقيادة الإنسان وأنظمة الأدوات.
بالإضافة إلى تمديد مقطع الفيديو من خلال حوار جديد بواسطة الذكاء الاصطناعي ، يمكن للنظام الجديد أيضًا تعديل الكلام الحالي:
انقر للعب.مثال على تغيير الحوار الحالي بدلا من إضافة حوار جديد. يرجى الرجوع إلى موقع المصدر للحصول على دقة أفضل.
حالة الفن
هناك حاليا لا توجد أنظمة منتهي إلى منتهي تقدم هذه القدرة على التحليل. على الرغم من أن هناك عددا متزايدا من منصات الذكاء الاصطناعي مثل سلسلة Veo من جوجل ، يمكن أن تولد الصوت ، ومنصات أخرى يمكن أن تولد صوتا مخادعا ، إلا أنه لا يزال يتعين إنشاء трубة معقدة من الهياكل المتنوعة والحيل لتعديل مقاطع الفيديو الحقيقية بالطريقة التي يمكن أن يحققها النظام الجديد – الذي يسمى FacEDiT.
يستخدم النظام معالجات Diffusion (DiT) مع Flow Matching لإنشاء حركات الوجه مشروطة بالحركات المحيطة (السياق) و محتوى الصوت. يستخدم النظام حزم موجودة شائعة لتحليل الوجه ، بما في ذلك LivePortrait (التي تم الاستحواذ عليها مؤخرا بواسطة Kling).
بالإضافة إلى هذه الطريقة ، نظرا لأن نهجهم هو الأول الذي يدمج هذه التحديات في حل واحد ، فقد أنشأ المؤلفون معيارا جديدا يسمى FacEDiTBench ، إلى جانب معايير تقييم جديدة تماما ملائمة لهذه المهمة المحددة.
يعتبر العمل الجديد بعنوان FacEDiT: تحرير وتوليد وجه التحدث الموحد من خلال تعبئة الحركة الوجهية ، ويأتي من أربعة باحثين من جامعة بوهانج للعلوم والتكنولوجيا (POSTECH) ، ومعهد كوريا المتقدم للعلوم والتكنولوجيا (KAIST) ، وجامعة تكساس في أوستن.
الطريقة
يتم تدريب FacEDiT على إعادة بناء حركة الوجه من خلال تعلم كيفية ملء الأجزاء المفقودة من أداء الممثل الأصلي ، بناء على الحركة المحيطة والصوت. كما هو موضح في مخطط أدناه ، يسمح هذا العملية للنموذج بالعمل كملء فجوات أثناء التدريب ، وتوقع حركات وجه تتوافق مع الصوت مع الحفاظ على الاتساق مع الفيديو الأصلي:

نظرة عامة على نظام FacEDiT ، الذي يظهر كيف يتم تعلم حركة الوجه من خلال التعبئة الذاتية أثناء التدريب ، وتوجيهه بواسطة الكلام المحرر في الاستدلال ، وأخيرا إعادة تقديمه إلى الفيديو عن طريق إعادة استخدام مظهر الفيديو الأصلي مع استبدال الحركة المستهدفة فقط. المصدر
في وقت الاستدلال ، يدعم نفس الهيكل مخرجات مختلفة اعتمادا على مقدار الفيديو الذي يتم تسليطه:
يتم تدريب النموذج من خلال Flow Matching ، الذي يعامل تعديلات الفيديو كنوع من المسار بين نسختين من حركة الوجه.
بدلا من تعلم التخمين ما يجب أن يبدو عليه وجه محرر من الصفر ، يتعلم Flow Matching التحرك تدريجيا وبشكل سلس بين محمل مكانة خاطئة وحركة صحيحة.
تم تصميم متجهات الحركة لوصف التعبيرات ووضع الرأس دون تشابك الهوية ، بحيث يمكن أن يتم تعديل التغييرات في الكلام دون التأثير على مظهر الشخص بشكل عام.
تدريب FacEDiT
为了 تدريب FacEDiT ، تم تقسيم كل مقطع فيديو إلى سلسلة من لقطات حركة الوجه ، وتم زوج كل إطار مع جزء من الصوت المقابل. تم إخفاء أجزاء عشوائية من بيانات الحركة ، وتم سؤال النموذج عن ما يجب أن تبدو عليه هذه الحركات المفقودة ، باستخدام الكلام والمovement المحيطة كسياق.
نظرا لأن الأجزاء المخفية ومواقعها تختلف من مثال تدريب إلى آخر ، يتعلم النموذج تدريجيا كيفية التعامل مع تعديلات داخلية صغيرة ، وفتحات أطول ، من أجل توليد تسلسل كامل ، وفقا لمقدار المعلومات التي يتم توفيرها.
يتعلم معالج Diffusion Transformer كيفية استعادة الحركة المخفية من خلال تحسين المدخلات المضطربة مع مرور الوقت.
خلال التدريب ، يتعلم النظام كيفية التنبؤ بحركة الوجه المفقودة من خلال إعادة بناء الأجزاء المخفية بناء على الكلام والحركة غير المخفية.
البيانات والاختبارات
يتكون هيكل النظام من 22 طبقة للمتحول Diffusion ، كل طبقة مع 16 رأس attention وابعاد تغذية أمامية 1024 و 2024px.
تم تدريب النموذج باستخدامAdamW عند معدل تعلم هدف 1e-4 ، لمدة مليون خطوة ، على جهازين A6000 GPU (كل منهما مع 48GB من VRAM) ، عند حجم.batch الكلي من ثمانية.
FacEDiTBench
يحتوي معيار FacEDiTBench على 250 مثال ، كل منها مع مقطع فيديو للكلام الأصلي والمحرر ، والنسخ للكلامين.
تم اختبار نظام FacEDiT على مجموعة من الإطارات التي تكرر بعض الوظائف المستهدفة ، وتم استخدامها كمرجع.
الاختبارات
تم اختبار نظام FacEDiT على مجموعة من الإطارات التي تكرر بعض الوظائف المستهدفة ، وتم استخدامها كمرجع.
تم استخدام مجموعة من المعايير لتقييم جودة التحرير والتوليد ، بما في ذلك دقة التزامن الشفوي وثقة التزامن وتماسك الهوية وواقعية الفيديو.
تم استخدام نظام FacEDiT لإنشاء مقاطع فيديو مع مقاطع محررة ، وتم تقييم جودة المخرجات باستخدام المعايير المذكورة أعلاه.
الاستنتاج
نظام FacEDiT هو نظام متكامل منتهي إلى منتهي يمكنه تعديل مقاطع الفيديو الحقيقية بإضافة أو إزالة أو تعديل الكلام.
تم اختبار النظام على مجموعة من الإطارات التي تكرر بعض الوظائف المستهدفة ، وتم استخدامها كمرجع.
أظهرت النتائج أن نظام FacEDiT يتفوق على الإطارات الأخرى في جودة التحرير والتوليد.
然而 ، قد يتطلب النظام موارد حسابية كبيرة في وقت الاستدلال ، مما قد يجعله صعبا على المستخدمين لتشغيله على أجهزتهم.
مع ذلك ، يعتبر نظام FacEDiT نظاما واعدا يمكنه توفير أداء جيد في تعديل مقاطع الفيديو الحقيقية.
تم نشر هذا المقال لأول مرة يوم الأربعاء ، 17 ديسمبر 2022. تم تحريره في 20:10 بتوقيت شرق أوروبا ، في نفس اليوم ، لإضافة مساحة إضافية في الفقرة الأولى.












