الذكاء الاصطناعي

فجر العواطف المزيفة العميقة

Published September 20, 2021

Updated April 28, 2026

Martin Anderson

قام الباحثون بتطوير تقنية تعلم الآلة الجديدة لتطبيق العواطف الجديدة بشكل تعسفي على الوجوه في الفيديو ، وضبط التقنيات الحالية التي ظهرت مؤخرًا كحلول لتطابق حركات الشفاه مع الدبلجة باللغة الأجنبية.

البحث هو تعاون متساوي بين جامعة نورث إيسترن في بوسطن ومختبر الإعلام في معهد ماساتشوستس للتكنولوجيا ، ومنهج البحث بعنوان الوجوه القابلة للعكس: ترجمة العواطف الفموية من الفيديو إلى الفيديو. على الرغم من أن الباحثين يقرون بأن جودة النتائج الأولية يجب تطويرها من خلال المزيد من البحث ، إلا أنهم يزعمون أن التقنية ، التي تسمى Wav2Lip-Emotion ، هي الأولى من نوعها التي تتعامل مباشرة مع تعديل التعبير الكامل للفيديو من خلال تقنيات الشبكة العصبية.

تم إصدار الشفرة الأساسية على GitHub ، على الرغم من أن نقاط التحقق للنموذج ستتم إضافتها إلى مستودع المصدر المفتوح في وقت لاحق ، وعد المؤلفون بذلك.

في اليسار ، إطار ‘حزين’ من الفيديو المصدر. في اليمين ، إطار ‘سعيد’. في الوسط هناك نهجان جديدان لتحليل العواطف البديلة – الصف العلوي: وجه كامل معتم حيث تم استبدال سطح التعبير بالكامل؛ الصف السفلي: طريقة Wav2Lip التقليدية ، التي تستبدل فقط الجزء السفلي من الوجه. مصدر: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

فيديو واحد كبيانات مصدر

في النظرية ، يمكن تحقيق مثل هذه التعديلات الآن من خلال التدريب الكامل على مستودعات Deepfake التقليدية مثل DeepFaceLab أو FaceSwap. ومع ذلك ، فإن سير العمل القياسي سيشمل استخدام هوية بديلة للهوية ‘الهدف’ ، مثل ممثل يقلد الهوية المستهدفة ، والتي ستتم نقل تعبيراته إلى فرد آخر ، إلى جانب بقية الأداء. بالإضافة إلى ذلك ، عادة ما تكون تقنيات تقليد الصوت Deepfake ضرورية لcompletion الوهم.

علاوة على ذلك ، فإن تغيير تعبير الهدف1>الهدف1 في فيديو مصدر واحد تحت هذه الإطارات الشائعة سيشمل تغيير متجهات محاذاة الوجه بطريقة لا تسهلها هذه الهياكل الحالية.

Wav2Lip-Emotion يحافظ على تناغم الشفاه للحوار الصوتي الأصلي للفيديو أثناء تحويل التعبيرات المرتبطة.

بدلاً من ذلك ، تسعى Wav2Lip-Emotion بشكل فعال إلى ‘نسخ ولصق’ تعبيرات متعلقة بالعواطف من جزء من فيديو واستبدالها بنقاط أخرى ، مع تقشف ذاتي في بيانات المصدر يهدف في النهاية إلى تقديم طريقة أقل جهدًا لتعديل التعبير.

يمكن تطوير نماذج غير متصلة في وقت لاحق تم تدريبها على فيديوهات بديلة للمتحدث ، مما يحذف الحاجة إلى أي فيديو واحد يحتوي على ‘لوحة’ من حالات التعبير التي يمكن من خلالها تعديل الفيديو.

الأغراض المحتملة

يقترح المؤلفون عددًا من التطبيقات لتعديل التعبير ، بما في ذلك مرشح فيديو مباشر لتعويض عن آثار اضطراب ما بعد الصدمة ومتلازمة بال. يلاحظ البحث:

‘الأفراد الذين يعانون من تعبيرات الوجه المحظورة أو غير المحظورة قد يستفيدون من ضبط تعبيراتهم لتناسب ظروفهم الاجتماعية بشكل أفضل. قد يرغب أحدهم في تغيير التعبيرات في مقاطع الفيديو المعروضة لهم. قد يكون المتحدثون يصيحون بعضهم البعض خلال مؤتمر فيديو ، لكنهم يرغبون في جمع المحتوى في تبادلهم دون التعبيرات غير السارة. أو قد يرغب مخرج فيلم في تعزيز أو تقليل تعبيرات الممثل.’

منذ أن تكون التعبير القبلي هو مؤشر رئيسي ومحوري للقصد ، حتى عندما قد يتعارض مع الكلمات المنطوقة ، فإن القدرة على تغيير التعبير تقدم أيضًا ، إلى حد ما ، القدرة على تغيير كيفية استقبال الاتصال استقبال.

العمل السابق

تعود اهتمامات تعديل التعبير بالتعلم الآلي إلى عام 2012 على الأقل ، عندما اقترحت تعاون بين Adobe و Facebook و جامعة Rutgers طريقة لتعديل التعبيرات باستخدام نهج هندسي ثلاثي الأبعاد قائم على التنسور ، الذي يفرض بجدية شبكة CGI على كل إطار من إطار الفيديو المستهدف لتأثير التغيير.

أقدم بحث Adobe / Facebook على تعديل التعبيرات عن طريق فرض تغييرات تقليدية مدفوعة بتقنيات CGI على مقاطع الفيديو. يمكن تعزيز التعبيرات أو كبتها. مصدر: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

على الرغم من وعد النتائج ، كانت التقنية مرهقة والموارد المطلوبة كانت كبيرة. في هذه النقطة ، كانت CGI متقدمة بشكل كبير على نهج التعلم الآلي المباشر لتعديل الفضاء والميزة والبكسل.

أكثر ما يرتبط بالورقة الجديدة هو MEAD ، وهو مجموعة بيانات ونموذج توليد التعبير الذي تم إصداره في عام 2020 ، قادر على توليد مقاطع فيديو ‘تalking-head’ ، على الرغم من عدم وجود مستوى من الذكاء الذي يمكن تحقيقه من خلال تعديل الفيديو المصدر مباشرة.

توليد التعبير مع MEAD 2020 ، وهو تعاون بين SenseTime Research و Carnegie Mellon و ثلاث جامعات صينية. مصدر: https://wywu.github.io/projects/MEAD/MEAD.html

في عام 2018 ظهرت ورقة أخرى بعنوان GANimation: Animation Facial Anatomically-aware من صورة واحدة ، كتعاون أكاديمي أمريكي إسباني ، واستخدمت شبكات التوليد المعادية لتوليد أو تغيير التعبيرات في الصور الثابتة فقط.

تغيير التعبيرات في الصور الثابتة مع GANimation. مصدر: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emotion

بدلاً من ذلك ، يعتمد المشروع الجديد على Wav2Lip ، الذي حصل على اهتمام إعلامي في عام 2020 من خلال تقديم طريقة محتملة لتعديل حركة الشفاه لتكييفها مع مدخلات حديث أو أغنية جديدة لم تكن موجودة في الفيديو الأصلي.

كانت الهيئة الأصلية Wav2Lip مدربة على مجموعة من الجمل المنطوقة من أرشيف BBC. من أجل تعديل Wav2Lip لتكيفه مع مهمة تعديل التعبير ، قام الباحثون ‘بتحسين’ الهيئة على مجموعة بيانات MEAD المذكورة أعلاه.

تتكون MEAD من 40 ساعة من مقاطع الفيديو تampilkan 60 ممثلا يقرأون جملة واحدة أثناء أداء مجموعة متنوعة من التعبيرات القبلي. يأتي الممثلون من 15 دولة مختلفة ويوفرون مجموعة من السمات الدولية التي تهدف إلى مساعدة المشروع (وال مشتق منه) على إنتاج تخليق تعبيرات عملي وجيد التعميم.

في وقت البحث ، كانت MEAD قد أصدرت فقط الجزء الأول من مجموعة البيانات ، والذي يضم 47 فردًا يؤدون تعبيرات مثل ‘غاضب’ و ‘اشمئزاز’ و ‘خوف’ و ‘ازدراء’ و ‘سعيد’ و ‘حزين’ و ‘مفاجأة’. في هذه الرحلة الأولى إلى نهج جديد ، قام الباحثون بتحديد نطاق المشروع إلى وضع أو استبدال العواطف ‘السعيدة’ و ‘الحزينة’ ، لأنها الأكثر تمييزًا.

الطريقة والنتائج

استبدل الهيكل الأصلي Wav2Lip فقط الجزء السفلي من الوجه ، بينما تجربة Wav2Lip-Emotion أيضًا مع قناع استبدال كامل للوجه وتوليد التعبير. لذلك كان من الضروري للباحثين تعديل طرق التقييم المدمجة ، لأنها لم تكن مصممة لأعداد الوجه الكامل.

يحسن المؤلفون من الشفرة الأصلية من خلال الاحتفاظ بالمدخلات الصوتية الأصلية ، مع الحفاظ على συνέغفية حركة الشفاه.

يتضمن عنصر المولد محرك الهوية ومحرك الكلام ومفسر الوجه ، وفقًا للعمل السابق. يتم ترميز عنصر الكلام بشكل إضافي كتحويلات محسنة ثنائية الأبعاد متتالية يتم إضافتها لاحقًا إلى إطاراتها المرتبطة.

إلى جانب عنصر المولد ، يحتوي الهيكل المعدل على ثلاثة مكونات رئيسية للتمييز ، تستهدف جودة تناغم الشفاه ، وغرض التعبير ، وغرض جودة البصرية المدربة بشكل معادي.

من أجل إعادة بناء الوجه الكامل ، لم يكن هناك سابقة في العمل الأصلي Wav2Lip ، وبالتالي تم تدريب النموذج من البداية. بالنسبة للتدريب على الجزء السفلي من الوجه (نصف القناع) ، استمر الباحثون من نقاط التحقق المضمنة في رمز Wav2Lip الأصلي.

إلى جانب التقييم الآلي ، استخدم الباحثون آراء جماهيرية مقدمة من منصة خدمة شبه آلية. قيم العمال بشكل عام الإخراج بشكل عالٍ من حيث التعرف على العواطف المزيفة ، بينما أبلغوا فقط عن تقييمات ‘متوسطة’ لجودة الصورة.

يقترح المؤلفون أنه ، إلى جانب تحسين جودة الفيديو المولدة من خلال المزيد من التحسينات ، يمكن أن تشمل الإصدارات المستقبلية من العمل مجموعة أوسع من العواطف ، ويمكن تطبيق العمل أيضًا في المستقبل على بيانات مصدر ومجموعات بيانات تم تحديدها أو استنتاجها تلقائيًا ، مما يؤدي في النهاية إلى نظام حقيقي يمكن من خلاله ضبط العواطف أو تغييرها وفقًا لفيديو المصدر الأصلي.