الذكاء الاصطناعي

لماذا لا يمكن للديب فايكس نقل دقة العواطف في الوقت الحالي

Published February 3, 2022

Updated April 5, 2026

Martin Anderson

يبدو أن ظهور الحلقة السادسة من سلسلة Star Wars الفرعية The Book of Boba Fett أمس قد قسم الرأي العام للمشجعين. وقد استُقبل بشكل عام بالموافقة، وهناك افتراض واسع النطاق عبر شبكات التواصل الاجتماعي أن إعادة إنشاء مارك هاميل المُصغر في العمر (مقارنة بمظهر الشخصية السابق في الحلقة النهائية من الموسم الثاني من The Mandalorian في عام 2020) هو نتيجة مباشرة لتوظيف شركة Industrial Light and Magic لممارسة ديب فايكس الهواة Shamook (الذي حسّن بشكل كبير من عمله باستخدام برنامج مفتوح المصدر)؛ وأن تمثيلات الشخصية يجب أن تكون مزيجًا من تقنية ديب فايكس، ربما تم تنظيفها باستخدام CGI.

هناك تأكيد محدود على ذلك، على الرغم من أن Shamook لم يقل الكثير للعالم منذ انحدار اتفاقية Industrial Light and Magic غير المعلنة. ومع ذلك، العمل هو تحسين استثنائي على CGI لعام 2020؛ يعرض بعض “اللمعان” المرتبط بطرازات ديب فايكس المشتقة من الأعمال الأرشيفية؛ ويتوافق بشكل عام مع أفضل معيار مرئي حالي لتقنية ديب فايكس.

الرأي الآخر للمشجعين هو أن المحاولة الجديدة لتحويل “يونغ لوك” إلى شاب لديه مجموعة مختلفة من العيوب أكثر من السابقة. ربما الأكثر إloquent هو عدم وجود تعبيرات دقيقة وعواطف ملائمة في التسلسلات الطويلة جدًا التي تampilkan إعادة إنشاء سكاي ووكر الجديدة هي أكثر نموذجية لتقنية ديب فايكس من CGI؛ وقد وصفها The Verge على أنها ‘الوجه البلاستيكي الغامض لوجه مارك هاميل في عام 1983’.

بغض النظر عن التقنيات التي تقف وراء إعادة إنشاء Industrial Light and Magic الجديدة، فإن تحويلات ديب فايكس لها مشكلة أساسية مع دقة العواطف التي يصعب معالجتها إما من خلال التغييرات في الهيكل أو من خلال تحسين المواد التدريبية المصدر، والتي يتم تجنبها عادةً من خلال الاختيارات الحريصة التي يقوم بها منشئو ديب فايكس الفيروسية عند اختيار فيديو الهدف.

قيود محاذاة الوجه

المستودعات مفتوحة المصدر الأكثر شيوعًا لتقنية ديب فايكس هي DeepFaceLab (DFL) و FaceSwap، وكلاهما مشتق من الكود المصدري الغامض والمتعارض في عام 2017، مع وجود ريادة كبيرة لشركة DFL في صناعة الفكس، على الرغم من أداتها المحدودة.

كل من هذه الحزم يتم تكليفه في البداية باستخراج معالم الوجه من الوجوه التي تمكنت من تحديدها من المواد المصدر (أي إطارات الفيديو والصور الثابتة).

Adrian Bulat's Facial Alignment Network (FAN) في العمل، من المستودع الرسمي. المصدر: https://github.com/1adrianb/face-alignment

شبكة محاذاة الوجه (FAN) في العمل، من المستودع الرسمي. المصدر: https://github.com/1adrianb/face-alignment

كلا DFL و FaceSwap يستخدمان مكتبة Facial Alignment Network (FAN). يمكن لـ FAN إنشاء معالم 2D و 3D (انظر الصورة أعلاه) للوجوه المستخرجة. يمكن لمعالم 3D أن تأخذ في الاعتبار اتجاه الوجه المُدرك، حتى الملفات القصوى والزوايا الحادة بشكل معتدل.

ومع ذلك، من الواضح أن هذه هي إرشادات أساسية جدًا لتحريك وقياس البكسل:

من منتدى FaceSwap، مؤشر تقريبي للمعالم المتاحة للخطوط الوجهية. المصدر: https://forum.faceswap.dev/viewtopic.php?f=25&t=27

المعالم الأساسية للوجه مسموح بها: يمكن للعينين أن تتوسع وتنغلق، وكذلك الفك، في حين يمكن تتبع وتكيف التكوينات الأساسية للفم (مثل الابتسامة أو الشك، إلخ.). يمكن للوجه أن يدور في أي اتجاه حتى حوالي 200 درجة من زاوية الكاميرا.

ولكن ما وراء ذلك، هذه هي السياج الخشنة لطريقة سلوك البكسل داخل هذه الحدود، وتُمثل الإرشادات الوحيدة الدقيقة والرياضية للوجه في عملية ديب فايكس بأكملها. عملية التدريب نفسها تقارن ببساطة طريقة توزيع البكسل داخل أو بالقرب من هذه الحدود.

التدريب في DeepFaceLab. المصدر: https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

منذ أن لا توجد حجة لطوبولوجيا أجزاء فرعية من الوجه (الملامح والانحناءات، وتفاصيل الشيخوخة، والثلم، إلخ)، فإنه ليس من الممكن حتى محاولة مطابقة مثل هذه “دقيقة” الميزات الفرعية بين مصدر (الوجه الذي تريد كتابته فوقه) والوجه المستهدف (الوجه الذي تريد لصقه).

الوفاء بالبيانات المحدودة

الحصول على بيانات متطابقة بين هويتين لتحويل ديب فايكس ليس سهلًا. كلما كان الزاوية التي تحتاج إلى مطابقتها غير عادية، زادت الحاجة إلى التنازل على ما إذا كانت المطابقة (النادرة) للزاوية بين الهويات A و B تampilkan بالفعل التعبير نفسه.

قريب، لكن ليس تمامًا مطابق.

في المثال أعلاه، الهويتان متشابهتان إلى حد ما في المزاج، لكن هذا هو أقرب ما يمكن أن تحققه هذه المجموعة البيانية:

الفرق الواضح يبقى: الزاوية والعدسة لا تتطابق تمامًا، ولا الإضاءة؛ لا يغلق موضوع A عينيه تمامًا، على عكس موضوع B؛ جودة الصورة والضغط أسوأ في موضوع A؛ ويبدو أن موضوع B يبدو أكثر سعادة من موضوع A.

ولكن، كما تعلم، هذا كل ما لدينا، لذلك سنضطر إلى التدريب عليه على أي حال.

نظرًا لأن هذا المطابقة A <> B يحتوي على عناصر غير عادية كثيرة، يمكنك أن تتأكد من أن هناك القليل من التطابقات المماثلة في المجموعة. لذلك التدريب سوف تحت-التحسين أو التناسب المفرط.

تحت-التحسين: إذا كان هذا المطابقة هو أقلية حقيقية (أي أن المجموعة البيانية الأصلية كبيرة جدًا، ولا تحتوي على سمات هذه الصورتين)، فإنه لن يحصل على الكثير من وقت التدريب مقارنة بالتطابقات “المشهورة” (أي سهلة ومحايدة). بالتالي هذا الزاوية / التعبير لن يكون ممثلاً جيدًا في ديب فايكس تم إنشاؤه باستخدام نموذج مدرب.

التناسب المفرط: في حالة اليأس من عدم وجود مطابقات بيانات نادرة مثل هذه الأزواج A <> B، يضيف منشئو ديب فايكس أحيانًا تكرار المطابقة عدة مرات في المجموعة البيانية، حتى يحصل على فرصة أفضل لتصبح ميزة في النموذج النهائي. هذا سوف يؤدي إلى التناسب المفرط، حيث ديب فايكس تم إنشاؤه باستخدام النموذج هو محتمل أن يتكرر بدقة المطابقات التي تظهر بين الصورتين، مثل مدى إغلاق العينين.

في الصورة أدناه، نرى فلاديمير بوتين يخضع للتدريب في DeepFaceLab لتحويله إلى كيفين سبيسي. هنا، التدريب متقدم بشكل معقول عند 160,000 تكرار.

المصدر: https://i.imgur.com/OdXHLhU.jpg

المراقب العادي قد يجادل بأن بوتين يبدو قليلًا، حسنًا، مزيدًا من الفضاء من سبيسي في هذه التبادل التجريبية:

المصدر: https://www.noldus.com/facereader/measure-your-emotions

وفقًا لهذا المنجم، الذي يتحليل طوبولوجيا الوجه أكثر تفصيلًا من DFL و FaceSwap، سبيسي أقل غضبًا و اشمئزازًا و ازدراء من ديب فايكس الناتج عن بوتين في هذا المطابقة.

الاختلافات في التعبير تأتي كجزء من حزمة متشابكة، لأن تطبيقات ديب فايكس الشائعة لا تملك القدرة على تسجيل التعبيرات أو الاستدلال على العواطف، إلا بشكل ضمني، كتعيين بكسل إلى بكسل.

ما هو مطلوب بشكل جيد هو إطار عمل ديب فايكس لا يكتفى بالتعرف على التعبيرات والاستدلال على العواطف، بل يمتلك القدرة على تجسيد مفاهيم عالية المستوى مثل الغضب و الجاذبية و الملل و التعب، إلخ، وتصنيف هذه العواطف والتعبيرات المرتبطة بها في كل من هويتي الوجه، بدلاً من فحص وتكرار موضع الفم أو الجفن.

ضد التيار

على الرغم من أن ثورة ديب فايكس وعدت بإمكانية إدراج “نجمي سينما كلاسيكي” في الأفلام والتلفزيون الحديث، لا يمكن للذكاء الاصطناعي أن يعود في الزمن ويصور أعمالهم الكلاسيكية بتعريف وجودة أكثر توافقًا، وهو ما يُعد حاسمًا لهذا الاستخدام.

في حالة مارك هاميل، قد يكون من الصعب الحصول على لقطات كافية له في الفترة الزمنية التي تم تصوير Return of the Jedi، حيث كان هاميل في بداية الثلاثينيات من عمره.

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai