اتصل بنا للحصول على مزيد من المعلومات

طريقة Deepfake الجديدة تحل مشكلة "مضيف الوجه"

الذكاء الاصطناعي

طريقة Deepfake الجديدة تحل مشكلة "مضيف الوجه"

mm

على الرغم من سنوات عديدة من المبالغة الإعلامية حول إمكانية استخدام الصور المزيفة لتقويض إيماننا الراسخ في صحة لقطات الفيديو، فإن جميع الطرق الشائعة حاليًا تعتمد على العثور على "مضيفين للوجه" متشابهين على نطاق واسع في الشكل مع الوجه المستهدف.

عندما تتميز اللقطات الأصلية بوجه عريض ، لكن الموضوع المستهدف له وجه ضيق ، كانت النتائج دائمًا إشكالية ، لأن مثل هذا النقل يتضمن قطع جزء من الوجه الأصلي وإعادة بناء الخلفية المكشوفة الآن. الحزم الحالية مثل DeepFaceLab و FaceSwap قادرة على تحقيق نتائج محدودة عندما يتم عكس التكوين (ضيق> عريض) ، ولكن ليس لديها وسيلة لمعالجة هذا السيناريو بشكل مقنع.

الآن، تم تطوير تعاون بين شركة Tencent وجامعة شيامن الصينية نهج جديد، بعنوان HifiFace ، مصمم لتصحيح هذا النقص.

اثنان من HifiFace deepfakes ، الأول من Anne Hathaway ، حيث يتم الحصول على تشابه جيد على الرغم من شكل وجه المضيف غير المتوافق. يؤدي HifiFace أيضًا أداءً جيدًا على الأهداف بالنظارات ، وهو تقليديًا حجر عثرة في التزييف العميق. المصدر: https://arxiv.org/pdf/2106.09965.pdf

اثنان من التزييف العميق لـ HifiFace، الأول لآن هاثاواي، حيث يتم الحصول على تشابه جيد على الرغم من شكل وجه المضيف غير المتوافق. كما أن أداء HifiFace جيد أيضًا على الأهداف باستخدام النظارات، وهو ما يمثل تقليديًا حجر عثرة في التزييف العميق. المصدر: https://arxiv.org/pdf/2106.09965.pdf

إعادة تشكيل وجه Deepfake

النهج السابقة، مثل نهج عام 2019 موضوع مبادلة الوجه وإعادة تمثيله (FSGAN) ، التي اعتمدت عليها تركيب 3DMM (نماذج ثلاثية الأبعاد قابلة للتحويل) أو منهجيات أخرى تعتمد على التعرف على معالم الوجه أو تحويلها، حيث تحدد الخطوط الوجهية للوجه الذي سيتم "استبداله" حدود التبديل إلى حد كبير:

المصدر: https://github.com/Yinghao-Li/3DMM-fitting

كشف معالم الوجه ثلاثي الأبعاد. المصدر: https://github.com/Yinghao-Li/3DMM-fitting

على الرغم من أن الأساليب المتنافسة استعانت بميزات مستمدة من شبكات التعرف على الوجه، إلا أن هذه الأساليب تهدف في المقام الأول إلى إعادة بناء الملمس بدلاً من البنية، وبالمثل تنتج تأثيرًا "يشبه القناع" في الحالات التي لا يكون فيها وجه المضيف متوافقًا تمامًا (أي حدود وشكل خط الشعر وخط الفك وعظام الخد).

ولمعالجة هذه المشكلات، قام باحثون صينيون، في مختبر تحليلات الوسائط والحوسبة في قسم الذكاء الاصطناعي بالجامعة، بتطوير شبكة شاملة تتراجع فيها معاملات الوجه المستهدف والمصدر باستخدام نموذج إعادة بناء ثلاثي الأبعاد، والذي يتم إعادة دمجه بعد ذلك كمعلومات شكلية، وربطه بمعلومات متجه الهوية من شبكة التعرف على الوجوه.

يتم بعد ذلك إدخال هذه البيانات الهندسية في نموذج التشفير وفك التشفير كمعلومات هيكلية، تمتزج مع تعبير وجه الهدف وموقعه، والتي يتم الاستفادة منها كمصدر مساعد للنقل الدقيق.

دمج الوجه الدلالي

بالإضافة إلى ذلك ، يشتمل HifiFace على مكون Semantic Facial Fusion (SFF) ، والذي يستخدم ميزة منخفضة المستوى في المشفر للحفاظ على المعلومات المكانية والملمس ، دون التضحية بهوية الصورة المستهدفة. يتم دمج الميزات من جهاز التشفير وفك التشفير في قناع تكيفي مكتسب ، ويتم دمج معلومات الخلفية في الإخراج عن طريق قناع الوجه المكتسب.

HifiFace في العمل. المصدر: https://johann.wang/HifiFace/

HifiFace في العمل. المصدر: https://johann.wang/HifiFace/

بهذه الطريقة ، يبتعد HifiFace عن استخدام حدود وجه المواد الأصلية كحد صارم ، باستخدام تجزئة دلالات الوجه الموسعة ، حيث يمكن للنموذج أن يؤدي اندماجًا تكيفيًا أفضل على حدود حافة الوجه.

طريقتان سابقتان (أعلى وأسفل اليسار) ، وهيكل HifiFace الجديد ، والذي يتكون من مشفر ، وحدة فك ترميز ، مستخرج هوية مدرك للشكل ثلاثي الأبعاد ، ووحدة SFF.

طريقتان سابقتان (أعلى وأسفل اليسار) ، وهيكل HifiFace الجديد ، والذي يتكون من مشفر ، وحدة فك ترميز ، مستخرج هوية مدرك للشكل ثلاثي الأبعاد ، ووحدة SFF.

بالمقارنة مع الطرق السابقة FSGAN ، سيم سواب و FaceShifterيُظهر تطبيق HifiFace إعادة بناء متفوقة لشكل الوجه، حيث إنه لا يقترب من عناصر "الشبح" حيث تخلط حدود الوجه بين الهوية>الهوية، ولكنه يعيد بنائها بشكل نهائي.

الاختبار

قام الباحثون بتنفيذ النظام باستخدام VGGFace2 ومجموعات بيانات DeepGlint Asian-Celeb. تمت محاذاة الوجوه عبر 5 معالم خارجية وإعادة اقتصاصها إلى 256 × 256 بكسل. تم أيضًا استخدام شبكة تحسين الصورة لإنشاء إصدار 512 × 512 بكسل لنموذج إضافي عالي الدقة. تم تدريب النموذج تحت ادم.

على الرغم من أن FaceShifter يحافظ على الهوية جيدًا ، إلا أنه لا يمكنه معالجة مشكلات مثل التعبير واللون والانسداد بشكل فعال مثل HifiFace ، ولديه بنية شبكة أكثر تعقيدًا. تواجه FSGAN مشكلات في نقل الإضاءة من المصدر إلى الهدف.

يستخدم الباحثون FaceForensics ++ للمقارنات الكمية ، أخذ عينات من عشرة إطارات لكل مجموعة من مقاطع الفيديو المحولة عبر الطرق المنافسة ، ووجد أن HifiFace حقق درجة أعلى في استرجاع المعرف. في اختبار مجموعة من العوامل الأخرى ، مثل جودة الصورة ، وجد الباحثون أيضًا أن طريقتهم تفوقت على المنهجيات المنافسة.

يتم استنساخ ملامح وجه بنديكت كومبرباتش بأمانة.

تم إعادة إنتاج ملامح وجه بنديكت كومبرباتش بأمانة.

يمثل هذا العمل خطوةً إضافيةً نحو تجريد المادة المصدرية، بحيث تصبح مجرد قالبٍ تقريبيٍّ يُمكن نقل الهويات الدقيقة إليه. بعض حزم البرمجيات الحرة والمفتوحة المصدر الحالية، بما في ذلك DeepFaceLab، تتميز بوظائف ناشئة لاستبدال كامل الرأس، ولكن، مثل HifiFace، لا تأخذ هذه الحزم الشعر في الاعتبار، وهي أكثر فعاليةً في "بناء" الوجه من نحته ليتناسب مع المصدر المستهدف المطلوب.

 

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai