الذكاء الاصطناعي
طريقة Deepfake الجديدة تحل مشكلة "مضيف الوجه"

على الرغم من سنوات عديدة من المبالغة الإعلامية حول إمكانية استخدام الصور المزيفة لتقويض إيماننا الراسخ في صحة لقطات الفيديو، فإن جميع الطرق الشائعة حاليًا تعتمد على العثور على "مضيفين للوجه" متشابهين على نطاق واسع في الشكل مع الوجه المستهدف.
عندما تتميز اللقطات الأصلية بوجه عريض ، لكن الموضوع المستهدف له وجه ضيق ، كانت النتائج دائمًا إشكالية ، لأن مثل هذا النقل يتضمن قطع جزء من الوجه الأصلي وإعادة بناء الخلفية المكشوفة الآن. الحزم الحالية مثل DeepFaceLab و FaceSwap قادرة على تحقيق نتائج محدودة عندما يتم عكس التكوين (ضيق> عريض) ، ولكن ليس لديها وسيلة لمعالجة هذا السيناريو بشكل مقنع.
الآن، تم تطوير تعاون بين شركة Tencent وجامعة شيامن الصينية نهج جديد، بعنوان HifiFace ، مصمم لتصحيح هذا النقص.

اثنان من التزييف العميق لـ HifiFace، الأول لآن هاثاواي، حيث يتم الحصول على تشابه جيد على الرغم من شكل وجه المضيف غير المتوافق. كما أن أداء HifiFace جيد أيضًا على الأهداف باستخدام النظارات، وهو ما يمثل تقليديًا حجر عثرة في التزييف العميق. المصدر: https://arxiv.org/pdf/2106.09965.pdf
إعادة تشكيل وجه Deepfake
النهج السابقة، مثل نهج عام 2019 موضوع مبادلة الوجه وإعادة تمثيله (FSGAN) ، التي اعتمدت عليها تركيب 3DMM (نماذج ثلاثية الأبعاد قابلة للتحويل) أو منهجيات أخرى تعتمد على التعرف على معالم الوجه أو تحويلها، حيث تحدد الخطوط الوجهية للوجه الذي سيتم "استبداله" حدود التبديل إلى حد كبير:

كشف معالم الوجه ثلاثي الأبعاد. المصدر: https://github.com/Yinghao-Li/3DMM-fitting
على الرغم من أن الأساليب المتنافسة استعانت بميزات مستمدة من شبكات التعرف على الوجه، إلا أن هذه الأساليب تهدف في المقام الأول إلى إعادة بناء الملمس بدلاً من البنية، وبالمثل تنتج تأثيرًا "يشبه القناع" في الحالات التي لا يكون فيها وجه المضيف متوافقًا تمامًا (أي حدود وشكل خط الشعر وخط الفك وعظام الخد).
ولمعالجة هذه المشكلات، قام باحثون صينيون، في مختبر تحليلات الوسائط والحوسبة في قسم الذكاء الاصطناعي بالجامعة، بتطوير شبكة شاملة تتراجع فيها معاملات الوجه المستهدف والمصدر باستخدام نموذج إعادة بناء ثلاثي الأبعاد، والذي يتم إعادة دمجه بعد ذلك كمعلومات شكلية، وربطه بمعلومات متجه الهوية من شبكة التعرف على الوجوه.
يتم بعد ذلك إدخال هذه البيانات الهندسية في نموذج التشفير وفك التشفير كمعلومات هيكلية، تمتزج مع تعبير وجه الهدف وموقعه، والتي يتم الاستفادة منها كمصدر مساعد للنقل الدقيق.
دمج الوجه الدلالي
بالإضافة إلى ذلك ، يشتمل HifiFace على مكون Semantic Facial Fusion (SFF) ، والذي يستخدم ميزة منخفضة المستوى في المشفر للحفاظ على المعلومات المكانية والملمس ، دون التضحية بهوية الصورة المستهدفة. يتم دمج الميزات من جهاز التشفير وفك التشفير في قناع تكيفي مكتسب ، ويتم دمج معلومات الخلفية في الإخراج عن طريق قناع الوجه المكتسب.

HifiFace في العمل. المصدر: https://johann.wang/HifiFace/
بهذه الطريقة ، يبتعد HifiFace عن استخدام حدود وجه المواد الأصلية كحد صارم ، باستخدام تجزئة دلالات الوجه الموسعة ، حيث يمكن للنموذج أن يؤدي اندماجًا تكيفيًا أفضل على حدود حافة الوجه.

طريقتان سابقتان (أعلى وأسفل اليسار) ، وهيكل HifiFace الجديد ، والذي يتكون من مشفر ، وحدة فك ترميز ، مستخرج هوية مدرك للشكل ثلاثي الأبعاد ، ووحدة SFF.
بالمقارنة مع الطرق السابقة FSGAN ، سيم سواب و FaceShifterيُظهر تطبيق HifiFace إعادة بناء متفوقة لشكل الوجه، حيث إنه لا يقترب من عناصر "الشبح" حيث تخلط حدود الوجه بين الهوية>الهوية، ولكنه يعيد بنائها بشكل نهائي.
الاختبار
قام الباحثون بتنفيذ النظام باستخدام VGGFace2 ومجموعات بيانات DeepGlint Asian-Celeb. تمت محاذاة الوجوه عبر 5 معالم خارجية وإعادة اقتصاصها إلى 256 × 256 بكسل. تم أيضًا استخدام شبكة تحسين الصورة لإنشاء إصدار 512 × 512 بكسل لنموذج إضافي عالي الدقة. تم تدريب النموذج تحت ادم.
على الرغم من أن FaceShifter يحافظ على الهوية جيدًا ، إلا أنه لا يمكنه معالجة مشكلات مثل التعبير واللون والانسداد بشكل فعال مثل HifiFace ، ولديه بنية شبكة أكثر تعقيدًا. تواجه FSGAN مشكلات في نقل الإضاءة من المصدر إلى الهدف.
يستخدم الباحثون FaceForensics ++ للمقارنات الكمية ، أخذ عينات من عشرة إطارات لكل مجموعة من مقاطع الفيديو المحولة عبر الطرق المنافسة ، ووجد أن HifiFace حقق درجة أعلى في استرجاع المعرف. في اختبار مجموعة من العوامل الأخرى ، مثل جودة الصورة ، وجد الباحثون أيضًا أن طريقتهم تفوقت على المنهجيات المنافسة.
يمثل هذا العمل خطوةً إضافيةً نحو تجريد المادة المصدرية، بحيث تصبح مجرد قالبٍ تقريبيٍّ يُمكن نقل الهويات الدقيقة إليه. بعض حزم البرمجيات الحرة والمفتوحة المصدر الحالية، بما في ذلك DeepFaceLab، تتميز بوظائف ناشئة لاستبدال كامل الرأس، ولكن، مثل HifiFace، لا تأخذ هذه الحزم الشعر في الاعتبار، وهي أكثر فعاليةً في "بناء" الوجه من نحته ليتناسب مع المصدر المستهدف المطلوب.















