رطم طريقة Deepfake الجديدة تحل مشكلة "مضيف الوجه" - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

طريقة Deepfake الجديدة تحل مشكلة "مضيف الوجه"

mm
تحديث on

على الرغم من عدة سنوات من المبالغة الإعلامية حول إمكانية تقويض الصور المزيفة العميقة لإيماننا الراسخ في صحة لقطات الفيديو ، تعتمد جميع الأساليب الشائعة حاليًا على إيجاد "مضيفين للوجه" متشابهين بشكل كبير في الشكل مع الوجه المستهدف.

عندما تتميز اللقطات الأصلية بوجه عريض ، لكن الموضوع المستهدف له وجه ضيق ، كانت النتائج دائمًا إشكالية ، لأن مثل هذا النقل يتضمن قطع جزء من الوجه الأصلي وإعادة بناء الخلفية المكشوفة الآن. الحزم الحالية مثل DeepFaceLab و FaceSwap قادرة على تحقيق نتائج محدودة عندما يتم عكس التكوين (ضيق> عريض) ، ولكن ليس لديها وسيلة لمعالجة هذا السيناريو بشكل مقنع.

الآن ، طور التعاون بين Tencent وجامعة Xiamen الصينية ملف نهج جديد، بعنوان HifiFace ، مصمم لتصحيح هذا النقص.

اثنان من HifiFace deepfakes ، الأول من Anne Hathaway ، حيث يتم الحصول على تشابه جيد على الرغم من شكل وجه المضيف غير المتوافق. يؤدي HifiFace أيضًا أداءً جيدًا على الأهداف بالنظارات ، وهو تقليديًا حجر عثرة في التزييف العميق. المصدر: https://arxiv.org/pdf/2106.09965.pdf

اثنان من التزييف العميق لـ HifiFace، الأول لآن هاثاواي، حيث يتم الحصول على تشابه جيد على الرغم من شكل وجه المضيف غير المتوافق. كما أن أداء HifiFace جيد أيضًا على الأهداف باستخدام النظارات، وهو ما يمثل تقليديًا حجر عثرة في التزييف العميق. المصدر: https://arxiv.org/pdf/2106.09965.pdf

إعادة تشكيل وجه Deepfake

المناهج السابقة ، مثل 2019 موضوع مبادلة الوجه وإعادة تمثيله (FSGAN) ، التي اعتمدت عليها تركيب 3DMM (3D Morphable Models) أو غيرها من المنهجيات القائمة على التعرف على معالم الوجه أو التحول ، حيث تحدد ملامح الوجه المراد "الكتابة فوقها" إلى حد كبير حدود المبادلة:

المصدر: https://github.com/Yinghao-Li/3DMM-fitting

كشف معالم الوجه ثلاثي الأبعاد. المصدر: https://github.com/Yinghao-Li/3DMM-fitting

على الرغم من أن الأساليب المتنافسة قد استندت إلى ميزات مستمدة من شبكات التعرف على الوجوه ، إلا أنها تهدف في المقام الأول إلى إعادة تشكيل النسيج بدلاً من البنية ، وتنتج بالمثل تأثيرًا يشبه القناع في الحالات التي يكون فيها وجه المضيف غير متوافق تمامًا (أي الحدود والشكل من خط الشعر وخط الفك وعظام الخد).

لمعالجة هذه المشكلات ، طور الباحثون الصينيون ، في معمل تحليلات الوسائط والحوسبة في قسم الذكاء الاصطناعي بالجامعة ، شبكة شاملة تتراجع معامِلات الهدف ووجه المصدر باستخدام نموذج إعادة بناء ثلاثي الأبعاد ، والتي يتم إعادة دمجها بعد ذلك كمعلومات للشكل ، ويتم ربطها بمعلومات متجه الهوية من شبكة التعرف على الوجوه.

يتم بعد ذلك إدخال هذه البيانات الهندسية في نموذج وحدة فك التشفير كمعلومات هيكلية ، ومزجها مع تعبير الوجه المستهدف وترتيبها ، والتي يتم الاستفادة منها كمصادر مساعدة لنقل دقيق.

دمج الوجه الدلالي

بالإضافة إلى ذلك ، يشتمل HifiFace على مكون Semantic Facial Fusion (SFF) ، والذي يستخدم ميزة منخفضة المستوى في المشفر للحفاظ على المعلومات المكانية والملمس ، دون التضحية بهوية الصورة المستهدفة. يتم دمج الميزات من جهاز التشفير وفك التشفير في قناع تكيفي مكتسب ، ويتم دمج معلومات الخلفية في الإخراج عن طريق قناع الوجه المكتسب.

HifiFace في العمل. المصدر: https://johann.wang/HifiFace/

HifiFace في العمل. المصدر: https://johann.wang/HifiFace/

بهذه الطريقة ، يبتعد HifiFace عن استخدام حدود وجه المواد الأصلية كحد صارم ، باستخدام تجزئة دلالات الوجه الموسعة ، حيث يمكن للنموذج أن يؤدي اندماجًا تكيفيًا أفضل على حدود حافة الوجه.

طريقتان سابقتان (أعلى وأسفل اليسار) ، وهيكل HifiFace الجديد ، والذي يتكون من مشفر ، وحدة فك ترميز ، مستخرج هوية مدرك للشكل ثلاثي الأبعاد ، ووحدة SFF.

طريقتان سابقتان (أعلى وأسفل اليسار) ، وهيكل HifiFace الجديد ، والذي يتكون من مشفر ، وحدة فك ترميز ، مستخرج هوية مدرك للشكل ثلاثي الأبعاد ، ووحدة SFF.

بالمقارنة مع الطرق السابقة FSGAN ، سيم سواب و FaceShifterيوضح HifiFace إعادة بناء فائقة لشكل الوجه ، لأنه لا يقترب من عناصر "الأشباح" حيث تخلط حدود الوجه بين الهوية> رسم خرائط الهوية ، ولكنها تعيد بنائها نهائيًا.

الاختبار

قام الباحثون بتنفيذ النظام باستخدام VGGFace2 و DeepGlint آسيوي المشاهير مجموعات البيانات. تمت محاذاة الوجوه عبر 5 معالم خارجية وأعيد اقتصاصها إلى 256 × 256 بكسل. تم استخدام شبكة تحسين الصورة أيضًا لإنشاء إصدار 512 × 512 بكسل ، لنموذج إضافي عالي الدقة. تم تدريب النموذج تحت ادم.

على الرغم من أن FaceShifter يحافظ على الهوية جيدًا ، إلا أنه لا يمكنه معالجة مشكلات مثل التعبير واللون والانسداد بشكل فعال مثل HifiFace ، ولديه بنية شبكة أكثر تعقيدًا. تواجه FSGAN مشكلات في نقل الإضاءة من المصدر إلى الهدف.

يستخدم الباحثون FaceForensics ++ للمقارنات الكمية ، أخذ عينات من عشرة إطارات لكل مجموعة من مقاطع الفيديو المحولة عبر الطرق المنافسة ، ووجد أن HifiFace حقق درجة أعلى في استرجاع المعرف. في اختبار مجموعة من العوامل الأخرى ، مثل جودة الصورة ، وجد الباحثون أيضًا أن طريقتهم تفوقت على المنهجيات المنافسة.

يتم استنساخ ملامح وجه بنديكت كومبرباتش بأمانة.

يتم استنساخ ملامح وجه بنديكت كومبرباتش بأمانة.

يمثل العمل خطوة أخرى نحو استخلاص المواد المصدر بحيث يكون مجرد نموذج تقريبي يمكن نقل الهويات الدقيقة إليه. تتميز بعض حزم البرمجيات الحرة والمفتوحة المصدر الحالية ، بما في ذلك DeepFaceLab ، بوظائف ناشئة لاستبدال الرأس بالكامل ، ولكن ، مثل HifiFace ، لا تأخذ في الحسبان الشعر ، وهي أكثر فاعلية في `` بناء '' الوجه أكثر من نحتها بعيدًا لمطابقة مصدر الهدف المطلوب.