اتصل بنا للحصول على مزيد من المعلومات

تحديد التزييف العميق للمشاهير من مناطق الوجه الخارجي

الذكاء الاصطناعي

تحديد التزييف العميق للمشاهير من مناطق الوجه الخارجي

mm

اقترحت مبادرة تعاونية جديدة بين مايكروسوفت وجامعة صينية طريقة جديدة لتحديد هويات المشاهير المزيفة، من خلال الاستفادة من أوجه القصور في تقنيات التزييف العميق الحالية للتعرف على الهويات التي تم "إسقاطها" على أشخاص آخرين.

النهج يسمى محول تناسق الهوية (ICT)، ويعمل من خلال مقارنة الأجزاء الخارجية للوجه (الفك، وعظام الخد، وخط الشعر، وغيرها من الخطوط الهامشية الخارجية) بالجزء الداخلي للوجه. يستغل النظام بيانات الصور العامة المتاحة بشكل شائع للأشخاص المشهورين، مما يحد من فعاليته للمشاهير المشهورين، الذين تتوفر صورهم بأعداد كبيرة في مجموعات بيانات الرؤية الحاسوبية المتاحة على نطاق واسع، وعلى الإنترنت.

تغطية تزوير الوجوه المزيفة عبر سبع تقنيات: DeepFake في FF +؛ DeepFake في Google DeepFake Detection ؛ ديب فيس لاب. وجه 2 وجه؛ FSGAN. و DF-VAE. المصدر: https://arxiv.org/pdf/2203.01318.pdf

تغطية تزوير الوجوه المزيفة عبر سبع تقنيات: DeepFake في FF +؛ DeepFake في Google DeepFake Detection ؛ ديب فيس لاب. وجه 2 وجه؛ FSGAN. و DF-VAE. توفر الحزم الشائعة مثل DeepFaceLab و FaceSwap تغطية محدودة بالمثل. المصدر: https://arxiv.org/pdf/2203.01318.pdf

كما توضح الصورة أعلاه ، فإن الأساليب الشائعة حاليًا للتزييف العميق مقيدة تمامًا بالموارد ، وتعتمد على الوجوه المضيفة المناسبة (صورة أو مقطع فيديو للشخص الذي سيتم استبدال هويته بالتزييف العميق) لتقليل دليل استبدال الوجه.

على الرغم من أن الطرق المختلفة قد تشمل الجبهة الكاملة وجزءًا كبيرًا من الذقن وعظام الخد ، إلا أن جميعها مقيدة إلى حد ما داخل إطار وجه المضيف.

خريطة البروز التي تؤكد على الهويات "الداخلية" و "الخارجية" المحسوبة بواسطة تكنولوجيا المعلومات والاتصالات. عندما يتم إنشاء تطابق داخلي للوجه ولكن لا تتوافق الهوية الخارجية ، تقوم تكنولوجيا المعلومات والاتصالات بتقييم الصورة على أنها خاطئة.

خريطة بروز تُبرز الهويات "الداخلية" و"الخارجية" التي يحسبها نظام ICT. عند التأكد من تطابق الوجه الداخلي مع الهوية الخارجية، يُقيّم نظام ICT الصورة على أنها خاطئة.

في الاختبارات ، أثبتت تكنولوجيا المعلومات والاتصالات أنها قادرة على اكتشاف محتوى التزييف العميق في حدود صديقة مزيفة مثل الفيديو منخفض الدقة ، حيث يتدهور محتوى الفيديو بأكمله من خلال أدوات الضغط ، مما يساعد على إخفاء الأدلة المتبقية لعملية التزييف العميق - وهو ظرف يربك العديد من المتنافسين طرق الكشف عن التزييف العميق.

تتفوق تكنولوجيا المعلومات والاتصالات على المنافسين في التعرف على محتوى التزييف العميق. شاهد الفيديو المضمن في نهاية المقالة لمزيد من الأمثلة ودقة أفضل. المصدر: https://www.youtube.com/watch؟

تتفوق تكنولوجيا المعلومات والاتصالات على المنافسين في التعرف على محتوى التزييف العميق. شاهد الفيديو المضمن في نهاية المقالة لمزيد من الأمثلة ودقة أفضل. راجع فيديو المصدر المضمّن في نهاية المقالة للحصول على مزيد من الأمثلة. المصدر: https://www.youtube.com/watch؟

أكثر من ورقة بعنوان حماية المشاهير بمحول تناسق الهوية، ويأتي من تسعة باحثين ينتمون بشكل مختلف إلى جامعة العلوم والتكنولوجيا في الصين و Microsoft Research Asia و Microsoft Cloud + AI.

فجوة المصداقية

هناك سببان على الأقل وراء وجود خوارزميات مبادلة الوجوه الشائعة مثل ديب فيس لاب و تبديل الوجه إهمال المنطقة الخارجية من هويات الوجه المتبادلة.

أولاً، إن تدريب نماذج التزييف العميق يستغرق وقتاً طويلاً ويحتاج إلى موارد حيوية، كما أن اعتماد الوجوه/الأجسام المضيفة "المتوافقة" يحرر دورات وحدة معالجة الرسومات والعصور للتركيز على المناطق الداخلية الثابتة نسبياً في الوجه والتي نستخدمها للتمييز بين الهوية (نظراً لأن المتغيرات مثل تقلب الوزن والشيخوخة هي الأقل احتمالاً لتغيير هذه السمات الأساسية للوجه على المدى القصير).

ثانيًا، تتمتع معظم أساليب التزييف العميق (وهذا هو الحال بالتأكيد مع DeepFaceLab، البرنامج الذي يستخدمه الممارسون الأكثر شهرة أو شهرة) بقدرة محدودة على تكرار هوامش "نهاية الوجه" مثل مناطق الخد والفك، وهي مقيدة بحقيقة أن اتجاهها الأمامي (2017) رمز لم يعالج هذه المشكلة على نطاق واسع.

في الحالات التي لا تتطابق فيها الهويات بشكل جيد، يجب على خوارزمية التزييف العميق "طلاء" المناطق الخلفية حول الوجه، وهو ما تفعله بشكل أخرق في أفضل الأحوال، حتى في أيدي أفضل صانعي التزييف العميق، مثل مفتاح Ctrl Shift Face، والتي تم استخدام مخرجاتها في دراسات الورقة.

أفضل الأفضل: لقطات من فيديو deepfake من ديبفيكر المشهور Ctrl-Shift-Face ، مبادلة جيم كاري على غاري أولدمان. يمكن القول إن هذا العمل يمثل بعضًا من أفضل المخرجات المتاحة حاليًا عبر DeepFaceLab وتقنيات ما بعد المعالجة. ومع ذلك ، لا تزال المقايضات مقتصرة على الاهتمام الضئيل نسبيًا الذي يعطيه DFL للوجه الخارجي ، مما يتطلب جهدًا هائلًا في تنظيم البيانات والتدريب لمعالجة الملامح الخارجية. المصدر: https://www.youtube.com/watch؟

أفضل الأفضل: لقطات من فيديو deepfake من ديبفيكر المشهور Ctrl-Shift-Face ، مبادلة جيم كاري على غاري أولدمان. يمكن القول إن هذا العمل يمثل بعضًا من أفضل المخرجات المتاحة حاليًا عبر DeepFaceLab وتقنيات ما بعد المعالجة. ومع ذلك ، تظل المقايضات مقتصرة على الاهتمام الضئيل نسبيًا الذي يعطيه DFL للوجه الخارجي ، مما يتطلب جهدًا هائلًا في تنظيم البيانات والتدريب لمعالجة الملامح الخارجية. المصدر: https://www.youtube.com/watch؟

إن هذا "الخفة في اليد"، أو تحويل الانتباه، يفلت إلى حد كبير من اهتمام الرأي العام في ظل القلق الحالي بشأن الواقعية المتزايدة لتقنية التزييف العميق، لأن قدراتنا النقدية فيما يتصل بتقنية التزييف العميق لا تزال تتطور بعد مرحلة "الصدمة والرعب".

الهويات المنقسمة

تشير الورقة الجديدة إلى أن معظم الطرق السابقة لاكتشاف التزييف العميق تعتمد على القطع الأثرية التي تخون عملية التبادل ، مثل يطرح رأس غير متناسقة و رمش العين، بين العديد من التقنيات الأخرى. هذا الأسبوع فقط ، ظهرت ورقة جديدة أخرى للكشف عن التزييف العميق المقترح استخدام "توقيع" أنواع النماذج المتنوعة في إطار عمل FaceSwap للمساعدة في تحديد مقاطع الفيديو المزورة التي تم إنشاؤها باستخدامها (انظر الصورة أدناه).

تحديد التزييف العميق من خلال توصيف تواقيع أنواع النماذج المختلفة في إطار عمل FaceSwap. المصدر: https://arxiv.org/pdf/2202.12951.pdf

تحديد التزييف العميق من خلال توصيف تواقيع أنواع النماذج المختلفة في إطار عمل FaceSwap. المصدر: https://arxiv.org/pdf/2202.12951.pdf

وعلى النقيض من ذلك، فإن بنية تكنولوجيا المعلومات والاتصالات تخلق هويتين متداخلتين منفصلتين للشخص، ويجب التحقق من كل منهما قبل استنتاج أن الهوية بأكملها هي لقطات أو صور "حقيقية".

الهندسة المعمارية لمراحل التدريب والاختبار لتكنولوجيا المعلومات والاتصالات.

الهندسة المعمارية لمراحل التدريب والاختبار لتكنولوجيا المعلومات والاتصالات.

يتم تسهيل انقسام الهويات من خلال الرؤية محول، والذي يقوم بإجراء تحديد الوجه قبل تقسيم المناطق التي تم مسحها إلى رموز تنتمي للهويات الداخلية أو الخارجية.

توزيع الرقع بين دالتين متوازيتين للهوية.

توزيع الرقع بين دالتين متوازيتين للهوية.

تقول الورقة:

للأسف، تميل أساليب التحقق من الوجوه الحالية إلى توصيف المنطقة الأكثر تمييزًا، أي الوجه الداخلي للتحقق، وتفشل في التقاط معلومات الهوية في الوجه الخارجي. باستخدام مُحوِّل اتساق الهوية، ندرب نموذجًا على تعلم زوج من متجهات الهوية، أحدهما للوجه الداخلي والآخر للوجه الخارجي، وذلك بتصميم مُحوِّل يسمح بتعلم الهويات الداخلية والخارجية في آنٍ واحد في نموذج موحد بسلاسة.

نظرًا لعدم وجود نموذج قائم لبروتوكول التعريف هذا، ابتكر المؤلفون نوعًا جديدًا من فقدان الاتساق يُمكن استخدامه كمقياس للمصداقية. يُضاف "الرمز الداخلي" و"الرمز الخارجي" الناتجان عن نموذج استخلاص الهوية إلى تضمينات الرقع التقليدية التي تُنتجها أطر تعريف الوجه.

البيانات والتدريب

تم تدريب شبكة تكنولوجيا المعلومات والاتصالات على برنامج أبحاث مايكروسوفت MS-Celeb-1M مجموعة البيانات ، التي تحتوي على 10 ملايين صورة لوجه المشاهير تغطي مليون هوية ، بما في ذلك الممثلون والسياسيون والعديد من الأنواع الأخرى من الشخصيات البارزة. وفقًا لإجراءات الطريقة السابقة أشعة سينية للوجه (مبادرة أخرى من مبادرات مايكروسوفت البحثية)، تقوم تقنية التوليد الوهمي الخاصة بتكنولوجيا المعلومات والاتصالات بتبديل المناطق الداخلية والخارجية للوجوه المأخوذة من مجموعة البيانات هذه من أجل إنشاء مادة لاختبار الخوارزمية.

لإجراء هذه المقايضات الداخلية ، تحدد تكنولوجيا المعلومات والاتصالات صورتين في مجموعة البيانات تعرضان أوضاعًا متشابهة للرأس ومعالم الوجه ، وتقوم بإنشاء منطقة قناع للسمات المركزية (التي يمكن إجراء المبادلة فيها) ، وتقوم بإجراء تبديل التزييف العميق باستخدام تصحيح ألوان RGB.

السبب وراء اقتصار تكنولوجيا المعلومات والاتصالات على تحديد المشاهير هو أنها تعتمد (في أكثر أشكالها فعالية) على مجموعة مرجعية جديدة تتضمن نواقل وجه مشتقة من جسم مركزي (في هذه الحالة MS-Celeb-1M ، على الرغم من إمكانية تمديد المرجع إلى الصور المتاحة على الشبكة ، والتي من المحتمل أن تكون موجودة فقط بجودة وكمية كافية لشخصيات عامة معروفة).

تعمل مقاطع مجموعة المتجهات المشتقة هذه كرموز أصالة للتحقق من مناطق الوجه الداخلية والخارجية جنبًا إلى جنب.

ويشير المؤلفون إلى أن الرموز التي تم الحصول عليها من هذه الأساليب تمثل ميزات "عالية المستوى"، مما يؤدي إلى عملية اكتشاف التزييف العميق والتي من المرجح أن تنجو من البيئات الصعبة مثل الفيديو منخفض الدقة أو المتدهور بطريقة أخرى.

بشكل حاسم ، تكنولوجيا المعلومات والاتصالات لست البحث عن أدلة قائمة على القطع الأثرية ، ولكن بدلاً من ذلك يركز على طرق التحقق من الهوية التي تتوافق بشكل أكبر مع تقنيات التعرف على الوجه - وهو نهج صعب مع البيانات ذات الحجم المنخفض ، كما هو الحال مع التحقيق في حوادث deepfake الانتقام الإباحية ضد أهداف غير مشهورة.

اختبارات

تم تدريب خوارزمية ICT على MS-Celeb-1M، ثم قُسِّمت إلى نسختين من الخوارزمية بمساعدة مرجعية وأخرى "مُعماة"، واختُبرت باستخدام مجموعة من مجموعات البيانات والأساليب المتنافسة. وشملت هذه FaceForensics ++ (FF ++) ، مجموعة بيانات تضم 1000 مقطع فيديو أصلي ومزيف عميق تم إنشاؤه عبر أربع طرق بما في ذلك Face2Face وFaceSwap؛ من Google كشف التزييف العميق (DFD) ، والتي تتألف أيضًا من آلاف مقاطع الفيديو التزييف العميق التي أنشأتها Google ؛ المشاهير DeepFake v1 (CD1)، الذي يضم 408 مقطع فيديو حقيقي و795 مقطع فيديو مُركَّبًا وقليل التشويه؛ Celeb-DeepFake v2، وهو امتداد لـ V1 يحتوي على 590 مقطع فيديو حقيقي و5,639 مقطع فيديو مزيف؛ وتقرير الصين لعام 2020 أعمق الطب الشرعي (أعمق).

هذه هي مجموعات البيانات ؛ كانت طرق الكشف في تحديات الاختبار متعدد المهام, MesoInc4, Capsule، Xception-c0 ، c2 (طريقة مستخدمة في FF ++) ، FWA / DSP-FW من جامعة ألباني ، فرعين, PCL + I2G، ويوفال نيركين طريقة تناقض السياق.

تهدف طرق الكشف المذكورة أعلاه إلى كشف أنواع محددة من التلاعب بالوجه. بالإضافة إلى ذلك، اختبر مؤلفو البحث الجديد عروضًا أكثر عمومية لكشف التزييف العميق. أشعة سينية للوجهجامعة ولاية ميشيغان تمويل التنمية, CNNetectionو باتش الطب الشرعي من MIT CSAIL.

النتائج الأكثر وضوحًا من الاختبار هي أن الطرق المنافسة تنخفض بشكل كبير في الفعالية مع انخفاض دقة الفيديو والجودة. نظرًا لأن بعضًا من أشد الاحتمالات لاختراق التزييف العميق لسلطاتنا التمييزية تكمن (ليس على الأقل في الوقت الحالي) في الفيديو غير عالي الدقة أو غير ذلك من حيث الجودة ، فقد تبدو هذه نتيجة مهمة.

في الرسم البياني للنتائج أعلاه، تشير الخطوط الزرقاء والحمراء إلى مرونة أساليب تكنولوجيا المعلومات والاتصالات في مواجهة تدهور الصورة في جميع المجالات باستثناء عائق الضوضاء الغوسية (وهو أمر غير محتمل في Zoom ولقطات كاميرا الويب)، في حين تنخفض موثوقية الأساليب المتنافسة.

في جدول النتائج أدناه ، نرى فعالية طرق اكتشاف التزييف العميق المتنوعة على مجموعات البيانات غير المرئية. تشير النتائج الرمادية وعلامة النجمة إلى مقارنة من النتائج المنشورة في الأصل في مشاريع مغلقة المصدر ، والتي لا يمكن التحقق منها خارجيًا. عبر جميع الأطر المماثلة تقريبًا ، تتفوق تكنولوجيا المعلومات والاتصالات على أساليب اكتشاف التزييف العميق المنافسة (الموضحة بالخط العريض) على مجموعات البيانات التي تم اختبارها.

كاختبار إضافي ، قام المؤلفون بتشغيل محتوى من قناة YouTube الخاصة بـ deepfaker المشهور Ctrl Shift Face ، ووجدوا أن الأساليب المتنافسة حققت درجات تعريف أدنى بشكل ملحوظ:

تجدر الإشارة هنا إلى أن طرق FF++ (Xception-c23) وFFD، والتي تحقق بعضًا من أعلى الدرجات عبر بعض بيانات الاختبار في الاختبارات العامة للورقة الجديدة، تحقق هنا درجة أقل بكثير من ICT في سياق "العالم الحقيقي" من محتوى deepfake عالي الجهد.

يختتم المؤلفون البحث على أمل أن تقود نتائجه مجتمع اكتشاف التزييف العميق نحو مبادرات مماثلة تركز على ميزات عالية المستوى يمكن تعميمها بسهولة أكبر، وتبتعد عن "الحرب الباردة" لاكتشاف القطع الأثرية، حيث يتم التغلب على أحدث الأساليب بشكل روتيني من خلال التطورات في أطر التزييف العميق، أو من خلال عوامل أخرى تجعل مثل هذه الأساليب أقل مرونة.

تحقق من الفيديو التكميلي المصاحب أدناه للحصول على مزيد من الأمثلة لتكنولوجيا المعلومات والاتصالات التي تحدد محتوى التزييف العميق الذي غالبًا ما يتفوق على الطرق البديلة.

حماية المشاهير باستخدام محول تناسق الهوية- CVPR2022

 

 

نُشر لأول مرة في 4 مارس 2022.

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai