الذكاء الاصطناعي
كشف مكالمات الفيديو المزيفة العميقة من خلال إضاءة الشاشة

يُقدم تعاون جديد بين باحث من وكالة الأمن القومي الأمريكية (NSA) وجامعة كاليفورنيا في بيركلي طريقةً جديدةً لاكتشاف محتوى Deepfake في سياق فيديو مباشر – من خلال ملاحظة تأثير إضاءة الشاشة على مظهر الشخص في الطرف الآخر من مكالمة الفيديو.

Popular DeepFaceLive user Druuzil Tech & Games tries out his own Christian Bale DeepFaceLab model in a live session with his followers, while lighting sources change. Source: https://www.youtube.com/watch?v=XPQLDnogLKA
يعمل النظام من خلال وضع عنصر رسومي على شاشة المستخدم يتغير نطاق ضيق من لونه بشكل أسرع من قدرة نظام Deepfake النموذجي على الاستجابة – حتى إذا كان، مثل تنفيذ بث Deepfake في الوقت الفعلي DeepFaceLive (الموضح أعلاه)، لديه بعض القدرة على الحفاظ على نقل الألوان في الوقت الفعلي، وتحديد الإضاءة المحيطة.
تُظهر الصورة الموحدة للون على شاشة الشخص في الطرف الآخر (أي المخادع المحتمل) تغيرات محدودة في درجات اللون المصممة لعدم تفعيل توازن الأبيض التلقائي للكاميرا وبعض أنظمة تعويض الإضاءة اد هوك، والتي من شأنها تعريض الطريقة للخطر.

From the paper, an illustration of change in lighting conditions from the monitor in front of a user, which effectively operates as a diffuse ‘area light’. Source: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf
تستند النظرية وراء هذا النهج إلى أن أنظمة Deepfake الحية لا تستطيع الاستجابة في الوقت المناسب للتغيرات الموضحة في الرسومات على الشاشة، مما يزيد من “التأخر” في تأثير Deepfake في أجزاء معينة من الطيف، مما يكشف عن وجوده.
为了 قياس光线 المنعكسة بدقة، يحتاج النظام إلى مراعاة تأثير الإضاءة العامة غير المرتبطة بإضاءة الشاشة، ثم خصم هذا التأثير. يمكنه بعد ذلك التمييز بين عيوب في قياس الإضاءة النشطة ودرجة لون الوجه، مما يمثل اختلافًا زمنيًا يتراوح بين 1-4 إطارات:

By limiting the hue variations in the on-screen ‘detector’ graphic, and ensuring that the user’s webcam is not prompted to auto-adjust its capture settings by excessive changes in levels of monitor illumination, the researchers have been able to discern a tell-tale lag in the deepfake system’s adjustment to the lighting changes.
يختتم البحث بالقول:
‘نظرًا للثقة المعقولة التي نضعها في مكالمات الفيديو الحية، وانتشار مكالمات الفيديو في حياتنا الشخصية والمهنية، نقترح أن تقنيات التحقق من صحة الفيديو (والصوت) سترتفع أهميتها.’
الدراسة هي موجودة تحت عنوان كشف الفيديوهات المزيفة في الوقت الفعلي باستخدام الإضاءة النشطة، وهي من تأليف كاندس آر. جيرستنر، عالم رياضيات تطبيقية في وزارة الدفاع الأمريكية، وأستاذ هاني فرید من بيركلي.
تآكل الثقة
لقد تحولت ساحة البحث反-Deepfake بشكل ملحوظ في الأشهر الستة الماضية، من الكشف العام عن Deepfake (أي استهداف مقاطع الفيديو المسجلة والمحتوى الإباحي) إلى الكشف عن “الحياة”، استجابةً لموجة متزايدة من حوادث استخدام Deepfake في مكالمات الفيديو، وتنبيه FBI الأخير بشأن استخدام هذه التقنيات المتزايد في التطبيقات للعمل عن بُعد.
حتى في casos لم تكن مكالمة الفيديو مزيفة، فإن فرص المقلدين الفيديويين المدفوعين بالذكاء الاصطناعي ت开始 توليد شكوكًا.
يذكر البحث:
‘إن إنشاء مزيفات في الوقت الفعلي يطرح تهديدات فريدة بسبب الشعور العام بالثقة المحيطة بمكالمة فيديو أو هاتفية حية، وضغط كشف المزيفات في الوقت الفعلي، أثناء tiến مکالمة.’
لقد حدد المجتمع البحثي منذ فترة طويلة هدفًا لتحديد علامات غير قابلة للخطأ لمحتوى Deepfake لا يمكن تعويضها بسهولة. على الرغم من أن وسائل الإعلام قد وصفت ذلك عادةً بمصطلح “حرب تكنولوجية” بين باحثي الأمن ومطوري Deepfake، إلا أن معظم إبطال النهج الأولى (مثل تحليل وميض العين، تحديد وضع الرأس، وتحليل السلوك) حدثت ببساطة لأن المطورين والمستخدمين كانوا يحاولون جعل مزيفات أكثر واقعية بشكل عام، وليس بالضرورة لمواجهة أحدث “علامة” تم تحديدها بواسطة مجتمع الأمان.
إلقاء الضوء على مكالمات الفيديو المزيفة الحية
يحمل كشف Deepfake في بيئات الفيديو الحية عبءًا من مراعاة الاتصالات الفيديوية الضعيفة، والتي هي شائعة جدًا في سيناريوهات مؤتمرات الفيديو. حتى بدون طبقة Deepfake متداخلة، قد تخضع محتوى الفيديو لتأخيرات على غرار ناسا، وتنسيق أجزاء، وتدهورًا في الصوت والفيديو. يمكن أن تُستخدم هذه لتنسيق حواف مزيفة حية، سواء في الفيديو أو المزيفات الصوتية.
يحسن نظام المؤلفين النتائج والأساليب الموجودة في منشور عام 2020 من مركز الحوسبة الشبكية في جامعة تمبل في فيلادلفيا.

From the 2020 paper, we can observe the change in ‘in-filled’ facial illumination as the content of the user’s screen changes. Source: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf
الفرق في العمل الجديد هو أنه يأخذ في الاعتبار كيف تستجيب الكاميرات للتحولات في الإضاءة. يشرح المؤلفون:
‘نظرًا لأن جميع الكاميرات الحديثة تقوم بتعريض تلقائي، فإن نوع الإضاءة النشطة عالية الشدة [المستخدمة في العمل السابق] من المرجح أن يؤدي إلى تعريض الكاميرا التلقائي، والذي بدوره سيؤدي إلى تعقيد المظهر الوجهي المسجل. لتفادي ذلك، نستخدم إضاءة نشطة تتكون من تغيير في درجات اللون.’
‘في حين أن هذا يمنع تعريض الكاميرا التلقائي، فقد يؤدي إلى تفعيل توازن الأبيض، مما سيؤدي إلى تعقيد المظهر الوجهي المسجل مرة أخرى. لتفادي ذلك، نعمل في نطاق درجات اللون الذي حددناه تجريبيًا لا يؤدي إلى تفعيل التوازن الأبيض.’
للمبادرة هذه، راجعت المؤلفون أيضًا مبادرات مشابهة سابقة، مثل LiveScreen، والتي تفرض نمطًا خفيًا للإضاءة على شاشة المستخدم في محاولة لكشف محتوى Deepfake.
على الرغم من أن هذا النظام حقق نسبة دقة تبلغ 94.8٪، يخلص المؤلفون إلى أن خفاء الأنماط الضوئية سيجعل من الصعب تنفيذ نهجًا خفيًا في بيئات مضاءة جيدًا، وبدلاً من ذلك يُقترح أن نظامهم، أو نظام مشابه، يمكن دمجه بشكل عام وافتراضيًا في برامج مؤتمرات الفيديو الشائعة:
‘يمكن تحقيق تدخلنا المقترح إما عن طريق مشارك في المكالمة الذي يشارك شاشته ويعرض النمط المتغير زمنيًا، أو، في الأفضل، يمكن دمجه مباشرة في عميل مكالمة الفيديو.’
الاختبارات
استخدم المؤلفون مزيجًا من المواضيع الاصطناعية والواقعية لاختبار كاشف Deepfake الذي يعتمد على Dlib.对于 السيناريو الاصطناعي، استخدموا Mitsuba، وهو محرك للأمام والخلف من المعهد الفدرالي السويسري للتكنولوجيا في لوزان.

Samples from the simulated environment tests, featuring varying skin tone, light source size, ambient light intensity, and proximity to camera.
يظهر المشهد رأسًا ثلاثي الأبعاد تم القبض عليه من كاميرا افتراضية ذات مجال رؤية 90 درجة. تتميز الرؤوس بدرجات لون محايدة و انعكاس لامبرتي، وتقع على بعد 2 قدم من الكاميرا الافتراضية.
لاختبار الإطار عبر مجموعة من التكوينات المحتملة، قام الباحثون بتشغيل سلسلة من الاختبارات، متغيرين جوانب متعددة بشكل متتالي. تشمل الجوانب المتغيرة لون البشرة، القرب، وحجم مصدر الإضاءة.
يعلق المؤلفون:
‘في المحاكاة، مع تحقق افتراضاتنا، فإن تقنية مقترحنا قوية للغاية ضد مجموعة واسعة من تكوينات التصوير.’
对于 السيناريو الواقعي، استخدم الباحثون 15 متطوعًا يمتلكون مجموعة من درجات البشرة، في بيئات متنوعة. خضع كل منهم لدورتين من التغييرات المحدودة في درجات اللون، في ظروف حيث كان معدل تحديث الشاشة 30 هرتز متزامنًا مع الكاميرا، مما يعني أن الإضاءة النشطة ستبقى فقط لمدة ثانية في المرة الواحدة. كانت النتائج مشابهة بشكل عام للاختبارات الاصطناعية، على الرغم من أن الارتباطات زادت بشكل ملحوظ مع قيم الإضاءة الأعلى.
اتجاهات مستقبلية
يقر المؤلفون بأن النظام لا يأخذ في الاعتبار الحجب الواقعية الشائعة، مثل الشعر الطويل، أو النظارات، أو الشعر الوجهي. ومع ذلك، يلاحظون أنه يمكن إضافة هذا النوع من الحجب إلى أنظمة لاحقة (من خلال التسمية والتقسيم الدلالي اللاحق)، والتي يمكن تدريبها على أخذ قيم حصريًا من مناطق البشرة المُدركة في الموضوع الهدف.
يُقترح المؤلفون أيضًا أن يمكن استخدام نمط مشابه لاكتشاف مكالمات الصوت المزيفة، وأن الصوت اللازم لاكتشافها يمكن لعبته في تردد خارج نطاق السمع البشري العادي.
ربما يكون الأمر الأكثر إثارة للاهتمام هو أن الباحثين يُقترحون أيضًا أن يمكن تعزيز تقييم المنطقة إلى ما وراء الوجه في إطار التقاط أكثر غنى يمكن أن يحسن بشكل ملحوظ إمكانية اكتشاف Deepfake:
‘من المحتمل أن يوفر تقدير أكثر تطورًا للاضاءة ثلاثية الأبعاد نموذجًا外观يًا أكثر غنى، مما سيجعله أكثر صعوبة على المخادع للتغلب عليه. في حين ركزنا فقط على الوجه، فإن شاشة الكمبيوتر تضيء أيضًا الرقبة والجسم العلوي والخلفية المحيطة، والتي يمكن من خلالها إجراء قياسات مماثلة.’
‘ستجبر هذه القياسات الإضافية المخادع على مراعاة المشهد ثلاثي الأبعاد بالكامل، وليس الوجه فقط.’
* تحويلي لمراجع المؤلفين إلى روابط.
نُشر لأول مرة في 6 يوليو 2022.












