الذكاء الاصطناعي
باحثون يحددون سمة متينة من Deepfakes التي يمكن أن تساعد في الكشف طويل الأمد

منذ ظهور أول حلول للكشف عن Deepfakes في عام 2018، سعى قطاع أبحاث الرؤية الحاسوبية والأمان إلى تعريف سمة جوهرية للفيديوهات Deepfakes – إشارات يمكن أن تثبت مقاومتها للتطورات في تقنيات الت合成 الوجه الشائعة (مثل حزم Deepfakes القائمة على التشفير التلقائي مثل DeepFaceLab و FaceSwap، و استخدام الشبكات التوليدية المعارضة لإنشاء أو محاكاة أو تعديل الوجوه البشرية).
كثير من “الدلالات”، مثل نقص الوميض، أصبحت عفا عليها الزمن بسبب التحسينات في Deepfakes، في حين أن استخدام تقنيات الإثبات الرقمي (مثل مبادرة Content Authenticity Initiative بقيادة Adobe) – بما في ذلك نهج Blockchain و الترميز الرقمي للمصادر المحتملة – إما يتطلب تغييرات جذرية و مكلفة للجسم الحالي من الصور المتاحة على الإنترنت، أو يتطلب جهدًا تعاونيًا ملحوظًا بين الدول و الحكومات لإنشاء أنظمة للرقابة و التحقق.
لذلك سيكون من المفيد جدًا إذا تم الكشف عن سمة أساسية و متينة في المحتوى الصوري و الفيديوي الذي يحتوي على وجوه بشرية معدلة أو مخترعة أو مبدلة؛ سمة يمكن استخلاصها مباشرة من الفيديوهات المزيفة، دون التحقق على نطاق واسع، و التشفير، و التحقق من السياق، و تقييم الملاءمة، و إجراءات الكشف المعتمدة على الآثار، أو مناهج أخرى مرهقة للكشف عن Deepfakes.
Deepfakes في الإطار
تعتقد تعاونية بحثية جديدة بين الصين و أستراليا أنها وجدت هذا “الكأس المقدس”، على شكل انقطاع المنتظم.
لقد قام المؤلفون بتصميم طريقة لمقارنة السلامة المكانية و الاستمرارية الزمنية للفيديوهات الحقيقية مقابل تلك التي تحتوي على محتوى Deepfakes، و وجدوا أن أي نوع من تدخل Deepfakes يخل بانتظام الصورة، و لو بشكل غير ملحوظ.
هذا جزئيًا لأن عملية Deepfakes تقسم الفيديو المستهدف إلى إطارات و تطبق تأثير نموذج Deepfakes المُدرَّب في كل إطار (مستبدل). تعمل توزيعات Deepfakes الشائعة بنفس الطريقة التي يعمل بها الرسامون، في هذا الصدد، و تمنح المزيد من الاهتمام لصحة كل إطار أكثر من مساهمة كل إطار في السلامة المكانية و الاستمرارية الزمنية للفيديو.

من الورقة: أ) الفرق بين أنواع البيانات. هنا نرى أن اضطرابات p-fake تتغير جودة الفضاء-الزمنية للصورة بنفس الطريقة التي يفعلها Deepfakes، دون استبدال الهوية. ب) تحليل الضوضاء للبيانات الثلاثة، و التي تظهر كيف يقلد p-fake انقطاع Deepfakes. ج) تمثيل زمني للبيانات الثلاثة، و التي تظهر بيانات حقيقية بأكثر سلامة في التقلبات. د) تمثيل T-SNE للميزات المستخرجة للفيديوهات الحقيقية و المزيفة و p-fake. مصدر: https://arxiv.org/pdf/2207.10402.pdf
هذا ليس الطريقة التي يتعامل بها ترميز الفيديو مع سلسلة من الإطارات عند تسجيل أو معالجة التسجيل الأصلي. من أجل توفير المساحة أو جعل الفيديو مناسبًا للبث، يتم التخلص من كمية هائلة من المعلومات بواسطة ترميز الفيديو. حتى في إعدادات الجودة الأعلى، يخصص الترميز إطارات رئيسية (متغير يمكن تعيينه بواسطة المستخدم) – صور كاملة، غير مضغوطة عمليًا، تحدث في فترة زمنية محددة في الفيديو.
الإطارات بين الإطارات الرئيسية، إلى حد ما، يتم تقديرها كمتغير من الإطارات، و ستستخدم قدر الإمكان من المعلومات من الإطارات الرئيسية المجاورة، بدلاً من كونها إطارات كاملة في حد ذاتها.

على اليسار، يتم تخزين إطار رئيسي كامل، أو ‘i-frame’، في الفيديو المضغوط، على حساب حجم الملف؛ على اليمين، إطار فرعي ‘delta frame’ يعيد استخدام أي جزء قابل للتطبيق من الإطار الرئيسي الأكثر غنى بالبيانات. مصدر: https://blog.video.ibm.com/streaming-video-tips/keyframes-interframe-video-compression/
بهذه الطريقة، الكتلة (التي تحتوي على x عدد من الإطارات، حسب إعدادات الإطارات الرئيسية) يمكن أن يُعتبر أصغر وحدة يتم النظر فيها في فيديو مضغوط نمطي، بدلاً من أي إطار فردي. حتى الإطار الرئيسي نفسه، المعروف باسم إطار i، يشكل جزءًا من تلك الوحدة.
فيما يتعلق بالرسوم المتحركة التقليدية، يؤدي الترميز نوعًا من التوليف، مع عمل الإطارات الرئيسية كأعمدة خيام للإطارات الفرعية المشتقة، المعروفة باسم إطارات دلتا.

من خلال المقارنة، يُكرس الت超يمposition Deepfakes اهتمامًا و موارد هائلة لكل إطار فردي، دون النظر في السياق الأوسع للإطار، و دون مراعاة الطريقة التي يؤثر بها الضغط و الترميز القائم على الكتل على سمات الفيديو “الأصلي”.

نظرة أقرب إلى انقطاع الجودة الزمنية للفيديو الحقيقي (على اليسار)، و نفس الفيديو عندما يتم اختراقه بواسطة Deepfakes (على اليمين).
على الرغم من أن بعض أفضل المخترقين يستخدمون المعالجة بعد الإنتاج على نطاق واسع، في حزم مثل After Effects، و على الرغم من أن توزيع DeepFaceLab لديه بعض القدرة الأصلية على تطبيق إجراءات “التمزيق” مثل التمويه الحركي، إلا أن هذا النوع من الخداع لا يؤثر على عدم تطابق الجودة المكانية و الزمنية بين الفيديوهات الحقيقية و المزيفة.
الورقة الجديدة بعنوان الكشف عن Deepfakes من خلال خلق انقطاع منتظم مكاني-زمني، و تأتي من باحثين في جامعة تسينغهوا، و قسم تكنولوجيا الرؤية الحاسوبية (VIS) في شركة Baidu Inc، و جامعة ملبورن
فيديوهات “مزيفة” مزيفة
قام الباحثون وراء الورقة بدمج وظيفة البحث في وحدة قابلة للتشغيل سُميت Pseudo-fake Generator (مُولِّد p-fake)، و التي تحول الفيديوهات الحقيقية إلى فيديوهات مزيفة، عن طريق إزعاجها بنفس الطريقة التي يفعلها عملية Deepfakes الحقيقية، دون أن تقوم بأي عمليات Deepfakes حقيقية.
تشير الاختبارات إلى أن الوحدة يمكن إضافتها إلى جميع أنظمة الكشف عن Deepfakes الحالية تقريبًا بدون تكلفة موارد، و أن أدائها يُحسن بشكل ملحوظ.
الاكتشاف يمكن أن يساعد في معالجة واحدة من العقبات الأخرى في أبحاث الكشف عن Deepfakes: عدم وجود مجموعات بيانات حقيقية و حديثة. منذ أن تكون عملية إنشاء Deepfakes معقدة و تستغرق وقتًا طويلاً، قام المجتمع بتطوير عدد من مجموعات بيانات Deepfakes خلال السنوات الخمس الماضية، و العديد منها قديم جدًا.
من خلال عزل انقطاع المنتظم كإشارة غير متعلقة ب Deepfakes للفيديوهات المعدلة بعد الحادث، يجعل الأسلوب الجديد من الممكن إنشاء فيديوهات عينة و مجموعات بيانات لا حصر لها تركز على هذا الجانب من Deepfakes.

نظرة عامة على كتلة STE، حيث يتم استخدام التمويه الزمني القنوي كحافز لإنشاء ترميزات محسنة مكانيًا-زمنيًا، مما يؤدي إلى نفس التوقيع الذي سوف ينتجه حتى Deepfakes مقنع جدًا. بهذه الطريقة، يمكن إنشاء فيديوهات “مزيفة” مزيفة تحمل نفس سمات التوقيع مثل أي فيديو معدل أو مزيف على طراز Deepfakes، و التي لا تعتمد على توزيعات معينة، أو على جوانب متقلبة مثل سلوك الميزة أو الآثار الخوارزمية.
الاختبارات
أجرى الباحثون تجارب على ست مجموعات بيانات مشهورة مستخدمة في أبحاث الكشف عن Deepfakes: FaceForensics++ (FF++); WildDeepFake; Deepfake Detection Challenge preview (DFDCP); Celeb-DF; Deepfake Detection (DFD); و Face Shifter (FSh).
ل FF++، قام الباحثون بتدريب نموذجهم على مجموعة البيانات الأصلية و اختبار كل من المجموعات الفرعية الأربعة بشكل منفصل. بدون استخدام أي مواد Deepfakes في التدريب، كان الأسلوب الجديد قادرًا على تجاوز نتائج الدولة الفنية.

الأسلوب الجديد أيضًا احتل المركز الأول عند المقارنة مع مجموعة البيانات المضغوطة FF++ C23، و التي توفر أمثلة على آثارات الضغط التي تُعتبر مقبولة في بيئات عرض Deepfakes في العالم الحقيقي.

يقول المؤلفون:
‘تؤكد الأداء داخل FF++ على جدوى فكرتنا الرئيسية، في حين يبقى التعميم مشكلة كبيرة للأسلوب الحالي للكشف عن Deepfakes، حيث لا يضمن الأداء عند اختبار Deepfakes التي تم إنشاؤها بتقنيات غير مرئية. ‘
‘نظرًا إلى واقع الحرب بين الكاشفين و المخترقين، فإن التعميم هو معيار هام لقياس فعالية طريقة الكشف في العالم الحقيقي.’
على الرغم من أن الباحثين أجرى عددًا من الاختبارات الفرعية (انظر الورقة لمزيد من التفاصيل) حول “المتانة”، و تغيير أنواع الفيديوهات الإدخالية (أي حقيقية، كاذبة، p-fake، إلخ)، فإن أكثر النتائج إثارة للاهتمام هي من اختبار الأداء عبر المجموعات.
لذلك، قام الباحثون بتدريب نموذجهم على الإصدار “العالمي” c23 من FF++، و اختباره ضد أربعة مجموعات بيانات، و الحصول، كما يقول المؤلفون، على أداء أفضل عبر جميعها.

النتائج من تحدي المجموعة العابرة. تشير الورقة إلى أن SBI يستخدم نهجًا مشابهًا لنهج المؤلفين، في حين يزعم الباحثون أن p-fake يُظهر أداءً أفضل لانقطاع المنتظم المكاني-الزمني.
تُشير الورقة إلى:
‘في Deepwild الأكثر تحديًا، يتجاوز أسلوبنا الطريقة SOTA بحوالي 10 نقاط مئوية من حيث AUC%. نعتقد أن هذا يعود إلى التنوع الكبير للفيديوهات المزيفة في Deepwild، مما يجعل الطرق الأخرى تفشل في التعميم جيدًا من Deepfakes المرئية.’
المقاييس المستخدمة في الاختبارات كانت درجة الدقة (ACC)، و المساحة تحت المنحنى للخصائص المتلقية (AUC)، و معدل الخطأ المتساوي (EER).
الهجمات المضادة?
على الرغم من أن وسائل الإعلام تصف التوتر بين مطوري Deepfakes و باحثي الكشف عن Deepfakes بصيغة حرب تكنولوجية، يمكن القول إن الأول يُحاول ببساطة جعل الإخراج أكثر اقناعًا، و أن زيادة صعوبة الكشف عن Deepfakes هو نتيجة عرضية لتلك الجهود.
سوف يحاول المطورون معالجة هذا العيب الجديد المُكشَف، يعتمد على ما إذا كانوا يشعرون بأن انقطاع المنتظم يمكن ملاحظته في فيديو Deepfakes، بعين العين، كعلامة على عدم الصحة، و أن هذا المقياس يستحق معالجته من وجهة نظر نوعية بحتة.
على الرغم من مرور خمس سنوات منذ ظهور أول فيديوهات Deepfakes على الإنترنت، لا تزال تقنية Deepfakes تكنولوجيا ناشئة نسبيًا، و يُعتبر المجتمع أكثر اهتمامًا بالتفاصيل و الدقة أكثر من السياق الصحيح، أو مطابقة توقيعات الفيديوهات المضغوطة، و التي تتطلب نوعًا من “التدهور” للخرج – الشيء الذي يُجهد المجتمع بأكمله حاليًا لمكافحته.
إذا كان الإجماع العام هناك يُظهر أن انقطاع المنتظم هو توقيع ناشئ لا يؤثر على الجودة، قد لا يكون هناك أي جهد لمواجهته – حتى لو كان يمكن “إلغاء”ه بواسطة بعض الإجراءات بعد المعالجة أو في الهياكل، و التي ليست واضحة.
نُشر لأول مرة في 22 يوليو 2022.












