الذكاء الاصطناعي
اكتشاف التزييف العميق بناءً على سمات القياسات الحيوية البشرية الأصلية

تقترح ورقة بحثية جديدة من باحثين في إيطاليا وألمانيا طريقة لاكتشاف مقاطع الفيديو المزيفة العميقة بناءً على القياسات الحيوية للوجه والسلوك الصوتي ، بدلاً من القطع الأثرية التي تم إنشاؤها بواسطة أنظمة تركيب الوجه أو حلول العلامات المائية باهظة الثمن أو غيرها من الأساليب غير العملية.
يتطلب الإطار إدخال 10 أو أكثر من مقاطع الفيديو المتنوعة وغير المزيفة للموضوع. ومع ذلك ، لا يتطلب الأمر تدريبًا خاصًا أو إعادة تدريبه أو زيادته على مقاطع الفيديو لكل حالة ، حيث أن نموذجها المدمج قد استخلص بالفعل المسافات المتجهة المحتملة بين مقاطع الفيديو الحقيقية والمزيفة بطريقة قابلة للتطبيق على نطاق واسع.

يدعم التعلم التقابلي نهج POI-Forensics. تتم مقارنة المتجهات المشتقة من مادة المصدر على أساس كل حالة مع نفس المتجهات في فيديو خاطئ محتمل ، مع جوانب وسمات مستمدة من كل من مكونات الفيديو والصوت للقطات المزيفة المحتملة. المصدر: https://arxiv.org/pdf/2204.03083.pdf
بعنوان POI- الأدلة الجنائية، يعتمد النهج على الحركة والإشارات الصوتية الفريدة للفرد الحقيقي الذي يتم تزويره بشكل عميق.
ورغم أن مثل هذا النظام قد يسمح بإنشاء أطر مصادقة آلية بالكامل و"مُعدة مسبقًا" للمشاهير والسياسيين ومؤثري يوتيوب وغيرهم من الأشخاص الذين تتوفر لهم كميات كبيرة من المواد المرئية بسهولة، فإنه من الممكن أيضًا تكييفه في إطار عمل حيث يمكن للضحايا العاديين لتقنيات التزييف العميق أن يحصلوا على منصة لإثبات عدم صحة الهجمات ضدهم.

تصورات الميزات المستخرجة من مقاطع الفيديو الأصلية والمزيفة عبر أربعة مواضيع في POI-Forensics ، عبر إطار عمل t-SNE.
يدّعي المؤلفون أن POI-Forensics تُحقق تطورًا جديدًا في مجال كشف التزييف العميق. وعبر مجموعة متنوعة من مجموعات البيانات الشائعة في هذا المجال، أفادت التقارير أن الإطار يُحقق تحسنًا في درجات المساحة تحت المنحنى (AUC) بنسبة 3% و10% و7% لمقاطع الفيديو عالية الجودة ومنخفضة الجودة و"المُهاجمة"، على التوالي. ووعد الباحثون بإصدار رمز قريبا.

أداء POI-Forensics مقارنة بأطر SOTA المنافسة pDFDC, DeepFakeTIMIT, وهميةو KoDF. تم إجراء التدريب في كل حالة على FaceForensics ++ والمؤلفين أنفسهم كشف الهوية على VoxCeleb2. تشمل النتائج مقاطع فيديو عالية الجودة ومنخفضة الجودة.
يذكر المؤلفون:
يُجرى التدريب حصريًا على مقاطع فيديو حقيقية ذات وجوه ناطقة، وبالتالي لا يعتمد الكاشف على أي طريقة معالجة محددة، ويحقق أعلى قدرة على التعميم. بالإضافة إلى ذلك، تستطيع طريقتنا اكتشاف الهجمات أحادية النمط (الصوت فقط، الفيديو فقط) ومتعددة الأنماط (الصوت والفيديو)، وهي مقاومة للفيديوهات منخفضة الجودة أو الفاسدة بالاعتماد فقط على ميزات دلالية عالية المستوى.
الجديد ورقة، والتي تتضمن عناصر من بعض الأفكار المبنية على رؤية المؤلفين كشف الهوية مشروع 2021 بعنوان تقنية اكتشاف التزييف العميق للشخص المرئي والمسموع، وهو جهد مشترك بين جامعة Federico II في نابولي والجامعة التقنية في ميونيخ.
سباق أسلحة التزييف العميق
لإلحاق الهزيمة بنظام الكشف من هذا النوع ، تتطلب أنظمة التزييف العميق والتوليف البشري القدرة على الأقل لمحاكاة إشارات القياسات الحيوية المرئية والسمعية من الهدف المقصود للتوليف - التكنولوجيا التي تبعد سنوات عديدة ، ومن المرجح أن تظل في نطاق اختصاص أنظمة مغلقة مكلفة ومملوكة طورتها شركات المؤثرات البصرية ، والتي ستتمتع بميزة التعاون والمشاركة مع الأهداف المقصودة (أو عقاراتهم ، في حالة محاكاة الأشخاص المتوفين).

كان النهج السابق للمؤلفين، ID-Reveal، يركز بالكامل على المعلومات البصرية. المصدر: https://arxiv.org/pdf/2012.02512.pdf
طرق التزييف العميق الناجحة والشائعة مثل تبديل الوجه و ديب فيس لاب/مباشر أونلاين ليس لديها حاليًا قدرة على إنشاء مثل هذه التقريبات البيومترية الحبيبية ، معتمدين في أحسن الأحوال على الموهوبين انتحال الهوية على من تُفرض الهوية المزيفة، وبشكل أكثر شيوعًا على لقطات مُطابقة من الواقع لأشخاص "متشابهين". كما أن بنية الكود الأساسي لعام ٢٠١٧، الذي يفتقر إلى الوحدات النمطية، والذي لا يزال المصدر الرئيسي لـ DFL وFaceSwap، لا تجعل إضافة هذا النوع من الوظائف مُمكنة.
تعتمد هاتان الحزمتان المهيمنتان على تقنية deepfake التشفير التلقائي. يمكن أن تستخدم طرق التوليف البشري البديلة شبكة الخصومة التوليدية (GAN) أو حقل الإشعاع العصبي (نيرف) نهج إعادة إنشاء الهوية البشرية ؛ لكن كلا هذين الخطين من البحث أمامه سنوات من العمل حتى لإنتاج فيديو بشري واقعي بالكامل.
باستثناء الصوت (الأصوات المُزيّفة)، تُعدّ المحاكاة البيومترية في مرتبة متأخرة جدًا في قائمة التحديات التي تواجه تركيب الصور البشرية. على أي حال، فإن إعادة إنتاج جرس الصوت البشري وصفاته الأخرى لا تُعيد إنتاج غرابته و"دلالاته"، أو الطريقة التي يستخدم بها الشخص الحقيقي البنية الدلالية. لذلك، حتى إتقان محاكاة الصوت المُولّدة بالذكاء الاصطناعي لا يُحلّ مشكلة جدار الحماية المُحتمل للأصالة البيومترية.
في Arxiv وحدها ، هناك العديد من استراتيجيات وابتكارات اكتشاف التزييف العميق صدر كل أسبوع. لقد توقفت الأساليب الحديثة على ذلك تجانس الصوت والوجه, الرسم البياني للنمط الثنائي المحلي (FF-LBPH) ، الإدراك البشري للتزييف العميق للصوت, تحليل حدود الوجه, المحاسبة عن تدهور الفيديوو "الطب الشرعي للباليستيات" - من بين عدة آخرين.

يعد تحليل الرسم البياني المقسم من بين أحدث التقنيات المقدمة لتحسين اكتشاف التزييف العميق. المصدر: https://arxiv.org/pdf/2203.09928.pdf
النهج والبيانات والعمارة
تأخذ POI-Forensics نهجًا متعدد الوسائط للتحقق من الهوية ، والاستفادة من القياسات الحيوية اللينة بناءً على الإشارات المرئية والصوتية. يتميز إطار العمل بشبكات صوت وفيديو منفصلة ، والتي تستمد في النهاية بيانات متجهية مميزة يمكن مقارنتها بنفس الميزات المستخرجة في فيديو مزيف عميق محتمل قيد الدراسة.

العمارة المفاهيمية لـ POI-Forensics.
يمكن إجراء كل من التحليل المنفصل (الصوت أو الفيديو) والاندماج على المقاطع المستهدفة ، والوصول أخيرًا إلى مؤشر تشابه POI. تعتمد دالة الخسارة التباين المستخدمة على عام 2021 التعاون الأكاديمي بين Google Research وجامعة بوسطن وشركة Snap Inc. ومعهد ماساتشوستس للتكنولوجيا.
تم تقسيم مجموعة البيانات الأساسية على أساس كل هوية. تم استخدام 4608 هوية للتدريب ، مع 512 باقية للتحقق من صحتها. تم استبعاد 500 هوية مستخدمة في FakeAVCelebV2 (مرشح اختبار ، انظر أدناه) من أجل الحصول على نتائج غير مستقطبة.
تم تدريب الشبكتين على 12 حقبة بحجم دفعة كبير بشكل غير عادي من 2304 دفعة لكل حقبة ، مع كل دفعة تتكون من مقاطع فيديو 8 × 8 - 8 مقاطع لـ 8 هويات مختلفة. تم استخدام محسن آدم مع اضمحلال الوزن المنفصل بمعدل تعلم 10-4، ووزن اضمحلال 0.01.
اختبار والنتائج
كانت مجموعات البيانات deepfake التي تم اختبارها للمشروع هي معاينة مجموعة بيانات DeepFake Detection Challenge، والتي تتميز بتبادل الوجوه عبر 68 موضوعًا ، تم اختيار 44 هوية منها تحتوي على أكثر من تسعة مقاطع فيديو ذات صلة ، بإجمالي 920 مقطع فيديو حقيقي و 2925 مقطع فيديو مزيف ؛ DeepFake-TIMITمجموعة بيانات تعتمد على GAN تضم 320 مقطع فيديو لـ 32 موضوعًا، بإجمالي 290 مقطع فيديو حقيقي و580 مقطع فيديو مزيفًا لا تقل مدته عن أربع ثوانٍ؛ وهمية، تضم 500 مقطع فيديو حقيقي من فوكسيليب 2، وما يقرب من 20,000 مقطع فيديو مزيف من مجموعات بيانات مختلفة ، تمت إضافة الصوت المستنسخ المزيف إليها SV2TTS من أجل التوافق و KoDF ، وهي مجموعة بيانات كورية للتزييف العميق تحتوي على 403 هوية مزيفة من خلال FaceSwap و DeepFaceLab و FSGAN، بالإضافة إلى ثلاثة نماذج حركة من الدرجة الأولى (فوم).
يتميز الأخير أيضًا بتوليف الوجه الذي يحركه الصوت ATFHP، والإخراج من Wav2Lip، باستخدام المؤلفين مجموعة بيانات مشتقة تضم 276 مقطع فيديو حقيقيًا و 544 مقطع فيديو مزيفًا.
وشملت المقاييس المستخدمة منطقة تحت منحنى خاصية تشغيل جهاز الاستقبال (AUC), ومعدل "إنذار كاذب" يقارب 10%، وهو ما قد يشكل مشكلة في الأطر التي تتضمن بيانات مزيفة وتدرب عليها، ولكن هذا القلق يتبدد بفضل حقيقة أن POI-Forensics يأخذ لقطات فيديو حقيقية فقط كمدخلات له.
تم اختبار الأساليب ضد سيفيربيكوف جهاز كشف التزييف العميق ، والذي حصل على المركز الأول في نظام Kaggle Deepfake Detection التحدي; فتن (شبكة الالتفاف الزمني الكامل)، وهي عبارة عن تعاون بين جامعة شيامن الصينية ومركز أبحاث مايكروسوفت آسيا؛ الطب الشرعي ليب، عمل مشترك 2021 بين إمبريال كوليدج لندن وفيسبوك ؛ و كشف الهوية، وهو مشروع سابق لعدد من الباحثين في الورقة الجديدة، والذي يغفل جانب الصوت، ويستخدم نماذج ثلاثية الأبعاد قابلة للتغيير مع سيناريو لعبة معادية للكشف عن الناتج المزيف.
في النتائج (انظر الجدول السابق أعلاه) ، تفوقت POI-Forensics على الرائد المرجعي Seferbekov بنسبة 2.5٪ في الجامعة الأمريكية بالقاهرة ، و 1.5٪ من حيث الدقة. كان الأداء أكثر تنافسية على مجموعات البيانات الأخرى في المقر الرئيسي.
ومع ذلك ، أظهر النهج الجديد تقدمًا ملحوظًا على جميع الطرق المرجعية المتنافسة لمقاطع الفيديو منخفضة الجودة ، والتي تظل السيناريو الأكثر احتمالا حيث تكون المقاطع المزيفة العميقة عرضة لخداع المشاهدين العاديين، استنادًا إلى سياقات "العالم الحقيقي".
يؤكد المؤلفون:
'في الواقع، في هذا السيناريو الصعب، لا تزال الأساليب القائمة على الهوية فقط هي التي تستمر في تقديم أداء جيد، لأنها تعتمد على ميزات دلالية عالية المستوى، قوية جدًا في مواجهة ضعف الصورة.'
بالنظر إلى أن PIO-Forensics تستخدم الفيديو الحقيقي فقط كمصدر للمواد، فمن الممكن القول إن هذا الإنجاز مكبر، ويشير إلى أن استخدام السمات الحيوية الأصلية لضحايا التزييف العميق المحتملين هو طريق جدير بالاهتمام إلى الأمام للهروب من "الحرب الباردة بين القطع الأثرية" بين برامج التزييف العميق وحلول اكتشاف التزييف العميق.
في اختبار أخير ، أضاف الباحثون ضوضاء معادية إلى المدخلات ، وهي طريقة يمكن أن تخدع المصنفات بشكل موثوق. الموقر الآن طريقة تسجيل التدرج السريع لا يزال يثبت فعاليته بشكل خاص ، في هذا الصدد.
كما هو متوقع، أدت استراتيجيات الهجوم العدائي إلى انخفاض معدل النجاح في جميع الطرق ومجموعات البيانات، مع انخفاض مساحة تحت المنحنى (AUC) بزيادات تتراوح بين 10% و38%. ومع ذلك، لم تتمكن سوى POI-Forensics، وطريقة ID-Reveal السابقة التي ابتكرها المؤلفون، من الحفاظ على أداء معقول في ظل سيناريو الهجوم هذا، مما يشير إلى أن الميزات عالية المستوى المرتبطة بالقياسات الحيوية الناعمة تتمتع بمقاومة فائقة للتهرب من كشف التزييف العميق.
وخلص المؤلفون إلى:
بشكل عام، نعتقد أن طريقتنا تُمثل خطوةً أولى؛ وتحديدًا، يُعد استخدام السمات الدلالية عالية المستوى مجالًا واعدًا للأبحاث المستقبلية. بالإضافة إلى ذلك، يُمكن إثراء التحليل متعدد الوسائط بتضمين المزيد من المعلومات من مجالات أخرى، مثل البيانات النصية.
نُشر لأول مرة في 8 أبريل 2022.












