اتصل بنا للحصول على مزيد من المعلومات

يمكن أن تكشف معلومات العمق عن التزييف العميق في الوقت الفعلي

الذكاء الاصطناعي

يمكن أن تكشف معلومات العمق عن التزييف العميق في الوقت الفعلي

mm

وجد بحث جديد من إيطاليا أن المعلومات العميقة التي يتم الحصول عليها من الصور يمكن أن تكون أداة مفيدة للكشف عن التزييف العميق – حتى في الوقت الفعلي.

في حين أن غالبية الأبحاث حول اكتشاف التزييف العميق على مدى السنوات الخمس الماضية قد ركزت عليها تحديد قطعة أثرية (والتي يمكن تخفيفها عن طريق التقنيات المحسّنة ، أو الخلط بينها وبين ضغط ترميز الفيديو السيئ) ، الإضاءة المحيطة, السمات البيومترية, اضطراب زمني، وحتى غريزة الإنسان، الدراسة الجديدة هي الأولى التي تشير إلى أن المعلومات المتعمقة يمكن أن تكون تشفيرًا قيمًا لمحتوى التزييف العميق.

أمثلة على خرائط العمق المشتقة ، والاختلاف في معلومات العمق الإدراكي بين الصور الحقيقية والمزيفة. المصدر: https://arxiv.org/pdf/2208.11074.pdf

أمثلة على خرائط العمق المشتقة ، والاختلاف في معلومات العمق الإدراكي بين الصور الحقيقية والمزيفة. المصدر: https://arxiv.org/pdf/2208.11074.pdf

بشكل حاسم ، تعمل أطر الكشف التي تم تطويرها للدراسة الجديدة بشكل جيد للغاية على شبكة خفيفة الوزن مثل Xception، ومقبول بشكل جيد موبايل نت، وتقر الورقة الجديدة بأن الكمون المنخفض للاستدلال المقدم من خلال هذه الشبكات يمكن أن يمكّن من اكتشاف التزييف العميق في الوقت الفعلي مقابل الاتجاه الجديد نحو الاحتيال المباشر في التزييف العميق ، والذي تجلى في الآونة الأخيرة الهجوم على Binance.

يمكن تحقيق قدر أكبر من الاقتصاد في وقت الاستدلال لأن النظام لا يحتاج إلى صور كاملة الألوان من أجل تحديد الفرق بين خرائط العمق المزيفة والحقيقية ، ولكن يمكن أن يعمل بكفاءة مفاجئة فقط على الصور الرمادية لمعلومات العمق.

يذكر المؤلفون: 'تشير هذه النتيجة إلى أن العمق في هذه الحالة يضيف مساهمة أكثر أهمية للتصنيف من آثار اللون.'

تمثل النتائج جزءًا من موجة جديدة من أبحاث الكشف عن التزييف العميق الموجهة ضد أنظمة تخليق الوجه في الوقت الفعلي مثل ديب فيس لايف - وهو محور للجهود التي تسارعت بشكل ملحوظ في الأشهر الثلاثة أو الأربعة الماضية، في أعقاب هجوم مكتب التحقيقات الفيدرالي. تحذير مارس حول مخاطر التزييف العميق للفيديو والصوت في الوقت الفعلي.

استخدم ورقة بعنوان DepthFake: إستراتيجية مبنية على العمق لاكتشاف مقاطع فيديو Deepfake، ويأتي من خمسة باحثين في جامعة سابينزا في روما.

حالات الحافة

أثناء التدريب ، تعطي نماذج التزييف العميق القائمة على التشفير التلقائي الأولوية للمناطق الداخلية من الوجه ، مثل العينين والأنف والفم. في معظم الحالات ، عبر توزيعات مفتوحة المصدر مثل ديب فيس لاب و تبديل الوجه (كلاهما متشعب من 2017 الأصلي كود رديت قبل حذفه) ، لا تصبح الخطوط الخارجية للوجه محددة جيدًا حتى مرحلة متأخرة جدًا من التدريب ، ومن غير المرجح أن تتطابق مع جودة التركيب في منطقة الوجه الداخلية.

من دراسة سابقة ، نرى تصورًا لـ "خرائط الملوحة" للوجه. المصدر: https://arxiv.org/pdf/2203.01318.pdf

من خلال دراسة سابقة، نرى تصورًا لخرائط "الأهمية" للوجه. المصدر: https://arxiv.org/pdf/2203.01318.pdf

في العادة، لا يكون هذا الأمر مهما، لأن ميلنا إلى التركيز أولا على العيون وإعطاء الأولوية "للخارج" عند مستويات متناقصة من الاهتمام يعني أنه من غير المرجح أن ننزعج من هذه الانخفاضات في الجودة الطرفية - وخاصة إذا كنا نتحدث مباشرة إلى الشخص الذي يتظاهر بهوية أخرى، مما يؤدي إلى إثارة الأعراف الاجتماعية و قيود المعالجة غير موجود عندما نقوم بتقييم لقطات التزييف العميق "المقدمة".

ومع ذلك ، يمكن اكتشاف نقص التفاصيل أو الدقة في مناطق الهامش المتأثرة لوجه عميق التزييف خوارزميًا. في مارس ، كان النظام الذي يعمل على منطقة الوجه المحيطية أعلنومع ذلك، نظرًا لأنه يتطلب كمية أكبر من المتوسط ​​من بيانات التدريب، فهو مخصص فقط للمشاهير الذين من المرجح أن يظهروا في مجموعات بيانات الوجه الشهيرة (مثل ImageNet) التي لها أصل في تقنيات الرؤية الحاسوبية الحالية واكتشاف التزييف العميق.

بدلا من ذلك ، النظام الجديد بعنوان العمق، يمكن أن يعمل بشكل عام حتى على هويات غامضة أو غير معروفة ، من خلال التمييز بين جودة معلومات خريطة العمق المقدرة في محتوى الفيديو الحقيقي والمزيف.

التعمق

يتم تخزين معلومات خريطة العمق بشكل متزايد في الهواتف الذكية ، بما في ذلك تطبيقات ستيريو بمساعدة الذكاء الاصطناعي وهي مفيدة بشكل خاص لدراسات الرؤية الحاسوبية. في الدراسة الجديدة، استخدم الباحثون نموذج FaceDepth من جامعة أيرلندا الوطنية، وهو شبكة ترميز/فك ترميز ملتوية قادرة على تقدير خرائط العمق بكفاءة من صور أحادية المصدر.

نموذج FaceDepth قيد العمل. المصدر: https://tinyurl.com/3ctcazma

نموذج FaceDepth قيد العمل. المصدر: https://tinyurl.com/3ctcazma

بعد ذلك، يستخرج خط أنابيب الإطار الجديد للباحثين الإيطاليين رقعةً من وجه الشخص بدقة 224×224 بكسل من كلٍّ من صورة RGB الأصلية وخريطة العمق المُشتقة. والأهم من ذلك، أن هذا يسمح للعملية بنسخ المحتوى الأساسي دون تغيير حجمه؛ وهذا أمرٌ بالغ الأهمية، لأن خوارزميات تغيير الحجم القياسية ستؤثر سلبًا على جودة المناطق المستهدفة.

باستخدام هذه المعلومات، من المصادر الحقيقية والمزيفة، قام الباحثون بعد ذلك بتدريب شبكة عصبية تلافيفية (CNN) قادرة على التمييز بين الحالات الحقيقية والمزيفة، بناءً على الاختلافات بين الجودة الإدراكية لخرائط العمق المعنية.

خط أنابيب مفاهيمي لـ DepthFake.

خط أنابيب مفاهيمي لـ DepthFake.

تم تدريب نموذج FaceDepth على بيانات واقعية ومصطنعة باستخدام دالة هجينة توفر تفاصيل أكثر في الهوامش الخارجية للوجه، مما يجعله مناسبًا تمامًا لـ DepthFake. يستخدم النموذج نسخة MobileNet كمستخرج للميزات، وقد تم تدريبه باستخدام صور إدخال بدقة 480×640 بكسل، تُخرج خرائط عمق بدقة 240×320 بكسل. تمثل كل خريطة عمق ربع قنوات الإدخال الأربع المستخدمة في مُميِّز المشروع الجديد.

يتم تضمين خريطة العمق تلقائيًا في صورة RGB الأصلية لتوفير نوع صورة RGBD المليئة بمعلومات العمق التي يمكن لكاميرات الهواتف الذكية الحديثة إخراجها.

التدريب

تم تدريب النموذج على شبكة Xception تم اختبارها مسبقًا على ImageNet ، على الرغم من أن الهيكل يحتاج إلى بعض التكيف من أجل استيعاب معلومات العمق الإضافية مع الحفاظ على التهيئة الصحيحة للأوزان.

بالإضافة إلى ذلك ، فإن عدم التطابق في القيمة يتراوح بين معلومات العمق وما تتوقعه الشبكة استلزم قيام الباحثين بتطبيع القيم إلى 0-255.

أثناء التدريب ، تم تطبيق التقليب والدوران فقط. في كثير من الحالات ، سيتم تقديم العديد من الاضطرابات البصرية الأخرى إلى النموذج من أجل تطوير استدلال قوي ، لكن ضرورة الحفاظ على معلومات خريطة عمق الحافة المحدودة والهشة للغاية في صور المصدر أجبرت الباحثين على اعتماد نظام التخفيف.

تم تدريب النظام بشكل إضافي على التدرج الرمادي البسيط ثنائي القناة ، من أجل تحديد مدى تعقيد الصور المصدر التي يجب أن تكون من أجل الحصول على خوارزمية قابلة للتطبيق.

تم التدريب عبر TensorFlow API على NVIDIA GTX 1080 بسعة 8 جيجابايت من VRAM ، باستخدام مُحسِّن ADAMAX ، لمدة 25 حقبة ، بحجم دفعة 32. تم إصلاح دقة الإدخال عند 224 × 224 أثناء الاقتصاص ، وتم اكتشاف الوجه واستخراجه. أنجزت مع dlib مكتبة C ++.

النتائج

تم اختبار دقة النتائج ضد Deepfake ، Face2Face، تبديل الوجه، نسيج عصبي، ومجموعة البيانات الكاملة مع مدخلات RGB و RGBD ، باستخدام تنسيق FaceForensic ++ الإطار.

النتائج على الدقة عبر أربع طرق للتزييف العميق ، وضد مجموعة البيانات غير المنقسمة بأكملها. يتم تقسيم النتائج بين تحليل صور RGB المصدر ، ونفس الصور باستخدام خريطة عمق مستنتجة مضمنة. تظهر أفضل النتائج بخط عريض ، مع وجود أرقام مئوية أسفلها توضح إلى أي مدى تعمل معلومات خريطة العمق على تحسين النتيجة.

النتائج على الدقة عبر أربع طرق للتزييف العميق ، وضد مجموعة البيانات غير المنقسمة بأكملها. يتم تقسيم النتائج بين تحليل صور RGB المصدر ، ونفس الصور باستخدام خريطة عمق مستنتجة مضمنة. تظهر أفضل النتائج بخط عريض ، مع وجود أرقام مئوية أسفلها توضح إلى أي مدى تعمل معلومات خريطة العمق على تحسين النتيجة.

في جميع الحالات، تُحسّن قناة العمق أداء النموذج في جميع التكوينات. يُحقق Xception أفضل النتائج، يليه مباشرةً MobileNet السريع. وفي هذا الصدد، يُعلّق المؤلفون:

من المثير للاهتمام ملاحظة أن شبكة MobileNet أدنى أداءً من Xception بقليل، وتتفوق على شبكة ResNet50 الأعمق. تُعد هذه نتيجةً ملحوظةً عند النظر في هدف تقليل أوقات الاستدلال لتطبيقات الوقت الفعلي. مع أن هذه ليست المساهمة الرئيسية لهذا العمل، إلا أننا نعتبرها نتيجةً مُشجعةً للتطورات المستقبلية.

لاحظ الباحثون أيضًا ميزة ثابتة لـ RGBD ومدخلات تدرج الرمادي ثنائية القناة عبر RGB ومدخلات تدرج الرمادي المستقيم ، مع ملاحظة أن تحويلات التدرج الرمادي لاستدلالات العمق ، والتي تعتبر رخيصة جدًا من الناحية الحسابية ، تسمح للنموذج بالحصول على نتائج محسنة بموارد محلية محدودة للغاية ، تسهيل التطوير المستقبلي لاكتشاف التزييف العميق في الوقت الفعلي بناءً على معلومات متعمقة.

 

نُشر لأول مرة في 24 أغسطس 2022.

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai