الذكاء الاصطناعي

يمكن أن تكشف معلومات العمق عن التزييف العميق في الوقت الفعلي

تحديث on 9 كانون الأول، 2022

وجد بحث جديد من إيطاليا أن المعلومات العميقة التي يتم الحصول عليها من الصور يمكن أن تكون أداة مفيدة للكشف عن التزييف العميق – حتى في الوقت الفعلي.

في حين أن غالبية الأبحاث حول اكتشاف التزييف العميق على مدى السنوات الخمس الماضية قد ركزت عليها تحديد قطعة أثرية (والتي يمكن تخفيفها عن طريق التقنيات المحسّنة ، أو الخلط بينها وبين ضغط ترميز الفيديو السيئ) ، الإضاءة المحيطة, السمات البيومترية, اضطراب زمني، وحتى غريزة الإنسان، الدراسة الجديدة هي الأولى التي تشير إلى أن المعلومات المتعمقة يمكن أن تكون تشفيرًا قيمًا لمحتوى التزييف العميق.

أمثلة على خرائط العمق المشتقة ، والاختلاف في معلومات العمق الإدراكي بين الصور الحقيقية والمزيفة. المصدر: https://arxiv.org/pdf/2208.11074.pdf

بشكل حاسم ، تعمل أطر الكشف التي تم تطويرها للدراسة الجديدة بشكل جيد للغاية على شبكة خفيفة الوزن مثل Xception، ومقبول بشكل جيد موبايل نت، وتقر الورقة الجديدة بأن الكمون المنخفض للاستدلال المقدم من خلال هذه الشبكات يمكن أن يمكّن من اكتشاف التزييف العميق في الوقت الفعلي مقابل الاتجاه الجديد نحو الاحتيال المباشر في التزييف العميق ، والذي تجلى في الآونة الأخيرة الهجوم على Binance.

يمكن تحقيق قدر أكبر من الاقتصاد في وقت الاستدلال لأن النظام لا يحتاج إلى صور كاملة الألوان من أجل تحديد الفرق بين خرائط العمق المزيفة والحقيقية ، ولكن يمكن أن يعمل بكفاءة مفاجئة فقط على الصور الرمادية لمعلومات العمق.

يذكر المؤلفون: تشير هذه النتيجة إلى أن العمق في هذه الحالة يضيف مساهمة أكثر صلة للتصنيف من القطع الأثرية الملونة.

تمثل النتائج جزءًا من موجة جديدة من أبحاث الكشف عن التزييف العميق الموجهة ضد أنظمة تخليق الوجه في الوقت الفعلي مثل ديب فيس لايف - مركز جهد تسارع بشكل ملحوظ في الأشهر الثلاثة أو الأربعة الماضية ، في أعقاب مكتب التحقيقات الفيدرالي تحذير مارس حول مخاطر التزييف العميق للفيديو والصوت في الوقت الفعلي.

• ورقة بعنوان DepthFake: إستراتيجية مبنية على العمق لاكتشاف مقاطع فيديو Deepfake، ويأتي من خمسة باحثين في جامعة سابينزا في روما.

حالات الحافة

أثناء التدريب ، تعطي نماذج التزييف العميق القائمة على التشفير التلقائي الأولوية للمناطق الداخلية من الوجه ، مثل العينين والأنف والفم. في معظم الحالات ، عبر توزيعات مفتوحة المصدر مثل ديب فيس لاب و تبديل الوجه (كلاهما متشعب من 2017 الأصلي كود رديت قبل حذفه) ، لا تصبح الخطوط الخارجية للوجه محددة جيدًا حتى مرحلة متأخرة جدًا من التدريب ، ومن غير المرجح أن تتطابق مع جودة التركيب في منطقة الوجه الداخلية.

من دراسة سابقة ، نرى تصورًا لـ "خرائط الملوحة" للوجه. المصدر: https://arxiv.org/pdf/2203.01318.pdf

عادة ، هذا ليس مهمًا ، نظرًا لأن ميلنا إلى التركيز أولاً على العيون وتحديد الأولويات ، يعني "الخارج" عند مستويات الانتباه المتضائلة أنه من غير المحتمل أن نشعر بالقلق من هذه الانخفاضات في الجودة المحيطية - خاصةً إذا كنا نتحدث مباشرة إلى الشخص الذي يزيف هوية أخرى ، مما يؤدي إلى تقاليد اجتماعية و قيود المعالجة غير موجود عندما نقوم بتقييم لقطات deepfake "المقدمة".

ومع ذلك ، يمكن اكتشاف نقص التفاصيل أو الدقة في مناطق الهامش المتأثرة لوجه عميق التزييف خوارزميًا. في مارس ، كان النظام الذي يعمل على منطقة الوجه المحيطية أعلن. ومع ذلك، نظرًا لأنه يتطلب قدرًا أعلى من المتوسط من بيانات التدريب، فهو مخصص فقط للمشاهير الذين من المحتمل أن يظهروا في مجموعات بيانات الوجه الشائعة (مثل ImageNet) التي لها مصدر في رؤية الكمبيوتر الحالية وتقنيات الكشف عن التزييف العميق.

بدلا من ذلك ، النظام الجديد بعنوان العمق، يمكن أن يعمل بشكل عام حتى على هويات غامضة أو غير معروفة ، من خلال التمييز بين جودة معلومات خريطة العمق المقدرة في محتوى الفيديو الحقيقي والمزيف.

التعمق

يتم تخزين معلومات خريطة العمق بشكل متزايد في الهواتف الذكية ، بما في ذلك تطبيقات ستيريو بمساعدة الذكاء الاصطناعي والتي تكون مفيدة بشكل خاص لدراسات رؤية الكمبيوتر. في الدراسة الجديدة، استخدم المؤلفون نموذج FaceDepth الخاص بالجامعة الوطنية في أيرلندا، وهو عبارة عن شبكة تشفير/فك تشفير تلافيفية يمكنها تقدير خرائط العمق بكفاءة من صور أحادية المصدر.

نموذج FaceDepth قيد العمل. المصدر: https://tinyurl.com/3ctcazma

بعد ذلك ، يستخرج خط الأنابيب للإطار الجديد للباحثين الإيطاليين رقعة بحجم 224 × 224 بكسل لوجه الموضوع من كل من صورة RGB الأصلية وخريطة العمق المشتقة. بشكل حاسم ، يسمح هذا للعملية بنسخ المحتوى الأساسي دون تغيير حجمه ؛ هذا مهم ، لأن خوارزميات تغيير الحجم القياسية ستؤثر سلبًا على جودة المناطق المستهدفة.

باستخدام هذه المعلومات، من المصادر الحقيقية والمزيفة، قام الباحثون بعد ذلك بتدريب شبكة عصبية تلافيفية (CNN) قادرة على التمييز بين الحالات الحقيقية والمزيفة، بناءً على الاختلافات بين الجودة الإدراكية لخرائط العمق المعنية.

خط أنابيب مفاهيمي لـ DepthFake.

تم تدريب نموذج FaceDepth على بيانات واقعية وتركيبية باستخدام وظيفة هجينة توفر تفاصيل أكبر على الهوامش الخارجية للوجه، مما يجعله مناسبًا تمامًا لـ DepthFake. ويستخدم مثيل MobileNet كمستخرج للميزات، وتم تدريبه باستخدام صور إدخال مقاس 480 × 640 لإخراج خرائط عمق مقاس 240 × 320. تمثل كل خريطة عمق ربع قنوات الإدخال الأربعة المستخدمة في أداة تمييز المشروع الجديد.

يتم تضمين خريطة العمق تلقائيًا في صورة RGB الأصلية لتوفير نوع صورة RGBD المليئة بمعلومات العمق التي يمكن لكاميرات الهواتف الذكية الحديثة إخراجها.

قادة الإيمان

تم تدريب النموذج على شبكة Xception تم اختبارها مسبقًا على ImageNet ، على الرغم من أن الهيكل يحتاج إلى بعض التكيف من أجل استيعاب معلومات العمق الإضافية مع الحفاظ على التهيئة الصحيحة للأوزان.

بالإضافة إلى ذلك ، فإن عدم التطابق في القيمة يتراوح بين معلومات العمق وما تتوقعه الشبكة استلزم قيام الباحثين بتطبيع القيم إلى 0-255.

أثناء التدريب ، تم تطبيق التقليب والدوران فقط. في كثير من الحالات ، سيتم تقديم العديد من الاضطرابات البصرية الأخرى إلى النموذج من أجل تطوير استدلال قوي ، لكن ضرورة الحفاظ على معلومات خريطة عمق الحافة المحدودة والهشة للغاية في صور المصدر أجبرت الباحثين على اعتماد نظام التخفيف.

تم تدريب النظام بشكل إضافي على التدرج الرمادي البسيط ثنائي القناة ، من أجل تحديد مدى تعقيد الصور المصدر التي يجب أن تكون من أجل الحصول على خوارزمية قابلة للتطبيق.

تم التدريب عبر TensorFlow API على NVIDIA GTX 1080 بسعة 8 جيجابايت من VRAM ، باستخدام مُحسِّن ADAMAX ، لمدة 25 حقبة ، بحجم دفعة 32. تم إصلاح دقة الإدخال عند 224 × 224 أثناء الاقتصاص ، وتم اكتشاف الوجه واستخراجه. أنجزت مع dlib مكتبة C ++.

النتائج

تم اختبار دقة النتائج ضد Deepfake ، Face2Face، تبديل الوجه، نسيج عصبي، ومجموعة البيانات الكاملة مع مدخلات RGB و RGBD ، باستخدام تنسيق FaceForensic ++ الإطار.

النتائج على الدقة عبر أربع طرق للتزييف العميق ، وضد مجموعة البيانات غير المنقسمة بأكملها. يتم تقسيم النتائج بين تحليل صور RGB المصدر ، ونفس الصور باستخدام خريطة عمق مستنتجة مضمنة. تظهر أفضل النتائج بخط عريض ، مع وجود أرقام مئوية أسفلها توضح إلى أي مدى تعمل معلومات خريطة العمق على تحسين النتيجة.

في جميع الحالات ، تعمل قناة العمق على تحسين أداء النموذج عبر جميع التكوينات. تحصل Xception على أفضل النتائج مع شبكة MobileNet الذكية. على هذا ، يعلق المؤلفون:

[من المثير] ملاحظة أن شبكة MobileNet أدنى قليلاً من Xception وتتفوق في الأداء على ResNet50 الأعمق. هذه نتيجة ملحوظة عند التفكير في هدف تقليل أوقات الاستدلال لتطبيقات الوقت الفعلي. في حين أن هذه ليست المساهمة الرئيسية لهذا العمل ، إلا أننا ما زلنا نعتبره نتيجة مشجعة للتطورات المستقبلية.

لاحظ الباحثون أيضًا ميزة ثابتة لـ RGBD ومدخلات تدرج الرمادي ثنائية القناة عبر RGB ومدخلات تدرج الرمادي المستقيم ، مع ملاحظة أن تحويلات التدرج الرمادي لاستدلالات العمق ، والتي تعتبر رخيصة جدًا من الناحية الحسابية ، تسمح للنموذج بالحصول على نتائج محسنة بموارد محلية محدودة للغاية ، تسهيل التطوير المستقبلي لاكتشاف التزييف العميق في الوقت الفعلي بناءً على معلومات متعمقة.

نُشر لأول مرة في 24 أغسطس 2022.

يحلل الذكاء الاصطناعي الحمض النووي حتى تاريخ البقايا الأثرية

لا تفوت

التعلم الآلي مقابل الذكاء الاصطناعي: الاختلافات الرئيسية

مارتن أندرسون

كاتب في التعلم الآلي والذكاء الاصطناعي والبيانات الضخمة.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai

اتحدوا

يمكن أن تكشف معلومات العمق عن التزييف العميق في الوقت الفعلي

الذكاء الاصطناعي