Connect with us

الذكاء الاصطناعي

يمكن أن تكشف المعلومات العميقة عن عمليات التزوير في الوقت الفعلي

mm

أظهر بحث جديد من إيطاليا أن المعلومات العميقة التي تم الحصول عليها من الصور يمكن أن تكون أداة مفيدة لاكتشاف عمليات التزوير – حتى في الوقت الفعلي.

في حين أن معظم الأبحاث حول اكتشاف عمليات التزوير في السنوات الخمس الماضية ركزت على تحديد الآثار (التي يمكن التغلب عليها من خلال تقنيات محسنة ، أو الخلط بينها وبين ضغط الفيديو السيئ) ، الإضاءة المحيطة ، السمات البيومترية ، الاضطراب الزمني ، وحتى الحدس البشري ، فإن الدراسة الجديدة هي الأولى التي تشير إلى أن المعلومات العميقة يمكن أن تكون شفرة قيمة لمحتوى عمليات التزوير.

أمثلة على الخرائط العميقة المشتقة ، والفرق في المعلومات العميقة الحسية بين الصور الحقيقية والصور المزيفة. مصدر: https://arxiv.org/pdf/2208.11074.pdf

أمثلة على الخرائط العميقة المشتقة ، والفرق في المعلومات العميقة الحسية بين الصور الحقيقية والصور المزيفة. مصدر: https://arxiv.org/pdf/2208.11074.pdf

هذا يعني أن إطارات الكشف التي تم تطويرها للدراسة الجديدة تعمل بشكل جيد على شبكة خفيفة مثل Xception ، وتماما على MobileNet ، والورقة الجديدة تعترف بأن انخفاض زمن الاستدلال الذي تقدمه هذه الشبكات يمكن أن يسمح باكتشاف عمليات التزوير في الوقت الفعلي ضد الاتجاه الجديد نحو الاحتيال المباشر ، كما هو موضح في الهجوم الأخير على Binance.

يمكن تحقيق اقتصاد أكبر في وقت الاستدلال لأن النظام لا يحتاج إلى صور ملونة كاملة لتحديد الفرق بين خرائط العمق الحقيقية والخرائط المزيفة ، ولكن يمكنه العمل بكفاءة مع صور رمادية فقط للمعلومات العميقة.

يصرح المؤلفون: ‘هذا النتيجة تشير إلى أن العمق في هذه الحالة يضيف مساهمة أكثر صلة للتصنيف من الآثار اللونية.’

تتمثل النتائج في جزء من موجة جديدة من أبحاث اكتشاف عمليات التزوير الموجهة ضد أنظمة الت合成 الوجهي في الوقت الفعلي مثل DeepFaceLive – وهو مركز للجهد الذي تسارع بشكل ملحوظ في الأشهر الثلاثة إلى أربعة الماضية ، في أعقاب تحذير إف بي آي في مارس حول خطر عمليات التزوير الصوتية والفيديوية في الوقت الفعلي.

الورقة بعنوان DepthFake: استراتيجية قائمة على العمق لاكتشاف فيديوهات عمليات التزوير ، وهي من تأليف خمسة باحثين من جامعة سابينزا في روما.

الحالات الحدية

خلال التدريب ، يتم تحديد نماذج عمليات التزوير القائمة على التشفير الذاتي للمناطق الداخلية للوجه ، مثل العيون والأنف والفم. في معظم الحالات ، عبر التوزيعات المفتوحة مثل DeepFaceLab و FaceSwap (كلاهما مشتق من رمز Reddit الأصلي في عام 2017 قبل حذفه) ، لا تصبح الخطوط الخارجية للوجه محددة جيدًا حتى مرحلة متأخرة جدًا في التدريب ، ومن غير المحتمل أن تتماشى مع جودة الت合ين في منطقة الوجه الداخلية.

من دراسة سابقة ، نرى تبيانًا لخرائط 'الوضوح' للوجه. مصدر: https://arxiv.org/pdf/2203.01318.pdf

من دراسة سابقة ، نرى تبيانًا لخرائط ‘الوضوح’ للوجه. مصدر: https://arxiv.org/pdf/2203.01318.pdf

عادة ، هذا ليس مهمًا ، لأن ميلنا للاهتمام أولاً بالعيون وتحديد الأولويات “خارجًا” على مستويات انخفاض الانتباه يعني أننا غير محتمل أن نزعج من هذه الانخفاضات في جودة الهامش – خاصة إذا كنا نتحدث مباشرة مع الشخص الذي يزيف هويته ، مما يؤدي إلى تطبيق الاتفاقيات الاجتماعية و قيود المعالجة غير موجودة عند تقييم مقاطع فيديو عمليات التزوير “المُحسنة”.

ومع ذلك ، يمكن اكتشاف عدم الدقة أو الدقة في المناطق المتأثرة من الوجه المزيف بشكل خوارزمي. في مارس ، تم الإعلان عن نظام يعتمد على منطقة الوجه المحيطية. ومع ذلك ، نظرًا لأنها تتطلب كمية كبيرة من بيانات التدريب ، فإنها مخصصة فقط للمشاهير الذين من المحتمل أن يظهروا في مجموعات بيانات الوجه الشهيرة (مثل ImageNet) التي لها أصول في تقنيات الرؤية الحاسوبية واكتشاف عمليات التزوير الحالية.

بدلاً من ذلك ، يمكن للنظام الجديد ، بعنوان DepthFake ، العمل بشكل عام حتى على هويات غير معروفة أو غامضة ، من خلال التمييز بين جودة معلومات خريطة العمق المقدرة في المحتوى الفيديوي الحقيقي والمزيف.

الغوص العميق

تتم إضافة معلومات خريطة العمق بشكل متزايد إلى الهواتف الذكية ، بما في ذلك تنفيذات الاستريو المساعدة بالذكاء الاصطناعي التي تكون خاصة بالدراسات الرؤية الحاسوبية. في الدراسة الجديدة ، استخدم المؤلفون نموذج FaceDepth من جامعة أيرلندا الوطنية ، وهو شبكة فك ترميز التشفير القنوية التي يمكنها تقدير خرائط العمق من صور مصدر واحدة.

نموذج FaceDepth في العمل.

نموذج FaceDepth في العمل. مصدر: https://tinyurl.com/3ctcazma

بعد ذلك ، يتم استخراج شريحة بحجم 224×224 بكسل من وجه الشخص من الصورة الأصلية و خريطة العمق المشتقة. هذا يسمح للعملية بنسخ المحتوى الأساسي دون تغيير حجمه؛ هذا مهم ، لأن خوارزميات تغيير الحجم ستؤثر سلبًا على جودة المناطق المستهدفة.

باستخدام هذه المعلومات ، من مصادر حقيقية ومزيفة ، قام الباحثون بتدريب شبكة عصبية خفيفة قادرة على التمييز بين الحالات الحقيقية والمزيفة ، بناءً على الفروق بين جودة المعلومات العميقة الحسية للخرائط المقابلة.

خط أنابيب مفاهيمي ل DepthFake.

خط أنابيب مفاهيمي ل DepthFake.

يتم تدريب نموذج FaceDepth على بيانات حقيقية واصطناعية باستخدام دالة هجينة توفر تفاصيل أكبر في الهامش الخارجي للوجه ، مما يجعله مناسبًا ل DepthFake. يستخدم مثيل MobileNet كمستخرج ميزة ، وتم تدريبه مع صور ввод بحجم 480×640 مع خرائط عمق بحجم 240×320. تمثل كل خريطة عمق ربع القنوات الإدخالية الأربعة المستخدمة في مشتق DepthFake.

تتم إدراج خريطة العمق تلقائيًا في الصورة الأصلية لتقديم نوع الصورة RGBD ، completo مع معلومات العمق ، التي يمكن أن تنتجها كاميرات الهواتف الذكية الحديثة.

التدريب

تم تدريب النموذج على شبكة Xception مسبقًا على ImageNet ، على الرغم من أن الهيكل يتطلب بعض التكيف لاستيعاب معلومات العمق الإضافية مع الحفاظ على 초기 التهيئة الصحيحة للأوزان.

بالإضافة إلى ذلك ، كان هناك اختلاف في نطاقات القيم بين معلومات العمق وما يتوقعه الشبكة ، مما استلزم من الباحثين تطبيع القيم إلى 0-255.

خلال التدريب ، تم تطبيق فقط翻转 وال دوران. في العديد من الحالات ، سوف يتم تقديم تعديلات بصرية مختلفة إلى الشبكة من أجل تطوير استدلال قوي ، ولكن ضرورة الحفاظ على معلومات خريطة العمق الحساسة والمحدودة في الصور المصدر أجبرت الباحثين على تبني نظام مبسط.

تم تدريب النظام أيضًا على لون رمادي بسيط ذو قناة مزدوجة ، من أجل تحديد مدى تعقيد الصور المصدر اللازمة للحصول على خوارزمية قابلة للعمل.

تم إجراء التدريب عبر واجهة برمجة تطبيقات TensorFlow على NVIDIA GTX 1080 مع 8GB من VRAM ، باستخدام محسّن ADAMAX ، لمدة 25 دورة ، مع حجم批ة 32. تم تثبيت دقة الإدخال عند 224×224 خلال القص ، وتم إنجاز كشف الوجه و استخراجه بواسطة مكتبة dlib C++.

النتائج

تم اختبار دقة النتائج ضد عمليات التزوير ، Face2Face ، FaceSwap ، Neural Texture ، ومجموعة البيانات الكاملة مع إدخالات RGB و RGBD ، باستخدام إطار FaceForensic++.

النتائج على الدقة خلال أربعة طرق عمليات التزوير ، وضد المجموعة الكاملة غير المنقسمة. يتم تقسيم النتائج بين تحليل الصور RGB المصدر ، والصور نفسها مع خريطة عمق مُستخرجة مدمجة.

النتائج على الدقة خلال أربعة طرق عمليات التزوير ، وضد المجموعة الكاملة غير المنقسمة. يتم تقسيم النتائج بين تحليل الصور RGB المصدر ، والصور نفسها مع خريطة عمق مُستخرجة مدمجة.

في جميع الحالات ، تحسن قناة العمق أداء النموذج عبر جميع التكوينات. يحصل Xception على أفضل النتائج ، مع MobileNet الخفيف قريبًا. حول هذا ، يعلق المؤلفون:

‘من المثير للاهتمام أن نلاحظ أن MobileNet أقل قليلًا من Xception وتفوق الشبكة ResNet50 الأعمق. هذا هو نتيجة ملحوظة عند النظر إلى هدف تقليل أوقات الاستدلال لاتخاذ إجراءات في الوقت الفعلي. في حين أن هذا ليس المساهمة الرئيسية في هذا العمل ، لا يزالنا نعتبره نتيجة مشجعة لتطويرات مستقبلية.’

يلاحظ الباحثون أيضًا ميزة متسقة لمدخلات RGBD ورمادية القناة المزدوجة أكثر من RGB ورمادية القناة البسيطة ، مشيرين إلى أن تحويلات الرمادي من الاستدلالات العميقة ، والتي تكون رخيصة حسابيًا ، تسمح للنموذج بالحصول على نتائج محسنة مع موارد محلية محدودة ، مما يسهل تطوير اكتشاف عمليات التزوير في الوقت الفعلي بناءً على معلومات العمق.

 

نشر لأول مرة في 24 أغسطس 2022.

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai