الذكاء الاصطناعي

GOTCHA- نظام CAPTCHA لتزييف عميق مباشر

تحديث on 9 كانون الأول، 2022

يضيف بحث جديد من جامعة نيويورك إلى المؤشرات المتزايدة التي تشير إلى أننا قد نضطر قريبًا إلى إجراء ما يعادل `` اختبار سكران '' من أجل توثيق أنفسنا ، قبل بدء مكالمة فيديو حساسة - مثل مؤتمر فيديو متعلق بالعمل ، أو أي سيناريو حساس آخر قد يجذب استخدام المحتالين التزييف العميق في الوقت الحقيقي برامج التدفق.

تم تطبيق بعض التحديات الإيجابية والسلبية على سيناريوهات مكالمات الفيديو في GOTCHA. يجب على المستخدم إما الانصياع للتحديات واجتيازها ، بينما يتم استخدام أساليب "سلبية" إضافية (مثل محاولة زيادة تحميل نظام التزييف العميق المحتمل) والتي لا يكون للمشارك أي تأثير عليها. المصدر: http://export.arxiv.org/pdf/2210.06186

تم تطبيق بعض التحديات الإيجابية والسلبية على سيناريوهات مكالمات الفيديو في GOTCHA. يجب على المستخدم الامتثال والتحديات واجتيازها ، بينما يتم استخدام طرق "سلبية" إضافية (مثل محاولة زيادة تحميل نظام التزييف العميق المحتمل) والتي لا يكون للمشارك أي تأثير عليها. المصدر: http://export.arxiv.org/pdf/2210.06186

يُطلق على النظام المقترح اسم GOTCHA - تكريمًا لأنظمة CAPTCHA التي أصبحت عقبة متزايدة أمام تصفح الويب على مدى السنوات العشر إلى الخمس عشرة الماضية ، حيث تتطلب الأنظمة الآلية من المستخدم أداء المهام التي لا تقوم بها الآلات ، مثل تحديد الحيوانات أو فك رموز النص المشوه (والمفارقة ، هذه التحديات غالبًا ما يتحول المستخدم في AMTالمعلق على غرار الاستعانة بمصادر خارجية).

في الأساس ، تمدد GOTCHA في أغسطس 2022 DF- كابتشا ورقة بحثية من جامعة بن غوريون ، والتي كانت أول من اقترح جعل الشخص في الطرف الآخر من المكالمة يقفز من خلال بعض الأطواق الدلالية بصريًا لإثبات صحتها.

اقترحت الورقة البحثية الصادرة في أغسطس 2022 من جامعة بن غوريون لأول مرة مجموعة من الاختبارات التفاعلية للمستخدم ، بما في ذلك تغطية الوجه ، أو حتى الضغط على بشرته - وهي مهام ربما لم تتوقعها أنظمة التزييف العميق الحية المدربة جيدًا أو لم تكن قادرة على التعامل معها بشكل واقعي. . المصدر: https://arxiv.org/pdf/2208.08524.pdf

والجدير بالذكر أن GOTCHA يضيف منهجيات "سلبية" إلى "سلسلة" من الاختبارات المقترحة ، بما في ذلك التراكب التلقائي للعناصر غير الواقعية على وجه المستخدم ، و "التحميل الزائد" للإطارات التي تمر عبر النظام المصدر. ومع ذلك ، يمكن تقييم المهام التي تستجيب للمستخدم فقط دون أذونات خاصة للوصول إلى النظام المحلي للمستخدم - والذي من المفترض أن يأتي في شكل وحدات أو إضافات محلية للأنظمة الشائعة مثل Skype و Zoom ، أو حتى في برنامج احتكاري مخصص مكلف على وجه التحديد بالتخلص من المزيفين.

من الورقة ، توضيح للتفاعل بين المتصل والنظام في GOTCHA ، مع خطوط منقطة مع تدفق القرار.

تحقق الباحثون من صحة النظام على مجموعة بيانات جديدة تحتوي على أكثر من 2.5 مليون إطار فيديو من 47 مشاركًا ، كل منهم يقوم بـ 13 تحديًا من GOTCHA. يزعمون أن إطار العمل يؤدي إلى انخفاض "ثابت وقابل للقياس" في جودة محتوى التزييف العميق للمستخدمين المحتالين ، مما يجهد النظام المحلي حتى توضح القطع الأثرية الخداع للعين البشرية المجردة (على الرغم من أن GOTCHA تحتوي أيضًا على بعض طرق التحليل الحسابية الأكثر دقة).

• ورقة جديدة بعنوان مسكتك: نظام الاستجابة للتحدي لاكتشاف التزييف العميق في الوقت الحقيقي (يتم كتابة اسم النظام بحروف كبيرة في النص وليس عنوان المنشور ، على الرغم من أنه ليس اختصارًا).

مجموعة من التحديات

وفقًا لورقة بن غوريون ، يتم تقسيم التحديات الفعلية التي تواجه المستخدم إلى عدة أنواع من المهام.

في حالة إنسداد، يُطلب من المستخدم إما إخفاء وجهه بيده ، أو بأشياء أخرى ، أو تقديم وجهه بزاوية من غير المحتمل أن يكون قد تم تدريبها على نموذج التزييف العميق (عادةً بسبب نقص بيانات التدريب لـ ' وضعيات غريبة - انظر مجموعة الصور في الرسم التوضيحي الأول أعلاه).

إلى جانب الإجراءات التي قد يؤديها المستخدم بنفسه وفقًا للتعليمات ، يمكن لـ GOTCHA فرض قطع عشوائية للوجه ، وملصقات ، وفلاتر الواقع المعزز ، من أجل `` إفساد '' تيار الوجه الذي قد يتوقعه نموذج التزييف العميق المحلي ، مما يؤدي إلى فشلها . كما أشرنا من قبل ، على الرغم من أن هذه عملية "سلبية" للمستخدم ، إلا أنها عملية تطفلية للبرنامج ، والتي يجب أن تكون قادرة على التدخل مباشرة في تدفق المراسل النهائي.

بعد ذلك ، قد يُطلب من المستخدم وضع وجهه في تعبيرات وجه غير عادية من المحتمل أن تكون إما غائبة أو ممثلة تمثيلاً ناقصًا في أي مجموعة بيانات تدريبية ، مما يتسبب في انخفاض جودة الإخراج العميق (الصورة "ب" ، العمود الثاني من اليسار ، في الرسم التوضيحي الأول أعلاه).

كجزء من سلسلة الاختبارات هذه ، قد يُطلب من المستخدم قراءة نص أو إجراء محادثة مصممة لتحدي نظام التزييف العميق المحلي ، والذي قد لا يكون قد درب مجموعة كافية من الصوتيات أو أنواع أخرى من بيانات الفم إلى مستوى حيث يمكن إعادة بناء حركة الشفاه بدقة تحت هذا الفحص.

أخيرًا (ويبدو أن هذا الشخص يتحدى المواهب التمثيلية للمراسل النهائي) ، في هذه الفئة ، قد يُطلب من المستخدم أداء تعبير دقيق '- تعبير وجه قصير لا إرادي يكذب عاطفة. من هذا ، تقول الصحيفة "[إنها] عادة ما تستغرق 0.5-4.0 ثانية ، ومن الصعب التزييف".

على الرغم من أن الورقة البحثية لا تصف كيفية استخراج التعبير الجزئي ، فإن المنطق يشير إلى أن الطريقة الوحيدة للقيام بذلك هي خلق عاطفة مناسبة لدى المستخدم النهائي ، ربما من خلال تقديم نوع من المحتوى المذهل لهم كجزء من روتين الاختبار .

تشويه الوجه والإضاءة و ضيوف غير متوقعين

بالإضافة إلى ذلك ، تماشياً مع الاقتراحات الواردة في ورقة أغسطس ، يقترح العمل الجديد مطالبة المستخدم النهائي بإجراء تشوهات وتلاعبات غير عادية في الوجه ، مثل الضغط بإصبعه على خده ، والتفاعل مع الوجه و / أو الشعر ، وإجراء عمليات أخرى. الحركات التي لا يحتمل أن يكون نظام التزييف العميق الحالي قادرًا على التعامل معها بشكل جيد ، نظرًا لأن هذه إجراءات هامشية - حتى لو كانت موجودة في مجموعة بيانات التدريب ، فمن المحتمل أن يكون استنساخها منخفض الجودة ، بما يتماشى مع البيانات "الخارجية" الأخرى.

ابتسامة ، لكن هذا "الوجه المكتئب" لا يُترجم جيدًا بواسطة نظام التزييف العميق المحلي.

يكمن التحدي الإضافي في تغيير ظروف الإضاءة التي يقع فيها المستخدم النهائي ، حيث من الممكن أن يكون تدريب نموذج التزييف العميق قد تم تحسينه ليناسب مواقف إضاءة مؤتمرات الفيديو القياسية ، أو حتى ظروف الإضاءة الدقيقة التي تجري فيها المكالمة .

وبالتالي قد يُطلب من المستخدم أن يضيء المصباح على هاتفه المحمول على وجهه ، أو بطريقة أخرى يغير الإضاءة (وتجدر الإشارة إلى أن هذا المسار هو الاقتراح المركزي لـ ورقة أخرى للكشف عن التزييف العميق التي خرجت هذا الصيف).

تواجه أنظمة التزييف العميق المباشر تحديات بسبب الإضاءة غير المتوقعة - وحتى من قِبل العديد من الأشخاص في البث ، حيث كانت تتوقع شخصًا واحدًا فقط.

في حالة النظام المقترح الذي يمتلك القدرة على التدخل في تدفق المستخدم المحلي (الذي يشتبه في أنه يؤوي وسيطًا مزيفًا عميقًا) ، فإن إضافة أنماط غير متوقعة (انظر العمود الأوسط في الصورة أعلاه) يمكن أن يضر بقدرة خوارزمية التزييف العميق على الحفاظ على المحاكاة .

بالإضافة إلى ذلك ، على الرغم من أنه من غير المعقول توقع أن يكون لدى المراسل أشخاص إضافيون في متناول اليد للمساعدة في التحقق من مصادقتهم ، يمكن للنظام مقاطعة وجوه إضافية (أقصى اليمين الصورة أعلاه) ، ومعرفة ما إذا كان أي نظام محلي للتزييف العميق يرتكب خطأ تبديل الانتباه - أو حتى محاولة التزييف العميق لهم جميعًا (لا تتمتع أنظمة التزييف العميق للتشفير التلقائي بإمكانيات "التعرف على الهوية" التي يمكن أن تركز الانتباه على فرد واحد في هذا السيناريو).

إخفاء المعلومات والحمل الزائد

يدمج GOTCHA أيضًا نهجًا اقترح لأول مرة بواسطة جامعة كاليفورنيا في سان دييغو في أبريل من هذا العام ، والتي تستخدم تقنية إخفاء المعلومات لتشفير رسالة في دفق الفيديو المحلي للمستخدم. ستدمر إجراءات Deepfake هذه الرسالة تمامًا ، مما يؤدي إلى فشل المصادقة.

من ورقة بحثية في أبريل 2022 من جامعة كاليفورنيا سان دييغو وجامعة ولاية سان دييغو ، طريقة لتحديد الهوية الحقيقية من خلال معرفة ما إذا كانت إشارة إخفاء المعلومات المرسلة إلى دفق فيديو المستخدم تنجو من الحلقة المحلية كما هي - إذا لم يحدث ذلك ، فإن التزييف العميق قد يكون في متناول اليد. المصدر: https://arxiv.org/pdf/2204.01960.pdf

من ورقة بحثية في أبريل 2022 من جامعة كاليفورنيا سان دييغو وجامعة ولاية سان دييغو ، طريقة لتحديد الهوية الأصلية من خلال معرفة ما إذا كانت إشارة إخفاء المعلومات المرسلة إلى دفق الفيديو الخاص بالمستخدم تنجو من الحلقة المحلية كما هي - إذا لم يحدث ذلك ، فإن التزييف العميق قد يكون في متناول اليد. المصدر: https://arxiv.org/pdf/2204.01960.pdf

بالإضافة إلى ذلك ، فإن GOTCHA قادرة على زيادة التحميل على النظام المحلي (مع منح إذن الوصول والإذن) ، من خلال تكرار تدفق وتقديم بيانات "مفرطة" إلى أي نظام محلي ، مصمم للتسبب في فشل النسخ المتماثل في نظام التزييف العميق المحلي.

يحتوي النظام على مزيد من الاختبارات (انظر الورقة للحصول على التفاصيل) ، بما في ذلك التحدي ، في حالة المراسل عبر الهاتف الذكي ، لقلب هاتفه رأسًا على عقب ، مما يؤدي إلى تشويه نظام التزييف العميق المحلي:

مرة أخرى ، لن يعمل هذا النوع من الأشياء إلا مع حالة استخدام مقنعة ، حيث يُجبر المستخدم على منح وصول محلي إلى الدفق ، ولا يمكن تنفيذه من خلال التقييم السلبي البسيط لفيديو المستخدم ، على عكس الاختبارات التفاعلية (مثل الضغط على إصبع في وجهه).

التطبيق العملي

تتطرق الورقة بإيجاز إلى المدى الذي يمكن أن تزعج فيه الاختبارات من هذا النوع المستخدم النهائي ، أو تزعجه بطريقة ما - على سبيل المثال ، من خلال إلزام المستخدم بوجود عدد من العناصر التي قد تكون مطلوبة للاختبارات ، مثل النظارات الشمسية.

كما تقر بأنه قد يكون من الصعب إقناع مراسلين أقوياء بالامتثال لإجراءات الاختبار الروتينية. فيما يتعلق بحالة مكالمة فيديو مع رئيس تنفيذي ، ذكر المؤلفان:

قد تكون قابلية الاستخدام أساسية هنا ، لذا قد لا تكون التحديات غير الرسمية أو التافهة (مثل تشوهات الوجه أو تعابيره) مناسبة. قد لا تكون التحديات باستخدام المواد المادية الخارجية مرغوبة. تم تعديل السياق هنا بشكل مناسب وتكيف GOTCHA مجموعة التحديات الخاصة به وفقًا لذلك.

البيانات والاختبارات

تم اختبار GOTCHA مقابل أربع سلالات من نظام التزييف العميق المباشر المحلي، بما في ذلك نوعان مختلفان من منشئ التزييف العميق ذو التشفير التلقائي الشهير جدًا ديب فيس لاب (مع ذلك ، من المدهش أن الصحيفة لم تذكر ديب فيس لايف، الذي كان، منذ أغسطس 2021، التنفيذ المباشر لـ DeepFaceLab ، ويبدو أنه المورد الأولي المحتمل لمزيف محتمل).

تم تدريب الأنظمة الأربعة على DFL "بشكل خفيف" على شخص غير مشهور يشارك في الاختبارات ، وزوج من المشاهير ؛ تم تدريب DFL بشكل كامل ، إلى 2 مليون + تكرارات أو خطوات ، حيث يتوقع المرء نموذجًا أكثر أداءً ؛ مؤثر للصور الكامنة (LIA) ؛ و شبكة الخصومة التوليدية لمبادلة الوجه (FSGAN).

بالنسبة للبيانات ، قام الباحثون بالتقاط وتنظيم مقاطع الفيديو المذكورة أعلاه ، والتي تضم 47 مستخدمًا يؤدون 13 تحديًا نشطًا ، مع إخراج كل مستخدم حوالي 5-6 دقائق من فيديو 1080 بكسل بمعدل 60 إطارًا في الثانية. يذكر المؤلفون أيضًا أن هذه البيانات سيتم نشرها علنًا في النهاية.

يمكن إجراء اكتشاف الشذوذ إما بواسطة مراقب بشري أو باستخدام الخوارزميات. بالنسبة للخيار الأخير ، تم تدريب النظام على 600 وجه من مجموعة بيانات FaceForensics. كانت وظيفة فقدان الانحدار هي تشابه تصحيح الصورة الإدراكية المتعلم القوي (LPIPS) ، بينما تم استخدام الانتروبيا الثنائية لتدريب المصنف. إيجينكام تم استخدامه لتصور أوزان الكاشف.

النتائج الأولية من اختبارات GOTCHA.

وجد الباحثون أنه بالنسبة للتسلسل الكامل للاختبارات عبر الأنظمة الأربعة ، تم الحصول على أقل عدد وشدة من الحالات الشاذة (أي القطع الأثرية التي من شأنها أن تكشف عن وجود نظام التزييف العميق) من خلال توزيع DFL عالي التدريب. كافحت النسخة الأقل تدريبًا على وجه الخصوص لإعادة إنشاء حركات الشفاه المعقدة (التي تشغل القليل جدًا من الإطار ، ولكنها تحظى باهتمام بشري كبير) ، بينما احتلت FSGAN الوسط بين نسختين من DFL ، وأثبت LIA أنه غير مناسب تمامًا للمهمة ، مع رأي الباحثين أن LIA ستفشل في نشر حقيقي.

نُشر لأول مرة في 17 أكتوبر 2022.

مواضيع ذات صلة:مزيفة عميقة deepfake DeepFakes بحث

تحرير الكائنات بمساعدة الذكاء الاصطناعي باستخدام Imagic and Runway من Google "المسح والاستبدال"

لا تفوت

تتبع أجهزة الكشف عن التزييف العميق أرضية جديدة: نماذج الانتشار الكامن وشبكات GAN

مارتن أندرسون

كاتب في التعلم الآلي والذكاء الاصطناعي والبيانات الضخمة.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai

اتحدوا

GOTCHA- نظام CAPTCHA لتزييف عميق مباشر

الذكاء الاصطناعي