اتصل بنا للحصول على مزيد من المعلومات

اكتشاف مقاطع الفيديو المزيفة في مؤتمرات الفيديو باستخدام وظيفة "الاهتزاز" في الهاتف الذكي

الأمن السيبراني

اكتشاف مقاطع الفيديو المزيفة في مؤتمرات الفيديو باستخدام وظيفة "الاهتزاز" في الهاتف الذكي

mm
رسم توضيحي تم إنشاؤه بواسطة الذكاء الاصطناعي: "صورة بانورامية رائعة لرجل يجلس في مكتب، وينظر إلى هاتفه الذكي الذي يحمله؛ يرتدي الرجل قناع جاي فوكس؛ صورة واقعية، UHQ" - ChatGPT 3، الثلاثاء، 24 سبتمبر 2024 13:27:31

اقترح بحث جديد من سنغافورة طريقة جديدة للكشف عما إذا كان شخص ما على الطرف الآخر من أداة مؤتمرات الفيديو عبر الهاتف الذكي يستخدم طرقًا مثل ديب فيس لايف انتحال شخصية شخص آخر.

بعنوان س فاكييتخلى النهج الجديد عن الأساليب السلبية التي تستخدمها معظم الأنظمة، ويتسبب في إغلاق هاتف المستخدم. للاهتزاز (باستخدام نفس آليات "الاهتزاز" مشترك عبر الهواتف الذكية، وتشويش وجوههم بشكل خفي.

على الرغم من أن أنظمة التزييف المباشر قادرة بشكل متفاوت على تكرار ضبابية الحركة، طالما تم تضمين لقطات ضبابية في بيانات التدريب، أو على الأقل في بيانات ما قبل التدريب، فإنها لا تستطيع الاستجابة بسرعة كافية لهذا النوع من الضبابية غير المتوقعة، وتستمر في إخراج أقسام غير ضبابية من الوجوه، مما يكشف عن وجود مكالمة مؤتمرية مزيفة.

لا يمكن لـ DeepFaceLive الاستجابة بسرعة كافية لمحاكاة التشويش الناتج عن اهتزازات الكاميرا. المصدر: https://arxiv.org/pdf/2409.10889v1

لا يمكن لـ DeepFaceLive الاستجابة بسرعة كافية لمحاكاة التشويش الناتج عن اهتزازات الكاميرا. المصدر: https://arxiv.org/pdf/2409.10889v1

أظهرت نتائج الاختبار على مجموعة البيانات التي قام الباحثون بإنشائها ذاتيًا (نظرًا لعدم وجود مجموعات بيانات تعرض اهتزاز الكاميرا النشط) أن SFake تفوقت على طرق الكشف عن التزييف العميق القائمة على الفيديو، حتى في مواجهة ظروف صعبة، مثل حركة اليد الطبيعية التي تحدث عندما يكون الشخص الآخر في مؤتمر الفيديو يمسك الكاميرا بيده، بدلاً من استخدام حامل هاتف ثابت.

الحاجة المتزايدة إلى اكتشاف التزييف العميق المستند إلى الفيديو

ازدادت مؤخرًا الأبحاث المتعلقة بكشف التزييف العميق باستخدام الفيديو. بعد سنوات من النجاح في الكشف عن التزييف الصوتي، عمليات سرقة بتقنية Deepfakeفي وقت سابق من هذا العام، كان أحد العاملين في مجال المالية خداع تحويل 25 مليون دولار إلى محتال انتحل صفة مدير مالي في مكالمة فيديو مزيفة.

على الرغم من أن نظامًا من هذا النوع يتطلب مستوى عاليًا من الوصول إلى الأجهزة، فإن العديد من مستخدمي الهواتف الذكية اعتادوا بالفعل على الخدمات المالية وغيرها من أنواع التحقق التي تطلب منا تسجيل خصائص وجوهنا للمصادقة القائمة على الوجه (في الواقع، هذا جزء من عملية التحقق في LinkedIn).

ولذلك يبدو من المرجح أن يتم تطبيق هذه الأساليب بشكل متزايد على أنظمة مؤتمرات الفيديو، حيث يستمر هذا النوع من الجرائم في تصدر عناوين الأخبار.

تفترض معظم الحلول التي تعالج التزييف العميق في مؤتمرات الفيديو الفورية سيناريو ثابتًا للغاية، حيث يستخدم المُتصل كاميرا ويب ثابتة، ولا يُتوقع حدوث أي حركة أو تغيرات كبيرة في البيئة أو الإضاءة. لا توفر مكالمة الهاتف الذكي مثل هذا الوضع "الثابت".

بدلاً من ذلك، يستخدم SFake عددًا من طرق الكشف للتعويض عن العدد الكبير من المتغيرات المرئية في مؤتمر الفيديو الذي يتم عبر الهاتف الذكي المحمول، ويبدو أنه أول مشروع بحثي يعالج المشكلة باستخدام معدات الاهتزاز القياسية المضمنة في الهواتف الذكية.

ال ورقة بعنوان التخلص من الزيف: اكتشاف مقاطع الفيديو المزيفة في الوقت الفعلي عبر المجسات النشطةويأتي هذا البحث من باحثين اثنين من جامعة نانيانغ التكنولوجية في سنغافورة.

خدمة التوصيل

تم تصميم SFake كخدمة تعتمد على السحابة، حيث يقوم التطبيق المحلي بإرسال البيانات إلى خدمة API بعيدة لمعالجتها، ثم إرسال النتائج مرة أخرى.

ومع ذلك، فإن حجمها الصغير الذي يبلغ 450 ميجابايت فقط ومنهجيتها المحسنة تسمح لها بمعالجة اكتشاف التزييف العميق بالكامل على الجهاز نفسه، في الحالات التي قد يتسبب فيها اتصال الشبكة في ضغط الصور المرسلة بشكل مفرط، مما يؤثر على عملية التشخيص.

إن تشغيل "الكل محليًا" بهذه الطريقة يعني أن النظام سيكون لديه وصول مباشر إلى موجز كاميرا المستخدم، دون الترميز التداخل المرتبط عادة بمؤتمرات الفيديو.

يتطلب متوسط ​​وقت التحليل عينة فيديو مدتها أربع ثوانٍ، يُطلب من المستخدم خلالها البقاء ساكنًا، وخلالها يرسل SFake "مجسات" للتسبب في حدوث اهتزازات الكاميرا، على فترات عشوائية انتقائية لا تستطيع أنظمة مثل DeepFaceLive الاستجابة لها في الوقت المناسب.

(يجب التأكيد مجددًا على أن أي مهاجم لم يقم بتضمين محتوى غير واضح في مجموعة بيانات التدريب من غير المرجح أن يكون قادرًا على إنتاج نموذج يمكنه توليد عدم وضوح حتى في ظل ظروف أكثر ملاءمة، وأن DeepFaceLive لا يمكنه ببساطة "إضافة" هذه الوظيفة إلى نموذج تم تدريبه على مجموعة بيانات غير منظمة بشكل كافٍ)

يقوم النظام باختيار مناطق محددة من الوجه كمناطق لمحتوى مزيف محتمل، باستثناء العينين والحاجبين (نظرًا لأن الرمش والحركات الأخرى للوجه في تلك المنطقة تقع خارج نطاق اكتشاف التشويش، وليست مؤشرًا مثاليًا).

المخطط المفاهيمي لـ SFake.

المخطط المفاهيمي لـ SFake.

كما يمكننا أن نرى في المخطط المفاهيمي أعلاه، بعد اختيار أنماط الاهتزاز المناسبة وغير المتوقعة، والاستقرار على أفضل طول بؤري، وإجراء التعرف على الوجه (بما في ذلك اكتشاف المعالم عبر دليب (مكون يقدر 68 معلمًا قياسيًا للوجه)، يستمد SFake التدرجات من الوجه المدخل ويركز على مناطق مختارة من هذه التدرجات.

يتم الحصول على تسلسل التباين من خلال تحليل كل إطار بشكل تسلسلي في المقطع القصير قيد الدراسة، حتى يتم الوصول إلى التسلسل المتوسط ​​أو "المثالي"، وتجاهل الباقي.

هذا يوفر المستخرج ملامح والتي يمكن استخدامها كمقياس لاحتمالية المحتوى المزيف، استنادًا إلى قاعدة البيانات المدربة (والتي، بشكل أكثر لحظية).

يتطلب النظام دقة صورة تبلغ 1920×1080 بكسل، بالإضافة إلى متطلب تكبير 2x على الأقل للعدسة. وتشير الورقة إلى أن مثل هذه الدقة (وحتى الدقة الأعلى) مدعومة في Microsoft Teams وSkype وZoom وTencent Meeting.

تحتوي معظم الهواتف الذكية على كاميرا أمامية وأخرى ذاتية، وغالبًا ما تتمتع واحدة فقط من هاتين الكاميرتين بقدرات التكبير المطلوبة بواسطة SFake؛ وبالتالي يتطلب التطبيق من المتصل استخدام أيهما من الكاميرتين تلبي هذه المتطلبات.

الهدف هنا هو الحصول على نسبة صحيحة وجه المستخدم في بث الفيديو الذي سيحلله النظام. تشير الدراسة إلى أن متوسط ​​المسافة التي تستخدمها النساء للأجهزة المحمولة هو 34.7 سم، وللرجال 38.2 سم (كما هو موضح في الشكل XNUMX). وذكرت in مجلة البصريات)، وأن SFake يعمل بشكل جيد للغاية على هذه المسافات.

نظرًا لأن التثبيت يُمثل مشكلة في تصوير الفيديو باليد، ولأن التشويش الناتج عن حركة اليد يُعيق عمل SFake، فقد جرب الباحثون عدة طرق للتعويض. كان أنجحها حساب النقطة المركزية للمعالم المُقدّرة واستخدامها كـ"مُرساة" - وهي في الواقع تقنية تثبيت خوارزمية. وقد تم الحصول على دقة 92% بهذه الطريقة.

البيانات والاختبارات

وبما أنه لم تكن هناك مجموعات بيانات مناسبة لهذا الغرض، فقد قام الباحثون بتطوير مجموعات البيانات الخاصة بهم:

"نستخدم 8 ماركات مختلفة من الهواتف الذكية لتسجيل 15 مشاركًا من مختلف الجنسين والأعمار لبناء مجموعة البيانات الخاصة بنا. نضع الهاتف الذكي على حامل الهاتف على بعد 20 سم من المشارك ونقوم بالتكبير مرتين، ونهدف إلى وجه المشارك لتشمل جميع ملامح وجهه أثناء اهتزاز الهاتف الذكي بأنماط مختلفة.

بالنسبة للهواتف التي لا تدعم كاميراتها الأمامية خاصية التكبير/التصغير، نستخدم الكاميرات الخلفية كبديل. نسجل 150 مقطع فيديو طويلًا، مدة كل مقطع 20 ثانية. افتراضيًا، نفترض أن مدة الرصد 4 ثوانٍ. نقتطع 10 مقاطع، مدة كل منها 4 ثوانٍ، من مقطع فيديو طويل واحد، باختيار وقت البدء عشوائيًا. وبالتالي، نحصل على 1500 مقطع حقيقي، مدة كل مقطع 4 ثوانٍ.

رغم أن ديب فيس لايف (رابط GitHub) كان الهدف الرئيسي للدراسة، نظرًا لأنه يعد حاليًا نظام التزييف المباشر مفتوح المصدر الأكثر استخدامًا على نطاق واسع، فقد أدرج الباحثون أربع طرق أخرى لتدريب نموذج الكشف الأساسي الخاص بهم: هايفيفيس; FS-GANV2; RemakerAI، و تبديل الوجوه عبر الهاتف المحمول - الخيار الأخير هو خيار مناسب بشكل خاص، نظرا للبيئة المستهدفة.

تم استخدام 1500 مقطع فيديو مزيف للتدريب، إلى جانب عدد مماثل من مقاطع الفيديو الحقيقية وغير المعدلة.

تم اختبار SFake ضد العديد من المصنفات المختلفة، بما في ذلك الهيئة الفرعية للتنفيذ; فيس ايه اف; سي إن إن ديتيكت; شبكة إل آر نت; ديفاكيهوب المتغيرات؛ وخدمة الكشف عن التزييف العميق المجانية عبر الإنترنت ديباويربالنسبة لكل من طرق التزييف العميق هذه، تم تدريب 1500 مقطع فيديو مزيف و1500 مقطع فيديو حقيقي.

بالنسبة لمصنف الاختبار الأساسي، هناك طبقتان بسيطتان الشبكة العصبية مع وظيفة تنشيط ReLU تم استخدام 1000 مقطع فيديو حقيقي و1000 مقطع فيديو مزيف تم اختيارهم عشوائيًا (على الرغم من أن مقاطع الفيديو المزيفة كانت أمثلة DeepFaceLive حصريًا).

منحنى خصائص تشغيل منطقة أسفل جهاز الاستقبال (الجامعة الأمريكية بالقاهرة/الجامعة الأمريكية بالقاهرة) والدقة (ACC) تم استخدامها كمقياس.

للتدريب والاستنتاج، تم استخدام NVIDIA RTX 3060، وتم إجراء الاختبارات تحت نظام التشغيل Ubuntu. تم تسجيل مقاطع فيديو الاختبار باستخدام Xiaomi Redmi 10x، وXiaomi Redmi K50، وOPPO Find x6، وHuawei Nova9، وXiaomi 14 Ultra، وHonor 20، وGoogle Pixel 6a، وHuawei P60.

للتوافق مع طرق الكشف الحالية، تم تنفيذ الاختبارات في PyTorch. يتم توضيح نتائج الاختبار الأولية في الجدول أدناه:

نتائج SFake مقارنة بالطرق المنافسة.

نتائج SFake مقارنة بالطرق المنافسة.

وهنا تعليق المؤلفين:

"في جميع الحالات، تجاوزت دقة اكتشاف SFake 95%. ومن بين خوارزميات التزييف العميق الخمس، باستثناء Hififace، يعمل SFake بشكل أفضل ضد خوارزميات التزييف العميق الأخرى مقارنة بطرق الكشف الستة الأخرى. ونظرًا لأن المصنف الخاص بنا مدرب باستخدام صور مزيفة تم إنشاؤها بواسطة DeepFaceLive، فإنه يصل إلى أعلى معدل دقة بنسبة 98.8% عند اكتشاف DeepFaceLive.

عند مواجهة الوجوه المزيفة التي يُنتجها RemakerAI، تُعاني طرق الكشف الأخرى من ضعف الأداء. نعتقد أن السبب قد يكون الضغط التلقائي لمقاطع الفيديو عند تنزيلها من الإنترنت، مما يؤدي إلى فقدان تفاصيل الصورة، وبالتالي تقليل دقة الكشف. مع ذلك، لا يؤثر هذا على دقة الكشف التي تُحققها SFake، التي تُحقق دقة 96.8% في الكشف عن RemakerAI.

ويشير المؤلفون أيضًا إلى أن SFake هو النظام الأكثر أداءً في سيناريو التكبير 2x المطبق على عدسة الالتقاط، لأن هذا يبالغ في الحركة، وهو احتمال صعب للغاية. وحتى في هذا الموقف، كان SFake قادرًا على تحقيق دقة التعرف بنسبة 84% و83%، على التوالي لعوامل تكبير 2.5 و3.

الخاتمة

إن المشروع الذي يستخدم نقاط ضعف نظام التزييف العميق المباشر ضد نفسه هو عرض منعش في عام حيث هيمنت أوراق بحثية على اكتشاف التزييف العميق، والتي لم تفعل سوى إثارة الجدل. مبجل الأساليب المتبعة في تحليل التردد (والتي لا تزال بعيدة كل البعد عن كونها محصنة ضد الابتكارات في مجال التزييف العميق).

في نهاية عام 2022، تم استخدام نظام آخر مراقبة تباين السطوع كخطاف كاشف؛ وفي نفس العام، مظاهرتي الخاصة من عدم قدرة DeepFaceLive على التعامل مع المشاهدات الشخصية الصعبة بزاوية 90 درجة اكتسبت بعض مصلحة المجتمع.

إن DeepFaceLive هو الهدف الصحيح لمثل هذا المشروع، لأنه من المؤكد تقريبًا أنه محور الاهتمام الإجرامي فيما يتعلق بالاحتيال في مؤتمرات الفيديو.

ومع ذلك، فقد رأيت مؤخرًا بعض الأدلة القصصية التي تشير إلى أن صورة حية يتعامل النظام، الذي يحظى بشعبية كبيرة حاليًا في مجتمع VFX، مع مشاهدات الملفات الشخصية بشكل أفضل بكثير من DeepFaceLive؛ وكان من المثير للاهتمام لو تم تضمينه في هذه الدراسة.

 

نُشرت لأول مرة يوم الثلاثاء 24 سبتمبر 2024

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai